网站公告数据收集 Crawler

背景 出于市场调研的目的,需要获取迈瑞医疗中标信息(都是公开数据)的一手数据。   需求 1、从中国政府采购网(3W.ccgp.gov.cn)上,获取迈瑞医疗相关的中标数据,并写入数据库和生成Excel表格。 2、该表格可以统计迈瑞医疗在任何一个年份、月份,或者任何一个省份,中标的总金额。以及用什么产品,在哪个采购方中标的。 3、网页首页——信息公告——高级检索——输入关键字“迈瑞”——搜全文,就可以获得所有包含迈瑞的产品中标的公告。 4、用程序读取公告,并获得相关的信息,写入数据库中的数据表。 5、表格的格式,参考附件excel的格式。   要求: 1、 Excel表格中的所有字段,都是必须获取的信息,需要获取完整,除非原文没有该信息。 2、 只获取迈瑞中标的内容,其他厂商中标的内容不关心。 3、 采购人省份,可以用正则算法从采购人城市计算得出。需要推算得完全正确。 4、 设备名称和设备型号,需要与公告的内容逐字完全一致。 5、 字段解释 日期——一般是在公告的最上端,也就是公告发布的时间。 项目编号——项目的编号那一串字符,以文本格式保存。 采购人名称——来源于公告正文中,解析采购人信息中的“名称”。 采购人联系方式——来源于公告正文中,解析采购人信息中的“联系方式”。 采购人城市——来源于公告正文中,解析采购人信息中的“地址”。 采购人省份——采购人所属的省份,可以从城市推算出来,也可以从名称或者地址解析出来。 设备名称——来源于公告正文中,解析设备列表的内容。在不同的公告中,可能叫做“品目编号及品目名称”、“货物名称”、“名称”,等等。 设备型号——来源于公告正文中,解析设备列表的内容。在不同的公告中,可能叫做“品牌型号”、“规格型号”、“货物型号”,等等。 数量——来源于公告正文中,解析设备列表的内容。如果公告没有给出数量,填写0。 单价——该型号产品的单价。有些公告中将多个产品打包在一起,如果公告打包则打包填表;如果公告有明细,则按明细填表。 总价——数量*单价。在不同的公告中,可能叫做“总额”、“合计”、甚至有些报告会用“单价”,等等不同的情况。在有些公告中,也会出现合计金额,不等于数量*单价的错误(应该算是笔误)。以直接从公告中获取的总价为准。   如项目(项目编号因不符合ZBJ录入规则,具体请参考附件),将迈瑞的设备和其他品牌的设备,打包在一起,无法分割。则将公告中“HAMILTON-C3、Consona N8等”填入设备型号,单价填入0,数量填入1,合计填入2879800.00。 如项目GSXTM-2022-140(LT),金额的单位是万元。因此原报告上的单价是4.8。需要转换成48000,再写入数据表。 如项目HBZS-202212ZC-033中,只需要获取迈瑞的中标内容,排除“江苏医尔健康”的中标内容。         交付物: 1、Java源代码 2、代码交付的培训(不少于2小时) 3、数据库和数据表(mysql) 4、Excel表格   验收方式 1、  总数据行数跟网站返回值一致。中标数量,不能有任何缺失。 2、  甲方随机挑选表格中的10行数据,根据项目编号,对比公告中的内容与表格中的内容,是否一致。 3、  一致程度达到全部正确,为合格。支付全额费用。  

数据处理软件开发深圳市

需人才报价 查看详情

数据收集处理需求外包介绍
本页是猪八戒网为您找到的数据收集处理需求外包信息,包括威客参与数、剩余参与机会及截止日期等,为个人及公司、企业提供最新最全的数据收集处理需求外包信息,查找数据收集处理需求,尽在猪八戒网。
数据收集处理需求推荐