当前位置: 首页 > 采购需求

文本分类、聚类工具

发布时间:2019-06-11 对接截止时间:2019-06-14 点击数:0 已对接企业数量:
功能用途

实现基于文本分类、聚类等自然语言处理技术对爬取的全球开源智库文章进行智能数据分析处理。

主要指标

1、技术要求:                                    
2.1.1 文本分类数据标注
2.1.1.1 功能要求
标注数据用于进行文本分类。
1) 按照中图法标注和甲方要求进行标注;
2) 标注的数据来源为参考消息、人民日报等。
2.1.1.2 性能要求
1) 标注文档数≥1万篇
2.1.2 开源数据获取
2.1.2.1 功能要求
2.1.2.1.1 智库数据爬取
对指定的不小于10个的智库网站进行数据收集,主要内容包括:
1) 首次数据获取:能够从智库网站上获取2年内相关文章,以文件形式存储在本地;
2) 增量数据获取:能够从智库网站上定期获取更新文章,以文件方式存储在本地;
3) 特定内容获取:能够以关键字为条件爬取相关内容;
4) 爬取网站可扩展:可在使用中增加或删除爬取的智库网站;
2.1.2.1.2 JYMB航迹获取
1) 通过开源手段获取航迹数据,数据类型包括:
a) 空中JYMB航迹;
b) 我国周边空中MYMB航迹;
c) 海上JYMB航迹;
d) 我国周边海上MYMB。
2) 数据存储为oracle导出文件。
2.1.2.2 性能要求
1) 数据更新频次不低于1次/天;
2) 爬取智库网站的个数不少于10个;
3)   空中JYMB航迹要求:总航迹数量大于20000条,其中我国周边航迹大于2000条;
4) 我国周边空中MYMB航迹大于100000条;
5) 海上JYMB航迹要求:总航迹大于20000条,其中我国周边航迹大于2000条;
6) 我国周边海上MYMB航迹大于100000条。
2.1.3 数据预处理及摆渡
2.1.3.1 功能要求
对爬取的文章进行数据预处理,主要包括:
1) 数据去重:对重复性高于90%的文章进行去重;
2) 文章元信息提取:对文章的URL、标题、作者、时间、正文、版块等进行数据提取;
3) 文本抽取:对pdf、word、html等格式的文章具备内容抽取的功能;
4) 数据摆渡:将爬取的文章及相应的元数据进行打包,便于数据刻录摆渡入内网进行处理。
2.1.4 数据分析
2.1.4.1 功能要求
针对智库文章进行信息抽取、分类聚类和分析处理,主要内容包括:
1) 信息抽取
a) 实体识别:通过命名实体识别,识别出文章出现的人物、组织机构、团体等实体;
b) 实体关系的抽取:对识别出的实体之间的关系进行抽取;
c) 摘要生成:生成文章的摘要;
2) 文本分类:数据类别训练分类模型对文本进行类别管理、模型训练、文本分类,按照分类结构和分类结果提供文本企业语义;
3) 文本聚类:提供无监督对文本聚类,提供聚类后的类别关键词。
2.1.4.2 性能要求
1) 提取速度大于等于10兆/分钟;
2) 分析速度大于等于10兆/分钟。
2.1.5 数据存储
2.1.5.1 功能要求
1) 数据索引:具备对下载的智库文章进行全文索引的能力;
2) 数据存储:具备原始智库文章和元数据,以及数据分析结果存储的能力。
2.1.5.2 性能要求
1) 数据写入速度:不小于500条/秒(在单条数据不大于20KB情况下)。
2.1.6 数据应用
2.1.6.1 功能要求
1) B/S架构:以web形式提供人机交互;
2) 数据导航:根据数据分析出来的结果,提供数据导航的功能。
3) 全文检索:提供关键字检索、模糊匹配和查询扩展的全文检索能力;
4) 高级检索:提供按文章元数据、分类聚类结果进行高级检索的能力;
5) 相似文章推荐:找出与文章内容相似的文章,显示出文章的标题和作者并提供文章超链接;
6) 搜索历史记录:具备基于用户的搜索历史记录功能;
2.1.6.2 性能要求
1) 在10万篇文章数据的条件下,检索时间小于等于2秒。
2.1.7 报表可视化支撑
2.1.7.1 功能要求
1) 文章关键词统计:具备文章关键词统计功能,并可以进行统计结果的柱状图、饼状图、折线图、网状图表达能力。
2) 提供针对单一事件的演变时光轴生成功能,具备从时间节点检索出相关实体的能力。
2.1.7.2 性能要求
统计响应时间小于等于3秒。


2、申请人资格条件:
1)具有独立承担民事责任的能力;
2)具有良好的商业信誉和健全的财务会计制度;
3)具有履行合同所必需的设备和专业能力;
4)有依法缴纳税收和社会保障资金的良好记录;
5)法律、行政法规定的其他条件。
3、资格预审申请文件内容及要求:
(1) 本采购需求公告查询打印页;
(2) 介绍信或法定代表人授权书原件;(原厂或指定唯一代理)
(3) 被授权人身份证复印件加盖公章;
(4) 营业执照副本复印件加盖公章;
(5) 复印件加盖公章:CMMI或GJB5000认证证书、三级(含)以上保密资格单位认证证书、计算机信息系统集成资质或装备承制资格证书。
4、资格预审申请文件编制及递交要求:
1)申请人提交的各项资料均须加盖本单位公章,统一用A4纸编写并按上述顺序装订成册,一式1份加1张电子扫描光盘。封面必须标明本公告标题及单位名称。
2) 有意向的投标人请于公示期截止前,以邮寄方式,提供上述公司资质信息材料(邮寄地址:成都市一环路西一段118号 徐先生(收)电话18328640923),并将公司名称、联系人、拟报名的项目名称以短信形式发送至值班电话18884176152(值班电话仅接受短信,不接受电话咨询),我方收到后24小时内短信回复。无短信报名,逾期报名,送达的文件将不予接受。
5、资格预审方法:
由采购人审核报名并提交资格预审文件的申请人资质,符合条件的申请人可以参加需求对接等。
地  址:四川省成都市一环路西一段118号
采购人:邵女士 13551145265 仅接受商务问题咨询,咨询前必须先短信告知项目名称及咨询内容
技术负责人: 王先生 18030581571 仅接受技术问题咨询,咨询前必须先短信告知项目名称及咨询内容.

 

上一篇: 没有了
声明:本内容由军队相关单位提供,任何媒体、互联网站和商业机构不得擅自转载。
var cnzz_protocol = (("https:" == document.location.protocol) ? " https://" : " http://");document.write(unescape("%3Cspan id='cnzz_stat_icon_1254143054'%3E%3C/span%3E%3Cscript src='" + cnzz_protocol + "s11.cnzz.com/z_stat.php%3Fid%3D1254143054' type='text/javascript'%3E%3C/script%3E"));