一、技术优势(一)大数据应用架构紧密结合自然语言处理、大数据、人工智能、地理信息系统等多学科理论与方法,形成“分布式采集及数据接入-结构化抽取-知识化表示-时空化集成-可视化挖掘”的研究思路,应用架构包括数据源层、数据层、数据预处理和大数据中心层、业务模型和业务应用层。(二)大数据采集能力1、分布式部署:根据采集的任务量与周期的变化,通过队列衔接采用模块化机制,对采集节点可灵活部署及扩展。2、任务自动调度:引入MQ队列机制,实现任务的自动调度,并依据任务的活跃程度动态调整采集周期,提高任务的执行效率。3、智能反反爬技术:使用IP代理、智能代理、打码平台及Cookie等技术,可以绕过网站反爬机制,实现大规模的数据采集。4、内容自动识别:对新闻、论坛等网站的插件自动识别,内容自动提取;对新模板采用xml文件方式进行插件配置,降低编写难度,提高维护效率。(三)大数据处理能力
超级计算中心(云计算中心)计算峰值超过1000万亿次/秒,是海西地区规模最大的计算平台。为国内首家由企业承建及运营的超级计算中心,境内外服务器部署超过2000台,为网络信息安全与舆情信息处理提供强大的硬件支持。
(四)知识图谱构建能力采用自底向上的方式构建知识图谱,通过“信息抽取-知识融合-知识加工”的更新步骤,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素(即事实),并将其存入知识库。