随着信息数量的骤然增加,消费者要想找出有用信息需要消耗大量精力.因此对这些散落在Html网页中无结构的信息进行提取、分析,不仅能够帮助消费者从海量的文本中快速获得有效的信息,节省人力成本,也可以帮助企业改进产品、提高质量,从而为产品推荐提供一种新的营销模式.为有效的抽取互联网上的信息,网络文本信息非结构化数据抽取技术、网络文本信息采集技术和细粒度数据挖掘技术应用而生.信息抽取技术是通过对网页进行处理,从半结构化或者非结构化的Web页面中抽取出用户感兴趣的信息和内容,并将其转化成清晰的结构形式.
为了适应信息应用的需求,越来越多的使用信息抽取技术,目标是从海量、冗余、异构、不规范、含有大量噪声的网页中大规模地抽取开放类别的实体、关系、事件等多层次语义单元信息,并形成结构化数据格式输出。其特点在于:① 文本领域开放:处理的文本领域不再限定于规范的新闻文本或者某一领域文本,而是不限定领域的网络文本;② 语义单元类型开放:所抽取的语义单元不限定类型,而是自动地从网络中挖掘语义单元的类型,例如实体类型、关系类型和事件类型等;③ 以“抽取”替代“识别”:相对于传统信息抽取,开放式文本信息抽取不再拘泥于从文本中精确识别目标信息的每次出现,而是充分利用网络数据海量、冗余的特性,以抽取的方式构建面向实际应用的多层次语义单元集合。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR语义智能平台KGB知识图谱引擎是基于汉语词法分析,采用KGB语法从结构化数据与非结构化文档中抽取各类知识,大数据语义智能分析与知识推理,深度挖掘知识关联,实时高效构建知识图谱。KGB知识图谱引擎核心技术与特色:
1、 KGB知识抽取
KGB(Knowledge Graph Builder)知识图谱引擎是我们自主研发的知识图谱构建与推理引擎,基于汉语词法分析的基础上,采用KGB语法实现了实时高效的知识生成,可以从非结构化文本中抽取各类知识,并实现了从表格中抽取指定的内容等。
KGB知识图谱引擎可以定义不同的动作,增加、删除、修改、抽取等等。每一类动作还能自定义各类后处理程序。
2 、语义智能分析
NLPIR大数据语义智能分析针对大数据内容采编挖搜的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的最新研究成果,先后历时十八年,服务了全球四十万家机构用户,是大数据时代语义智能分析的一大利器。
NLPIR大数据语义智能分析十三大功能:精准采集、文档抽取、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索与编码转换。
3 、语义精准搜索
JZSearch大数据语义精准搜索引擎:是灵玖软件联合中科院与北理工的信息检索专家,针对大数据垂直搜索需求的全文智能检索引擎,融合了自然语言理解、网络搜索和文本挖掘的技术,通过人机互动、深度机器学习后具有一定的语义推理能力,是结合了人工智能技术的新一代搜索引擎,具有专业精准、高扩展性和高通用性的特点。
随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。