近年来,自然语言处理一直在快速发展。随着词表和语料库等研究材料逐渐丰富,词语切分、词性标注、句法分析等技术的进步,自然语言研究不断推出新模型,这些研究的进展也扩展了自然语言的应用领域和场景。同时,随着互联网和社会经济的关系逐渐紧密,企业发展也带来了自然语言处理的市场需求。
我国的自然语言处理研究是从上世纪80年代开始的,目前为止,在语料库、知识库等数据资源建设,词语切分、句法分析等基础技术,以及信息检索、机器翻译等应用技术方面均在不断实现新突破。这些功能应用于实践当中,将文本进行分词之后,再利用关键词匹配,能够完成信息检索、文本分类、拼写纠错、情感分析、关键词提取、关联图谱构建等任务。
但是在应用层次,现在自然语言处理工具功能单一,缺乏一站式全链条的语义分析工具。目前已经有大量的研究者分别对自然语言处理中的各个关键点上问题进行,研究开发出了一些开源的工具,有的只是单一功能,有的具有多个功能,但不是全链条。如urllib2、Scrapy、Pyspider等提供信息抓取工具;jieba提供分词工具; SnowNLP提供分词、情感分析、文本分类、转换成拼音、繁简转换、文本关键词 和文本摘要提取、计算文档词频和文本相似度计算等工具;sklearn提供分类、聚 类、回归、预处理、模型选择等工具;HanNLP提供中文分词,命名实体识别, 关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法 分析工具,但只有在java上可以用,而且配置、安装复杂;哈尔滨工业大学语言技术平台LTP提供中文分词、词性标注、命名实体识别、依存句法分析、语义角 色标注等工具,但需要根据API参数构造HTTP请求在线获得分析结果;
针对众多研究者对自然语言处理的迫切需求与实际挑战,NLPIR-Parser历时 20余年,为一般用户提供了语义智能分析的全链条一站 式服务,也为软件工程师提供了二次开发接口。NLPIR-Parser平台能够实现的功能包括精准采集, 文档格式转换、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索和编码转换十三项独立功能,能够实现从数据的采集预处理、自然语言处理到文本挖掘、信息检索再到可视化呈现、结果导出等全链条的各个功能。