研究方向

专利信息抽取

  • 抽取专利文本中的命名实体和语义关系

    Distribution of Syntactic Complexity

专利信息抽取是大数据时代专利文本分析的基础技术,然而目前专利信息抽取方法依然依赖人工规则和第三方文本挖掘工具,成本高、效率低、主观性强、真实效果难以测度。对此,我们做了两件事情:(1)创建一套包含命名实体和语义关系标注的专利摘要数据集,以缓解当前专利标注数据集稀缺的问题;(2)将前沿信息抽取技术,即深度学习技术作为核心模块引入专利信息抽取方法研究中来,以有监督学习模式从标引数据中学习信息抽取规则,并以测试集作为金标准,采用定量方式来测度抽取效果。实验结果对比分析显示,新方法不仅自动化程度较高、抽取信息的类型丰富,而且在抽取结果的正确程度上远超传统SAO方法。

Distribution of Syntactic Complexity 我们在1576篇专利摘要上利用新方法进行信息抽取并创建技术功效矩阵。相比传统人工方法,新方法不仅可以有效应对大数据时代的信息过载问题,消除对专家资源的依赖,产生的技术功效矩阵具有客观、准确、高效。此外,我们注意到深度学习方法相对传统方法,在信息抽取效果上虽然表现出明显优势,但也留下了巨大的提升空间。最明显的就是,无论BiLSTM-CRF还是BiGRU-HAN,均为信息抽取的通用模型,并未针对专利文本的独有特点进行设计和优化。实际上,这正是当前人工智能技术向专业领域渗透过程中面临的突出问题,即人工智能技术在专业领域本地化环节上的缺失。回到信息抽取上,要解决人工智能技术在专利挖掘上的本地化,不仅需要研究者深度理解专利的特殊性,更要将其合理地抽象成模型语言和特征表示,并获得超出通用模型的预测结果。因此,我们以信息抽取的关键环节-语义关系分类为例,对深度学习如何在专利领域本地化展开探索并给出我们的方案。

Chen, L., Xu, S*., Zhu, L. et al. A deep learning based method for extracting semantic information from patent documents. Scientometrics 125, 289–312 (2020). [doi]

  • 专利关键词抽取方法研究

    Distribution of Syntactic Complexity

相比论文题录中包含明确的关键词信息,专利信息所提供的标注信息相对含混晦涩。首先,专利文献并不提供关键词列表辅助读者理解专利内容;其次,虽然每个专利都具有技术分类编码信息,然而这些编码所依附的技术分类体系一是粒度相对粗糙,二是与专利文本中实体、概念的对应关系不明,三是与技术发展前沿存在时滞,因而无法依靠技术分类编码快速批量了解专利内容。在本章中,我们在主题模型的框架内,使用两种方法对专利信息进行智能标注,以帮助用户快速批量解读专利内容,其一是以unigram方法从专利数据集中学习到技术分类号所对应的主题词汇列表,从而将粗糙的技术分类信息细化为具体的专利词汇;其二是针对专利文本中存在较多词组型实体、概念的现象,我们将前述方法升级到ngram,使其不仅可以学习到技术分类号所对应的主题词汇列表,而且具有一定的关键词抽取能力。

技术演化路径分析

  • 基于语义的多技术路径抽取方法研究

    Algorithm Influence in NLP (1979~2015)

作为一种可以直接从专利引文关系网络中提炼出技术演化路径的方法,主路径分析法已经在社会网络分析软件Pajek上得以实现。它方便、快捷,但也存在广阔的扩展空间:主路径在抽取过程中只考虑网络的拓扑属性,但专利本身的语义信息和相连专利的关联信息同样是主路径抽取过程中的重要参考,事实上集成了语义信息和关联信息的主路径可以为我们提供更加全面、合理和反映细粒度技术领域内的技术演化过程的主路径。这也构成了我们在本方向研究的主要内容:将文本内容和引文信息相结合,在提出了一套全新的语义主路径分析框架的基础上,进一步给出候选路径搜索算法和最终路径选择策略上的优化方案。

知识产权领域的智慧法律

  • 利用元路径提升的专利无效对比文件判断方法研究

    Attention-mechanism-based keyphrase extraction models

专利文献是专利战中进行无效宣告和侵权诉讼的重要证据来源,长期以来证据专利的查找是一门手艺,不仅需要操作人员具有必要的领域基础知识,是一个“领域技术人员”,而且需要长期的专利检索技能训练和实践才能够达到熟练水平。即便如此,证据专利查找依然成本高、效率低,而相关知识产权服务更是在时间和收费上代价不菲,小微企业难以承担。如何利用人工智能技术大幅降低知识产权服务门槛、普惠大众,不仅意义深远,在智慧法律快速发展的今天,其可行性也日渐突出。 团队目前在该领域聚焦专利无效对比文件查找问题,为解决专利中独特语言现象为专利无效对比文件判断带来的困扰,我们提出一套专利信息检索框架,利用元路径将专利中结构化和非结构化信息有机串联起来,并将其与机器学习、Elasticsearch相集成以兼顾效率和效果。实验结果显示新方法较传统方法取得明显提升。