Skip to content

基于中文专利说明书的文本摘要算法。Python3语言实现。收集了100篇计算机类中文专利说明书。

Notifications You must be signed in to change notification settings

shuming9886/textrank_for_patent

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 

Repository files navigation

textrank_for_patent

该项目是基于计算机类专利说明书的文本摘要算法,基于TextRank算法。

编程语言:python3

数据:100篇专利说明书文本,格式与“CN208315896U.txt”一致。

实验结果最后通过ROUGE来进行评价。


(2020-10-17更新)

说明:基于上述Demo,在大三下学期尝试撰写一篇文章(水文)。

论文标题:基于专利结构的中文专利摘要研究

摘要:文本摘要任务旨在通过对原文进行压缩提炼,得出简明扼要的内容描述。针对中文专利文本,提出了一种基于 PatentRank 算法生成专利摘要的算法。首先,对候选句群做冗余处理,以去除候选句群中相似度较高的句子;然后,对专利中的权利要求书和说明书构建 3 种不同的相似度计算方法,以计算句子之间的影响权重;最后,选取权值高的句子输出,并将其作为专利的摘要。该算法在选取的数据集中取得了较好的效果。实验结果表明提出的算法相比于已有方法在 ROUGE 值上有显著提高。

文章已经收录在万方、知网等数据库,感兴趣的朋友可以去搜一下。

About

基于中文专利说明书的文本摘要算法。Python3语言实现。收集了100篇计算机类中文专利说明书。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages