Skip to content

抽取式NLP模型(阅读理解模型,MRC)实现词义消歧(WSD)

Notifications You must be signed in to change notification settings

percent4/WSD_With_Text_Extraction

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

使用文本抽取模型进行词义消岐(Word Sense Disambiguation, WSD)。

数据情况

  1. 数据标注由作者单独完成,采用百度百科数据
  2. 标注数据位于data目录下的标注语料_20220430.xlsx
  3. 数据情况如下:
实体数量 义项数量 样本数量
27 336 3002

模型

模型输入:

模型结构:

模型效果

1. 在原有词语义项上的预测结果

  我们对标注过的词语苹果进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:【苹果的做法大全_苹果怎么做好吃_菜谱大全】_下厨房 正确义项:蔷薇科苹果属植物

苹果2022财年Q2业绩:手机业务增长亮眼 转型初见成效-股票... 正确义项:苹果产品公司

2. 在新词语义项上的预测结果

  我们对未标注过的词语南京进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:南京的饮食以金陵菜著名,金陵菜是指以南京为中心,一直延伸到江西九江的菜系,是苏菜的四大代表菜之一。 正确义项:江苏省辖地级市、省会

文本:影片制片人莱昂西斯是在2004年萌发拍摄纪录片《南京》的念头的。 正确义项:美国2007年雨果·阿姆斯特朗主演的电影

  我们对未标注过的词语平凡的世界进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《平凡的世界》:永恒的魅力--文史--中国作家网 正确义项:路遥著长篇小说

文本:《平凡的世界》的主演是谁 正确义项:2015年王雷、佟丽娅、袁弘主演电视剧

  我们对未标注过的词语碧血剑进行预测,其百度百科义项为:

随便选取两个网上的句子进行消歧,结果如下:

文本:《碧血剑》是当代作家金庸先生的长篇武侠小说。大家都知道金庸老先生的著名小说都被翻拍成了电视剧,《碧血剑》也不例外。 正确义项:金庸创作长篇小说

文本:2000年版《碧血剑》是由李添胜监制,林家栋、佘诗曼、江华领衔主演的古装武侠电视剧。故事还原度并不是很高,这部剧中我真的很喜欢佘诗曼扮演的阿九啊! 正确义项:2000年香港TVB版林家栋主演电视剧

About

抽取式NLP模型(阅读理解模型,MRC)实现词义消歧(WSD)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages