Skip to content

2018年机器阅读理解技术竞赛总结,国内外1000多支队伍中BLEU-4评分排名第6, ROUGE-L评分排名第14。(未ensemble,未嵌入训练好的词向量,无dropout)

Notifications You must be signed in to change notification settings

yuweifamily/G-Reader

 
 

Repository files navigation

G-Reader

机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本,然后回答和阅读内容相关的问题。“2018机器阅读理解技术竞赛”由中国中文信息学会、中国计算机学会和百度公司联手举办,使用了百度提供的面向真实应用场景的大规模中文阅读理解数据集。

国内外1000多支队伍中BLEU-4评分排名第6, ROUGE-L评分排名第14。(未ensemble,未嵌入训练好的词向量,无dropout)

模型架构

针对一个问题,文档集里有多答案的情况非常普遍,我们认为‘一边提高某个答案作为答案的概率,另一边又降低其它答案作为答案的概率’是不合理的。

因此我们的模型采用先从每篇文章中独立抽取候选答案,再从候选答案集中抽取最佳答案的结构,以解决多答案致使神经网络难以学习的问题。架构的具体实现中,我们通过BiDAF+ Passage Self-Matching从单篇文章中抽取答案,构成候选答案集,再使用em和xgboost决策树从候选答案集中抽取最佳答案。

即模型分为以下两部分:

1、候选答案抽取层——BiDAF+Passage Self-Matching

2、答案选择层——em算法、xgboost

本模型由华南理工大学的G-scuter团队完成。 致谢广州极天信息技术股份有限公司、华南理工大学软件学院。

About

2018年机器阅读理解技术竞赛总结,国内外1000多支队伍中BLEU-4评分排名第6, ROUGE-L评分排名第14。(未ensemble,未嵌入训练好的词向量,无dropout)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 89.9%
  • Java 6.4%
  • Shell 3.7%