Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

MSRA NER数据集是错误的! #2

Open
shaonan1993 opened this issue Aug 16, 2021 · 1 comment
Open

MSRA NER数据集是错误的! #2

shaonan1993 opened this issue Aug 16, 2021 · 1 comment

Comments

@shaonan1993
Copy link

人民日报的dev集和test集反而是真正MSRA NER数据集的test集

ernie给了原始数据集的下载:
https://github.com/PaddlePaddle/ERNIE

@OYE93
Copy link
Owner

OYE93 commented Aug 18, 2021

同学 你好 非常感谢你提出这个问题,不然这个repo都没有什么活跃度
我也去做了一些考证,到底这个MSRA NER的数据集是怎么构成的,我先说结论,就是我也没有结论,所以还是摆事实吧,
我在各个来源上找了很多叫MSRA NER的数据集,比如githubHanlp source一个NER的repo,各种NER的paper,里面提及的MSRA数据集的情况都是差不多这样:
image
可以看到最开始的数据集是没有dev set的,句子数有可能变化,因为做了分句什么的,但是字数是基本不变,也就是training set:2169.9k,test set:172.6k;但是ERNIE这个数据集里面的字数大概是:training:979k,dev:109k,test:219k,这与大多数号称MSRA NER数据集的情况是不相符合的,但是ERNIE提供的这个数据集又与我这个repo提供的数据集有overlap,这个你可以自己验证。写到这里我突然发现我这个repo提到的People's Daily(人民日报) dataset和ERNIE提供的MSRA NER数据集的情况似乎一样,这大概也是另一个issue提到的问题,真相大白。
对了,我还参看了MSRA这个数据集的原始论文,里面提及了这个数据集的情况:
image
可以看到,如果把文中的Wds理解为字数,其实也和我这个repo提供的MSRA NER数据集有些出入,但如果是理解为词数(因为这个数据集当时也用来测试中文分词这个任务了),也许就对上了,你可以自己试试看。
所以到底哪个是真正MSRA NER数据集,就要你自己判断了。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants