关于数据的问题 #16

twjiang · 2017-12-18T08:24:00Z

您论文里提到训练集有522611句子、测试集有172448句子。但在您发布的data.zip文件中测试集行数为172448，但句子去重后为61707；训练集行数为570088，句子去重后为368099，即使句子+实体对+关系联合再去重后也是510415，而非522611。

请问是哪里出了问题？您论文中的“句子数量”指的是什么？

Mrlyk423 · 2017-12-19T02:00:34Z

你好，句子个数即为数据个数，如测试集行数为172448，即有172448个句子。另外，训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

twjiang · 2017-12-19T08:35:27Z

好的，了解了，感谢！
但是为什么会存在和测试集数据重复的情况，hold-out的方法应该使得测试集与训练集都是覆盖没有交集的entity-pair？
另外，训练集中为何存在完全相同的行（实体对、关系、句子都完全相同）？即自身重复的数据。
完全去重后感觉训练集并不能达到522611。
不知是我哪里理解错了？

Mrlyk423 · 2017-12-20T10:34:42Z

关于完全相同的行不太清楚，我是根据NYT10那份数据直接处理得到。

weilonghu · 2018-04-18T13:01:20Z

请问可以公布一下处理数据的源码吗？

karlhugle · 2018-08-08T14:05:31Z

训练时我将和测试集中entity pair重复的部分去掉了得到的522611个训练样例。

Can you plese share the processed data

many thanks

karlhugle mentioned this issue Feb 1, 2019

a relationship extraction issue sebastianruder/NLP-progress#220

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于数据的问题 #16

关于数据的问题 #16

twjiang commented Dec 18, 2017

Mrlyk423 commented Dec 19, 2017

twjiang commented Dec 19, 2017

Mrlyk423 commented Dec 20, 2017

weilonghu commented Apr 18, 2018

karlhugle commented Aug 8, 2018

关于数据的问题 #16

关于数据的问题 #16

Comments

twjiang commented Dec 18, 2017

Mrlyk423 commented Dec 19, 2017

twjiang commented Dec 19, 2017

Mrlyk423 commented Dec 20, 2017

weilonghu commented Apr 18, 2018

karlhugle commented Aug 8, 2018