Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

NYT原始数据集 #6

Closed
yin-hong opened this issue Mar 3, 2019 · 5 comments
Closed

NYT原始数据集 #6

yin-hong opened this issue Mar 3, 2019 · 5 comments

Comments

@yin-hong
Copy link

yin-hong commented Mar 3, 2019

您好!
请问您有NYT原始数据集(包括训练数据集、验证数据集、测试数据集)吗?能否发我一份,我的邮箱是:931558722@qq.com.
谢谢您!

@liujian19911023
Copy link

楼上找到了吗,没有原始数据集,不知道数据集中的id怎么对应的。

@yin-hong
Copy link
Author

楼上找到了吗,没有原始数据集,不知道数据集中的id怎么对应的。

还没有!楼主您找到了吗?按照论文的说法,好像作者是先过滤所有仅包含None关系的句子,我过滤CoType论文发布的数据集(也是NYT),也是得到6w多条句子

@xiangrongzeng
Copy link
Owner

数据集中id的对应关系其实可以根据data_prepare.py中的Data类看出来。因为我在预处理数据的时候读入原始文本输出预处理后的id数据,并没有保存中间的预处理后的文本数据,所以没有提供预处理后的文本文件。

@ee2r2fd
Copy link

ee2r2fd commented Nov 19, 2019

同求原始数据集

@xiangrongzeng
Copy link
Owner

论文中使用的NYT原始数据已经上传,大家可以在README中找到包括Google Drive和百度网盘的下载链接。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants