Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于预训练的数据量 #10

Open
kkk-an opened this issue May 3, 2022 · 3 comments
Open

关于预训练的数据量 #10

kkk-an opened this issue May 3, 2022 · 3 comments

Comments

@kkk-an
Copy link

kkk-an commented May 3, 2022

您好,感谢您的工作带给我非常多的思考。
因为想复现一下,所以想知道你在pre-training的时候,使用了多少的Amazon和Yelp数据呢? 文章说manually check a small portion,但是网盘提供的分别是一百万和四百万条数据,请问您在预训练的时候使用部分可以发布一下吗?
另外关于验证集的问题,好像您的代码里面并没有出现验证集?而是直接用的测试集去选取的模型吗?如果是这样的话是否欠妥?

@cjj-sunshine
Copy link

您好,感谢您的工作带给我非常多的思考。 因为想复现一下,所以想知道你在pre-training的时候,使用了多少的Amazon和Yelp数据呢? 文章说manually check a small portion,但是网盘提供的分别是一百万和四百万条数据,请问您在预训练的时候使用部分可以发布一下吗? 另外关于验证集的问题,好像您的代码里面并没有出现验证集?而是直接用的测试集去选取的模型吗?如果是这样的话是否欠妥?

你好,请问Amazon和Yelp的数据在哪个网盘中存放着呢,怎么获得这些数据呢?

@kkk-an
Copy link
Author

kkk-an commented Jul 5, 2022

您好,感谢您的工作带给我非常多的思考。 因为想复现一下,所以想知道你在pre-training的时候,使用了多少的Amazon和Yelp数据呢? 文章说manually check a small portion,但是网盘提供的分别是一百万和四百万条数据,请问您在预训练的时候使用部分可以发布一下吗? 另外关于验证集的问题,好像您的代码里面并没有出现验证集?而是直接用的测试集去选取的模型吗?如果是这样的话是否欠妥?

你好,请问Amazon和Yelp的数据在哪个网盘中存放着呢,怎么获得这些数据呢?

作者在这一部分Data Preparation & Preprocessing给了网盘的链接和提取密码

@cjj-sunshine
Copy link

您好,感谢您的工作带给我非常多的思考。 因为想复现一下,所以想知道你在pre-training的时候,使用了多少的Amazon和Yelp数据呢? 文章说manually check a small portion,但是网盘提供的分别是一百万和四百万条数据,请问您在预训练的时候使用部分可以发布一下吗? 另外关于验证集的问题,好像您的代码里面并没有出现验证集?而是直接用的测试集去选取的模型吗?如果是这样的话是否欠妥?

你好,请问Amazon和Yelp的数据在哪个网盘中存放着呢,怎么获得这些数据呢?

作者在这一部分Data Preparation & Preprocessing给了网盘的链接和提取密码

好的,谢谢!看到了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants