Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

压缩包版本记录? #35

Closed
shenck0 opened this issue Sep 11, 2023 · 3 comments
Closed

压缩包版本记录? #35

shenck0 opened this issue Sep 11, 2023 · 3 comments

Comments

@shenck0
Copy link

shenck0 commented Sep 11, 2023

rt, 最好能在这里或wiki上增加一个压缩包版本信息, 比如某时间增加了多少或修改了某某压缩包, 方便使用者查看更新
另一个思路是, 每个数据有版本号, 如果该数据要变化, 就后续发布patch文件, 在之前数据(压缩包)不变的情况下用户可以应用patch, 这样避免更新时需要重新下载的尴尬, 另外也知道变化了哪些内容, 用户可以自行取舍

中文互联网奇观+1000
非常感谢!

@esbatmop
Copy link
Owner

你好,请使用微力保持更新。
压缩包变更可以看github的变更记录。

@esbatmop
Copy link
Owner

esbatmop commented Sep 11, 2023

我们是这么考虑的:
1.我们数据集定位于预训练数据,国内未来能继续研究预训练的团队会比较少,这些团队建议使用微力来完整的进行数据同步,而且一次部署,一劳永逸。未来所有压缩包都会清洗成统一的n种jsonl格式,我们未来也会提供工具输入jsonl就知道是哪种格式了,方便各个预训练团队使用数据。
2.对于没有那么多算力的广大微调用户,建议直接使用我们清洗好的huggingface数据。
3.考虑数据打包、数据存储、数据分发的职能隔离,我们使用百度网盘在这多个职能团队之间传递打包好的数据。

@shenck0
Copy link
Author

shenck0 commented Sep 11, 2023

明白了 感谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants