Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问Mengzi-BERT-base在CLUE的9项下游任务中,训练的平台配置和参数是多少? #25

Closed
ma787639046 opened this issue Nov 1, 2021 · 9 comments

Comments

@ma787639046
Copy link

开发者您好!论文中说Mengzi-BERT-base在CLUE的9项下游任务中超过了RoBERTa、BERT等baseline,我有几个问题想请教您一下:
① 请问在下游任务训练中,你们使用的硬件平台配置是多少呢?例如显卡配置、CUDA版本等。
② 而且,方便透露下游任务训练中更具体的参数设置吗?例如优化器的参数配置、warmup的设置、模型初始化的seed值、下游任务中是否使用了fp16等。
③ 刚刚看到FAQ中说不考虑开放training代码,请问Mengzi-BERT-base的下游任务训练代码也不会考虑开放吗?

@Ag2S1
Copy link
Contributor

Ag2S1 commented Nov 1, 2021

  1. 我们的预训练和下游任务的硬件为 3090 Ti, CUDA 版本为 11.1
  2. 超参数在本仓库的 README 中,其它默认使用 Huggingface Trainer 的设置
  3. 目前还没有把内部框架从现有系统中剥离并开源的计划

@ma787639046
Copy link
Author

非常感谢您的回复!我近期在尝试用您的Mengzi-BERT-base运行CLUE的9项下游任务,硬件平台也是3090 + CUDA11(3090Ti 好像还没有发售,您是指3090吧~),我还有两个问题想向您请教一下:

  1. 请问您在上述下游任务中,使用的pytorch和python的版本是多少?
  2. 我在按照本仓库的超参数跑CMNLI、CSL、C3任务时,3090显卡的显存不够用,只有降低batch size或使用gradient accumulation才能运行。请问您在这些下游任务中使用了gradient accumulation吗?或者有其他方法可以一次读取那么大的batch size?
    再次感谢您的耐心回复!

@Ag2S1
Copy link
Contributor

Ag2S1 commented Nov 2, 2021

  1. PyTorch 1.8.2 LTS, Python 3.7.0
  2. 我们会用到多卡,只有单卡的情况下可以用 gradient accumulation

@ma787639046
Copy link
Author

您好,针对第二个问题,请问本仓库的batch size是指单卡的batch size,还是多卡的总batch size呢?

@Ag2S1
Copy link
Contributor

Ag2S1 commented Nov 2, 2021

Global batch size

@Ag2S1
Copy link
Contributor

Ag2S1 commented Nov 2, 2021

Global batch size

在 README 里也改成 Global batch size 了

@ma787639046
Copy link
Author

谢谢,请问方便注明每项下游任务用到的 3090 GPU 的数量吗?

@Ag2S1
Copy link
Contributor

Ag2S1 commented Nov 2, 2021

GPU 数量是不确定的,取决于我们当时能申请到的显卡数量,以 Global batch size 为准

@ma787639046
Copy link
Author

非常感谢

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants