New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问Mengzi-BERT-base在CLUE的9项下游任务中,训练的平台配置和参数是多少? #25
Comments
|
非常感谢您的回复!我近期在尝试用您的Mengzi-BERT-base运行CLUE的9项下游任务,硬件平台也是3090 + CUDA11(3090Ti 好像还没有发售,您是指3090吧~),我还有两个问题想向您请教一下:
|
|
您好,针对第二个问题,请问本仓库的batch size是指单卡的batch size,还是多卡的总batch size呢? |
Global batch size |
在 README 里也改成 Global batch size 了 |
谢谢,请问方便注明每项下游任务用到的 3090 GPU 的数量吗? |
GPU 数量是不确定的,取决于我们当时能申请到的显卡数量,以 Global batch size 为准 |
非常感谢 |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
开发者您好!论文中说Mengzi-BERT-base在CLUE的9项下游任务中超过了RoBERTa、BERT等baseline,我有几个问题想请教您一下:
① 请问在下游任务训练中,你们使用的硬件平台配置是多少呢?例如显卡配置、CUDA版本等。
② 而且,方便透露下游任务训练中更具体的参数设置吗?例如优化器的参数配置、warmup的设置、模型初始化的seed值、下游任务中是否使用了fp16等。
③ 刚刚看到FAQ中说不考虑开放training代码,请问Mengzi-BERT-base的下游任务训练代码也不会考虑开放吗?
The text was updated successfully, but these errors were encountered: