-
Notifications
You must be signed in to change notification settings - Fork 100
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Mistral持续预训练的脚本是否支持pp>=2? #183
Comments
收到,请问您是按照Quick Start中的Mistral的流程测试的,然后在convert的时候发现PP>1有问题是吧? |
我刚测试了下,我跑如下的PP=2的convert脚本并没有报错,您是不是再参考下QS里面的流程 |
您好,我是按照Megatron-LM-Dense模型训练流程的教程执行的。 转成mg格式的指令是sh model_convertor.sh ../../../ /mnt/mistral-ckpts/Mistral-7B-v0.1 /mnt/mistral-ckpts/Mistral-7B-v0.1-tp1-pp4 1 4 mistral-7b 0 false 但是启动训练脚本会出错。 ==== 同时,我还发现一个问题,目前我没法确定原因: 我发现:训练时前几步返回的loss 在4.0~5.0,但是能在50步之内下降到1.7左右。我通过打印token_id和word_emb,确认分词结果、加载模型参数均为正确。 |
PP>1问题已修复,烦请pull下最新的代码,这是PR,烦请Review:#185 |
我在使用最新版的Pai-Megatron-Patch对Mistral-7b-v0.1进行持续预训练。
当我设置tp=1/pp=2或者tp=1/pp=4或者tp=2/pp=2时,均出现了下述错误:
我的机器有8块显卡,我在_prepare_4d_causal_attention_mask函数内打印了:print(attention_mask.device,input_shape,inputs_embeds)
得到如下结果:
我自始至终未能看到来自cuda:4~cuda:7的输出。
当我设置tp=2 or 4/pp=1时,不会遇到这个错误。
我希望确认一下,目前Pai-Megatron-Patch是否能支持在pp>=2的情况下训练Mistral-7b?
The text was updated successfully, but these errors were encountered: