训练loss异常 #5

balabala2023 · 2023-12-06T12:43:03Z

按照您的步骤进行复现，训练时发现loss下降很慢，此外训练完的train_loss相比您提供的也不是一个数量级（高一个数量级）

Coobiw · 2023-12-06T16:31:59Z

你好，对于第一个问题，是因为我在这个commit里进行过修改 4ad76d1
简单来说就是我放出来的log里的loss是除过梯度积累的iteration数的（就是accum_grad_iters，在yaml文件里是设置成16或者32），所以你看到的会差一个数量级，如果你使用的是这个commit之后的代码跑出这个结果是正常的

第二个问题的话，是因为事实上每隔accum_grad_iters个iterations才会进行更新，所以这个log_freq设置成50的话，其实会有点难看出来，你可以看每个epoch的下降情况，其实是稳定下降的。
或者：
你可以尝试在yaml文件的run部分（https://github.com/Coobiw/MiniGPT4Qwen/blob/master/lavis/projects/instruction_tuning/train.yaml#66）加入log_freq进行设置，设置成accum_grad_iters的整数倍（比如：128）,可能看起来会更好。

Coobiw · 2023-12-06T16:41:34Z

关于log_freq的设置，我在 911fc6b这个新的commit里有设置，你可以仿照，但看整个epoch的loss可能会更靠谱哈

balabala2023 · 2023-12-07T04:16:02Z

好的，多谢哈，那如果llm切换成Qwen-14B是不是仅需要修改llm_model名称就可？我切换为14B，loss和7B的类似，但生成的效果差别非常大，基本上不可读；

Coobiw · 2023-12-07T07:10:09Z

我没有使用过Qwen-14B的模型，暂时想到你可以试着去修改、检查一下这三个地方：

llm_model是否修改
llm_tokenizer是否修改，我看到两个模型的tokenizer是有区别的，比如vocab_size就不一样
由于构建对话输入输出时需要chatml格式，尤其是im_start和im_end这两个token，所以必须使用chat模型，也就是Qwen-14B-chat
晚些我也可以试着去使用一下Qwen-14B-chat看看有没有类似问题

Coobiw · 2024-02-23T09:24:15Z

已经更新14B版本的训练，采用DeepSpeed的流水线并行在双卡3090上训练：commit

Coobiw · 2024-04-29T09:42:23Z

solved

Coobiw closed this as completed Apr 29, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

训练loss异常 #5

训练loss异常 #5

balabala2023 commented Dec 6, 2023

Coobiw commented Dec 6, 2023

Coobiw commented Dec 6, 2023

balabala2023 commented Dec 7, 2023

Coobiw commented Dec 7, 2023 •

edited

Loading

Coobiw commented Feb 23, 2024

Coobiw commented Apr 29, 2024

训练loss异常 #5

训练loss异常 #5

Comments

balabala2023 commented Dec 6, 2023

Coobiw commented Dec 6, 2023

Coobiw commented Dec 6, 2023

balabala2023 commented Dec 7, 2023

Coobiw commented Dec 7, 2023 • edited Loading

Coobiw commented Feb 23, 2024

Coobiw commented Apr 29, 2024

Coobiw commented Dec 7, 2023 •

edited

Loading