pro #69

liumingzhu6060 · 2023-08-23T09:15:24Z

为什么训练pro的时候使用8卡，经常最后一张卡oom。

F2-Song · 2024-03-16T19:22:38Z

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

Zheng-Jay · 2024-03-20T02:38:53Z

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM，我是80G的A800，训练13B的模型，按道理应该不会爆啊
我把batch size设为1，block_size设为100，还是爆了，不知道问题出在哪？

F2-Song · 2024-03-20T07:54:57Z

hi~推测是设置了第8张卡也放了LLM？默认设置是前7张卡放LLM，第8张卡只放奖励模型用于训练中的validation。

你好我跑训练代码会报OOM，我是80G的A800，训练13B的模型，按道理应该不会爆啊我把batch size设为1，block_size设为100，还是爆了，不知道问题出在哪？

或许可以考虑关闭do_validation并使用bf16和zero-3。需注意直接使用zero-3可能出现checkpoint只保存一部分的现象，见 #66 所述。
此外，data_manager.py中多处设置了self.max_length - 128，来规定prompt本身的长度（因为128是默认的response长度，我们没有将之设置在args里），如block_size修改为100，此处的128应该也需调整一下。

huybery added the pro label Aug 25, 2023

F2-Song mentioned this issue Mar 20, 2024

pro训练时爆OOM #135

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pro #69

pro #69

liumingzhu6060 commented Aug 23, 2023 •

edited

Loading

F2-Song commented Mar 16, 2024

Zheng-Jay commented Mar 20, 2024

F2-Song commented Mar 20, 2024

pro #69

pro #69

Comments

liumingzhu6060 commented Aug 23, 2023 • edited Loading

F2-Song commented Mar 16, 2024

Zheng-Jay commented Mar 20, 2024

F2-Song commented Mar 20, 2024

liumingzhu6060 commented Aug 23, 2023 •

edited

Loading