DPO 方式全量训练7B模型需要资源 #798

uloveqian2021 · 2023-09-05T12:06:19Z

请问DPO 方式全量训练7B模型需要多少资源，8卡A800, 400G内存报错，应该是内存爆掉了

hiyouga · 2023-09-05T14:05:23Z

内存需要加倍

LuJunru · 2023-09-06T03:12:12Z

dpo需要加载两次模型，所以显存内存开销要翻倍。用之前的资源只能lora训，因为lora自带base模型冻结，所以可以只加载一次模型。目前还没有针对dpo不加载两次模型的实现，不过作者说是可能的：https://github.com/eric-mitchell/direct-preference-optimization/issues/29。

421zuoduan · 2024-04-05T22:13:14Z

dpo需要加载两次模型，所以显存内存开销要翻倍。用之前的资源只能lora训，因为lora自带base模型冻结，所以可以只加载一次模型。目前还没有针对dpo不加载两次模型的实现，不过作者说是可能的：https://github.com/eric-mitchell/direct-preference-optimization/issues/29。

我在repo内没有看到新的相关PR, 请问近期其他的工作中有训练时只加载一次的代码实现吗?

LuJunru · 2024-04-05T22:30:02Z

dpo需要加载两次模型，所以显存内存开销要翻倍。用之前的资源只能lora训，因为lora自带base模型冻结，所以可以只加载一次模型。目前还没有针对dpo不加载两次模型的实现，不过作者说是可能的：https://github.com/eric-mitchell/direct-preference-optimization/issues/29。

我在repo内没有看到新的相关PR, 请问近期其他的工作中有训练时只加载一次的代码实现吗?

Trl有一个precompute_ref_log_probs参数可以看下：https://github.com/huggingface/trl/blob/main/trl/trainer/dpo_trainer.py#L123

hiyouga added the pending This problem is yet to be addressed label Sep 5, 2023

hiyouga removed the pending This problem is yet to be addressed label Sep 7, 2023

hiyouga closed this as completed Sep 7, 2023

hiyouga added the solved This problem has been already solved label Sep 7, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DPO 方式全量训练7B模型需要资源 #798

DPO 方式全量训练7B模型需要资源 #798

uloveqian2021 commented Sep 5, 2023

hiyouga commented Sep 5, 2023

LuJunru commented Sep 6, 2023

421zuoduan commented Apr 5, 2024

LuJunru commented Apr 5, 2024

DPO 方式全量训练7B模型需要资源 #798

DPO 方式全量训练7B模型需要资源 #798

Comments

uloveqian2021 commented Sep 5, 2023

hiyouga commented Sep 5, 2023

LuJunru commented Sep 6, 2023

421zuoduan commented Apr 5, 2024

LuJunru commented Apr 5, 2024