Online DPO 支持 #385

Ashura5 · 2024-07-23T05:53:15Z

我想实现Online DPO，即类似PPO，每轮batch的数据都由policy model 推理，reward model打分得到
但是我不会在边训练模型参数、边使用vllm进行推理加速，导致我目前的模型训练过程很慢
我发现这个仓库的基于vllm的ppo训练加速方式应该可以解决我的问题，但是阅读仓库源码来理解如何在训练过程使用vllm给我带来一些困难，请问可以有一些文档、手册来帮助我吗

hijkzzz · 2024-07-23T06:25:16Z

@Ashura5 就是这个？https://github.com/OpenRLHF/OpenRLHF/blob/main/examples/scripts/train_iterative_dpo_llama.sh

Ashura5 · 2024-07-23T07:06:49Z

这个是在训练之前从reference model中推理数据，reward model打分
我想实现的是在训练时，每训练一步policy model，都从policy model中重新采样数据

hijkzzz · 2024-07-23T07:15:39Z

这个是在训练之前从reference model中推理数据，reward model打分我想实现的是在训练时，每训练一步policy model，都从policy model中重新采样数据

这个实现的就是每轮用最新的checkpoint 推理数据打分，只不过batch size 默认设置的比较大。如果要实现PPO那种完全online的会复杂一点，可以参考train_ppo_ray.py的设计

Ashura5 · 2024-07-23T07:18:05Z

这个是在训练之前从reference model中推理数据，reward model打分我想实现的是在训练时，每训练一步policy model，都从policy model中重新采样数据

这个实现的就是每轮用最新的checkpoint 推理数据打分，只不过batch size 默认设置的比较大。如果要实现PPO那种完全online的会复杂一点，可以参考train_ppo_ray.py的设计

好的，谢谢，我再仔细看看这一段

Ashura5 closed this as completed Jul 23, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Online DPO 支持 #385

Online DPO 支持 #385

Ashura5 commented Jul 23, 2024

hijkzzz commented Jul 23, 2024 •

edited

Loading

Ashura5 commented Jul 23, 2024

hijkzzz commented Jul 23, 2024

Ashura5 commented Jul 23, 2024

Online DPO 支持 #385

Online DPO 支持 #385

Comments

Ashura5 commented Jul 23, 2024

hijkzzz commented Jul 23, 2024 • edited Loading

Ashura5 commented Jul 23, 2024

hijkzzz commented Jul 23, 2024

Ashura5 commented Jul 23, 2024

hijkzzz commented Jul 23, 2024 •

edited

Loading