reward model数据集问题 #273

burger-pb · 2024-04-18T05:43:52Z

我在模型微调的时候加入了代码数据集，让模型拥有不错的代码能力，在RLHF阶段训练奖励模型的时候还需要再加入代码数据集的训练吗，如果不加入会不会导致模型的代码能力下降

burger-pb · 2024-04-18T06:03:58Z

还是说再训练完奖励模型之后的Reinforcement Learning阶段可以使用和微调一样的数据集

hijkzzz · 2024-04-18T09:38:34Z

这应当取决于你的RM有没有对代码数据的反馈的能力？

burger-pb · 2024-04-18T12:28:25Z

确实，但是通过RM来对代码数据进行反馈，不太清楚能不能这样做，我看到有些垂直领域的模型貌似也不用专业领域的数据去训练RM，但最后使用了专业领域数据去进行强化学习

catqaq added the documentation Improvements or additions to documentation label Apr 18, 2024

Provide feedback