-
Notifications
You must be signed in to change notification settings - Fork 935
Closed
Description
你好,感谢你们提供如此好的LLM后训练框架。
考虑到业界有人最新披露GRPO训练存在bug:
https://zhuanlan.zhihu.com/p/1932026138219225177
我个人使用GRPO训练时也遇到了训练不稳定的问题。
基于此bug,Qwen团队提出了最新的强化学习算法GSPO:
https://www.arxiv.org/abs/2507.18071
其宣称的效果相比于GPRO有显著提升。
非常希望ms-swift考虑增加GSPO训练功能!
Metadata
Metadata
Assignees
Labels
No labels