Skip to content

是否考虑引入GSPO算法 #5127

@HuangFeiY

Description

@HuangFeiY

你好,感谢你们提供如此好的LLM后训练框架。

考虑到业界有人最新披露GRPO训练存在bug:
https://zhuanlan.zhihu.com/p/1932026138219225177
我个人使用GRPO训练时也遇到了训练不稳定的问题。

基于此bug,Qwen团队提出了最新的强化学习算法GSPO:
https://www.arxiv.org/abs/2507.18071
其宣称的效果相比于GPRO有显著提升。

非常希望ms-swift考虑增加GSPO训练功能!

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions