Skip to content

关于RLVR Pipeline的Reference Model #250

@Dicer-Zz

Description

@Dicer-Zz

首先,感谢分享精彩的工作。在进行rlvr强化学习时,遇到两个关于RLVR pipeline里Reference Model的问题:

  1. 目前似乎不支持关闭 Reference Model?只能通过调整 kl loss系数来达到关闭模型的效果,但仍然需要为refence model分配显卡。
  2. Reference Model目前似乎不支持 vllm strategy?有很多相关方法还没有实现。

请问这两个需求后续会安排支持吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions