首先,感谢分享精彩的工作。在进行rlvr强化学习时,遇到两个关于RLVR pipeline里Reference Model的问题: 1. 目前似乎不支持关闭 Reference Model?只能通过调整 kl loss系数来达到关闭模型的效果,但仍然需要为refence model分配显卡。 2. Reference Model目前似乎不支持 vllm strategy?有很多相关方法还没有实现。 请问这两个需求后续会安排支持吗?