关于RLVR Pipeline的Reference Model

首先，感谢分享精彩的工作。在进行rlvr强化学习时，遇到两个关于RLVR pipeline里Reference Model的问题：
1. 目前似乎不支持关闭 Reference Model？只能通过调整 kl loss系数来达到关闭模型的效果，但仍然需要为refence model分配显卡。
2. Reference Model目前似乎不支持 vllm strategy？有很多相关方法还没有实现。

请问这两个需求后续会安排支持吗？