RLPR的论文:https://arxiv.org/abs/2506.18254 核心点:需要在奖励函数里面调用当前的策略模型进行推理,计算question+thinking+label的logps,也需要计算question+label的logps。貌似咱们目前的自定义奖励函数里面无法使用当前策略模型进行计算,希望能考虑支持一下,谢谢。