如上所述,按照最新版本的配置。当使用vllm进行agentic任务的时候,如果你采用异步的形式。当actor-trainer的参数跟下要传递给vllm的时候,会停止(sleep mode)vllm,这个时候,vllm可能会将卡上的显存(模型)释放,然后整个的进度都卡住了(调度器这个时候似乎不知道)。