想请问一下,流程是不是: 0. SFT,计作M0 1. 先用M0采样采很多,计作数据集a(只采样这一次,后面就不采样了)(大概400个?) 2. 在a中选M0 ppl合适的,ppo,训完叫M1 (跑一次multi node脚本) 3. 在a中选M1 ppl合适的,ppo,训完叫M2(跑第二次multi node脚本) 4. 以此类推跑十次? (我在代码里没看到每个phase采样的代码?文章中也没有一个算法流程,感觉代码和文章有gap)