Skip to content

请教一下流程 #4

@Fu-Dayuan

Description

@Fu-Dayuan

想请问一下,流程是不是:

  1. SFT,计作M0
  2. 先用M0采样采很多,计作数据集a(只采样这一次,后面就不采样了)(大概400个?)
  3. 在a中选M0 ppl合适的,ppo,训完叫M1 (跑一次multi node脚本)
  4. 在a中选M1 ppl合适的,ppo,训完叫M2(跑第二次multi node脚本)
  5. 以此类推跑十次?

(我在代码里没看到每个phase采样的代码?文章中也没有一个算法流程,感觉代码和文章有gap)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions