trl=0.14.0版本依赖
-
选择分支为"0.14-release"
-
将里面的
trl文件夹复制到本目录下,并把目录名称改为trl_main即可 -
运行对应的sh文件,下载模型和数据:
sh dl_model.sh;sh dl_dataset.sh -
运行
train_grpo.sh开始训练
| Name | Name | Last commit date | ||
|---|---|---|---|---|
trl=0.14.0版本依赖
选择分支为"0.14-release"
将里面的trl文件夹复制到本目录下,并把目录名称改为trl_main即可
运行对应的sh文件,下载模型和数据: sh dl_model.sh;sh dl_dataset.sh
运行train_grpo.sh开始训练