训练自然语言的LLM模型

包括基于TRL的训练,和手动训练两种实现.

训练方法包括DPO和PPO

环境信息:

python=3.10

torch==2.1.0(cuda)

transformers==4.34.0

datasets==2.14.5

trl==0.7.4

视频课程:制作中.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
0.下载文件.ipynb		0.下载文件.ipynb
1.dpo_trl训练.ipynb		1.dpo_trl训练.ipynb
2.dpo_手动训练.ipynb		2.dpo_手动训练.ipynb
3.ppo_trl训练.ipynb		3.ppo_trl训练.ipynb
4.ppo_手动训练.ipynb		4.ppo_手动训练.ipynb
README.md		README.md

Provide feedback