From 7515d63bf02e5bac9e97961b90b097f13ac1837b Mon Sep 17 00:00:00 2001 From: Jintao Huang Date: Wed, 10 Jan 2024 21:13:37 +0800 Subject: [PATCH 1/5] update readme --- .../LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 6 ++++++ ...\275\344\273\244\350\241\214\345\217\202\346\225\260.md" | 6 +++--- 2 files changed, 9 insertions(+), 3 deletions(-) diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" index 87819b912e..870dc55cbe 100644 --- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" +++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" @@ -2,6 +2,7 @@ ## 目录 - [环境准备](#环境准备) - [微调](#微调) +- [DPO](#dpo) - [Merge LoRA](#merge-lora) - [推理](#推理) - [Web-UI](#web-ui) @@ -33,6 +34,8 @@ pip install -r requirements/llm.txt -U ``` ## 微调 +如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md). + ### 使用python ```python # Experimental environment: A10, 3090, V100, ... @@ -215,6 +218,9 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/sft.sh bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh ``` +## DPO +如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档) + ## Merge LoRA 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失. ```bash diff --git "a/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md" "b/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md" index f28e7bb83f..052fd250d8 100644 --- "a/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md" +++ "b/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md" @@ -94,10 +94,10 @@ ## DPO参数 -DPO参数继承了上面的SFT参数,除此之外增加了以下参数: +DPO参数继承了上面的SFT参数, 除此之外增加了以下参数: -- `--ref_model_type` 对比模型类型,可以选择的`model_type`可以查看`MODEL_MAPPING.keys()` -- `--max_prompt_length` 最大的提示长度,该参数会传入DPOTrainer中,使prompt长度不超过该值的设置,默认值1024 +- `--ref_model_type` 对比模型类型, 可以选择的`model_type`可以查看`MODEL_MAPPING.keys()`. +- `--max_prompt_length` 最大的提示长度, 该参数会传入DPOTrainer中, 使prompt长度不超过该值的设置, 默认值1024. ## merge-lora infer app-ui 命令行参数 From 9bf05fea37291d29005f1b786355faa932523e30 Mon Sep 17 00:00:00 2001 From: Jintao Huang Date: Wed, 10 Jan 2024 21:14:36 +0800 Subject: [PATCH 2/5] update --- .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" index 870dc55cbe..07f9fdaed7 100644 --- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" +++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" @@ -219,7 +219,7 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh ``` ## DPO -如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档) +如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md) ## Merge LoRA 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失. From f91693aaca4d59c8d1ca6e080facdda0ab990927 Mon Sep 17 00:00:00 2001 From: Jintao Huang Date: Wed, 10 Jan 2024 21:15:31 +0800 Subject: [PATCH 3/5] update --- .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" index 07f9fdaed7..f3fc8c019f 100644 --- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" +++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" @@ -34,7 +34,7 @@ pip install -r requirements/llm.txt -U ``` ## 微调 -如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md). +如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理文档](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md). ### 使用python ```python From a6eed23e1d6804750d6836f74b7918fc5df15b2c Mon Sep 17 00:00:00 2001 From: Jintao Huang Date: Wed, 10 Jan 2024 21:18:59 +0800 Subject: [PATCH 4/5] update --- .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" index f3fc8c019f..86c58df30d 100644 --- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" +++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" @@ -219,7 +219,7 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh ``` ## DPO -如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md) +如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md). ## Merge LoRA 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失. From 5ad143449afd1db9b42c416e7138ec65fa4a91d7 Mon Sep 17 00:00:00 2001 From: Jintao Huang Date: Wed, 10 Jan 2024 21:21:59 +0800 Subject: [PATCH 5/5] update --- ...\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" index 6a9b57441a..cb8b20be39 100644 --- "a/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" +++ "b/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" @@ -94,4 +94,4 @@ bash scripts/dpo/lora_ddp_mp/dpo.sh bash scripts/dpo/lora_ddp_mp/infer.sh ``` -由于DPO训练后会得到一个完整模型或者adapter的weights,因此LoRA合并、推理的步骤和微调步骤相同,因此请参考[微调文档](./LLM微调文档#Merge LoRA)对应的步骤。 +由于DPO训练后会得到一个完整模型或者adapter的weights,因此LoRA合并、推理的步骤和微调步骤相同,因此请参考[微调文档](./LLM微调文档.md#merge-lora)对应的步骤。