From 7515d63bf02e5bac9e97961b90b097f13ac1837b Mon Sep 17 00:00:00 2001
From: Jintao Huang <huangjintao.hjt@alibaba-inc.com>
Date: Wed, 10 Jan 2024 21:13:37 +0800
Subject: [PATCH 1/5] update readme

---
 .../LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 6 ++++++
 ...\275\344\273\244\350\241\214\345\217\202\346\225\260.md" | 6 +++---
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
index 87819b912e..870dc55cbe 100644
--- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
+++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
@@ -2,6 +2,7 @@
 ## 目录
 - [环境准备](#环境准备)
 - [微调](#微调)
+- [DPO](#dpo)
 - [Merge LoRA](#merge-lora)
 - [推理](#推理)
 - [Web-UI](#web-ui)
@@ -33,6 +34,8 @@ pip install -r requirements/llm.txt  -U
 ```
 
 ## 微调
+如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md).
+
 ### 使用python
 ```python
 # Experimental environment: A10, 3090, V100, ...
@@ -215,6 +218,9 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/sft.sh
 bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh
 ```
 
+## DPO
+如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档)
+
 ## Merge LoRA
 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失.
 ```bash
diff --git "a/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md" "b/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md"
index f28e7bb83f..052fd250d8 100644
--- "a/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md"
+++ "b/docs/source/LLM/\345\221\275\344\273\244\350\241\214\345\217\202\346\225\260.md"
@@ -94,10 +94,10 @@
 
 ## DPO参数
 
-DPO参数继承了上面的SFT参数，除此之外增加了以下参数：
+DPO参数继承了上面的SFT参数, 除此之外增加了以下参数:
 
-- `--ref_model_type` 对比模型类型，可以选择的`model_type`可以查看`MODEL_MAPPING.keys()`
-- `--max_prompt_length` 最大的提示长度,该参数会传入DPOTrainer中，使prompt长度不超过该值的设置，默认值1024
+- `--ref_model_type` 对比模型类型, 可以选择的`model_type`可以查看`MODEL_MAPPING.keys()`.
+- `--max_prompt_length` 最大的提示长度, 该参数会传入DPOTrainer中, 使prompt长度不超过该值的设置, 默认值1024.
 
 
 ## merge-lora infer app-ui 命令行参数

From 9bf05fea37291d29005f1b786355faa932523e30 Mon Sep 17 00:00:00 2001
From: Jintao Huang <huangjintao.hjt@alibaba-inc.com>
Date: Wed, 10 Jan 2024 21:14:36 +0800
Subject: [PATCH 2/5] update

---
 .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
index 870dc55cbe..07f9fdaed7 100644
--- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
+++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
@@ -219,7 +219,7 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh
 ```
 
 ## DPO
-如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档)
+如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md)
 
 ## Merge LoRA
 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失.

From f91693aaca4d59c8d1ca6e080facdda0ab990927 Mon Sep 17 00:00:00 2001
From: Jintao Huang <huangjintao.hjt@alibaba-inc.com>
Date: Wed, 10 Jan 2024 21:15:31 +0800
Subject: [PATCH 3/5] update

---
 .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
index 07f9fdaed7..f3fc8c019f 100644
--- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
+++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
@@ -34,7 +34,7 @@ pip install -r requirements/llm.txt  -U
 ```
 
 ## 微调
-如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md).
+如果你要使用界面的方式进行微调与推理, 可以查看[界面训练与推理文档](https://github.com/modelscope/swift/blob/main/docs/source/GetStarted/%E7%95%8C%E9%9D%A2%E8%AE%AD%E7%BB%83%E6%8E%A8%E7%90%86.md).
 
 ### 使用python
 ```python

From a6eed23e1d6804750d6836f74b7918fc5df15b2c Mon Sep 17 00:00:00 2001
From: Jintao Huang <huangjintao.hjt@alibaba-inc.com>
Date: Wed, 10 Jan 2024 21:18:59 +0800
Subject: [PATCH 4/5] update

---
 .../LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
index f3fc8c019f..86c58df30d 100644
--- "a/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
+++ "b/docs/source/LLM/LLM\345\276\256\350\260\203\346\226\207\346\241\243.md"
@@ -219,7 +219,7 @@ bash scripts/qwen_7b_chat/qlora_ddp_ds/infer.sh
 ```
 
 ## DPO
-如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md)
+如果你要使用DPO进行人类对齐, 你可以查看[人类对齐微调文档](./LLM人类对齐训练文档.md).
 
 ## Merge LoRA
 提示: **暂时**不支持bnb和auto_gptq量化模型的merge lora, 这会产生较大的精度损失.

From 5ad143449afd1db9b42c416e7138ec65fa4a91d7 Mon Sep 17 00:00:00 2001
From: Jintao Huang <huangjintao.hjt@alibaba-inc.com>
Date: Wed, 10 Jan 2024 21:21:59 +0800
Subject: [PATCH 5/5] update

---
 ...\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git "a/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md" "b/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md"
index 6a9b57441a..cb8b20be39 100644
--- "a/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md"
+++ "b/docs/source/LLM/LLM\344\272\272\347\261\273\345\257\271\351\275\220\350\256\255\347\273\203\346\226\207\346\241\243.md"
@@ -94,4 +94,4 @@ bash scripts/dpo/lora_ddp_mp/dpo.sh
 bash scripts/dpo/lora_ddp_mp/infer.sh
 ```
 
-由于DPO训练后会得到一个完整模型或者adapter的weights，因此LoRA合并、推理的步骤和微调步骤相同，因此请参考[微调文档](./LLM微调文档#Merge LoRA)对应的步骤。
+由于DPO训练后会得到一个完整模型或者adapter的weights，因此LoRA合并、推理的步骤和微调步骤相同，因此请参考[微调文档](./LLM微调文档.md#merge-lora)对应的步骤。