# 任务一、基于ChatGLM3-6B模型进行LORA微调训练

本案例基于 `AdvertiseGen` 数据集，对基座模型 ChatGLM3-6B 进行 lora微调，微调后的模型能够根据用户指令，生成广告文案。

#### 硬件需求
##### 运行本案例所需的硬件配置：

1. 显存：24GB及以上（推荐使用30系或A10等sm80架构以上的NVIDIA显卡进行尝试）实际使用GPU RAM: 15.5/16.0 GB
2. 内存：16GB以上

##### 不同微调方式的硬件需求：

1. SFT 全量微调: 4张显卡平均分配，每张显卡占用 48346MiB 显存。
2. P-TuningV2 微调: 1张显卡，占用 18426MiB 显存。
3. LORA 微调: 1张显卡，占用 14082MiB 显存。


## 0. 环境检查
首先，先检查代码的运行地址，确保运行地址处于 `finetune_demo` 中。

In [1]:
!pwd

/gemini/code/finetune


安装 `requirements.txt`中的依赖。

In [2]:
!pip install -r requirements.txt

Looking in indexes: https://pypi.virtaicloud.com/repository/pypi/simple
Collecting jieba>=0.42.1 (from -r requirements.txt (line 1))
  Downloading https://pypi.virtaicloud.com/repository/pypi/packages/jieba/0.42.1/jieba-0.42.1.tar.gz (19.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.2/19.2 MB[0m [31m137.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting ruamel_yaml>=0.18.6 (from -r requirements.txt (line 2))
  Downloading https://pypi.virtaicloud.com/repository/pypi/packages/ruamel-yaml/0.18.6/ruamel.yaml-0.18.6-py3-none-any.whl (117 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m117.8/117.8 kB[0m [31m197.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting rouge_chinese>=1.0.3 (from -r requirements.txt (line 3))
  Downloading https://pypi.virtaicloud.com/repository/pypi/packages/rouge-chinese/1.0.3/rouge_chinese-1.0.3-py3-none-any.whl (21 kB)
Collecting jupyter>=1.0.0 (from

In [3]:
!pip install nltk

Looking in indexes: https://pypi.virtaicloud.com/repository/pypi/simple
Collecting nltk
  Downloading https://pypi.virtaicloud.com/repository/pypi/packages/nltk/3.8.1/nltk-3.8.1-py3-none-any.whl (1.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m233.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: nltk
Successfully installed nltk-3.8.1


## 1. 数据集格式解读

#### 多轮对话格式

多轮对话微调示例采用 ChatGLM3 对话格式约定，对不同角色添加不同 `loss_mask` 从而在一遍计算中为多轮回复计算 `loss`。

对于数据文件，样例采用如下格式

如果仅希望微调模型的对话能力，而非工具能力，应该按照以下格式整理数据。

注意格式，最外层为一个列表，每一个字典为一组对话“conversastions”。同时一组对话中也可能有多轮问答，问答每一项有角色和内容。角色可选为用户或者助手。

```json
[
  {
    "conversations": [
      {
        "role": "system",
        "content": "<system prompt text>"
      },
      {
        "role": "user",
        "content": "<user prompt text>"
      },
      {
        "role": "assistant",
        "content": "<assistant response text>"
      },
      // ... Muti Turn
      {
        "role": "user",
        "content": "<user prompt text>"
      },
      {
        "role": "assistant",
        "content": "<assistant response text>"
      }
    ]
  }
  // ...
]
```

**请注意，这种方法在微调的step较多的情况下会影响到模型的工具调用功能**

如果您希望微调模型的对话和工具能力，应该按照以下格式整理数据。

```json
[
  {
    "tools": [
      // available tools, format is not restricted
    ],
    "conversations": [
      {
        "role": "system",
        "content": "<system prompt text>"
      },
      {
        "role": "user",
        "content": "<user prompt text>"
      },
      {
        "role": "assistant",
        "content": "<assistant thought to text>"
      },
      {
        "role": "tool",
        "name": "<name of the tool to be called",
        "parameters": {
          "<parameter_name>": "<parameter_value>"
        },
        "observation": "<observation>"
        // don't have to be string
      },
      {
        "role": "assistant",
        "content": "<assistant response to observation>"
      },
      // ... Muti Turn
      {
        "role": "user",
        "content": "<user prompt text>"
      },
      {
        "role": "assistant",
        "content": "<assistant response text>"
      }
    ]
  }
  // ...
]
```

- 关于工具描述的 system prompt 无需手动插入，预处理时会将 `tools` 字段使用 `json.dumps(..., ensure_ascii=False)`
  格式化后插入为首条 system prompt。

- 每种角色可以附带一个 `bool` 类型的 `loss` 字段，表示该字段所预测的内容是否参与 `loss`
  计算。若没有该字段，样例实现中默认对 `system`, `user` 不计算 `loss`，其余角色则计算 `loss`。

- `tool` 并不是 ChatGLM3 中的原生角色，这里的 `tool` 在预处理阶段将被自动转化为一个具有工具调用 `metadata` 的 `assistant`
  角色（默认计算 `loss`）和一个表示工具返回值的 `observation` 角色（不计算 `loss`）。

- `system` 角色为可选角色，但若存在 `system` 角色，其必须出现在 `user`
  角色之前，且一个完整的对话数据（无论单轮或者多轮对话）只能出现一次 `system` 角色。

#### 数据集格式示例

这里以 AdvertiseGen 数据集为例,
您可以从 [Tsinghua Cloud](https://cloud.tsinghua.edu.cn/f/b3f119a008264b1cabd1/?dl=1) 下载 AdvertiseGen 数据集。
将解压后的 AdvertiseGen 目录放到 `./data` 目录下并自行转换为如下格式数据集。

> 请注意，现在的微调代码中加入了验证集，因此，对于一组完整的微调数据集，必须包含训练数据集和验证数据集，测试数据集可以不填写。或者直接用验证数据集代替。

```
{"conversations": [{"role": "user", "content": "类型#裙*裙长#半身裙"}, {"role": "assistant", "content": "这款百搭时尚的仙女半身裙，整体设计非常的飘逸随性，穿上之后每个女孩子都能瞬间变成小仙女啦。料子非常的轻盈，透气性也很好，穿到夏天也很舒适。"}]}
```



### 2. 数据集格式转换

我们使用 AdvertiseGen 数据集来进行微调。从  [Tsinghua Cloud](https://cloud.tsinghua.edu.cn/f/b3f119a008264b1cabd1/?dl=1) 下载处理好的 AdvertiseGen 数据集，将解压后的 AdvertiseGen 目录放到本目录的 `./data/` 下, 例如。
> /gemini/code/finetune/data
>

原始数据集AdvertiseGen的格式：
```
{"content": "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞", "summary": "简约而不简单的牛仔外套，白色的衣身十分百搭。衣身多处有做旧破洞设计，打破单调乏味，增加一丝造型看点。衣身后背处有趣味刺绣装饰，丰富层次感，彰显别样时尚。"}
```

你需要转换后的格式：

```
{"conversations": [{"role": "user", "content": "类型#上衣*材质#牛仔布*颜色#白色*风格#简约*图案#刺绣*衣样式#外套*衣款式#破洞"}, {"role": "assistant", "content": "简约而不简单的牛仔外套，白色的衣身十分百搭。衣身多处有做旧破洞设计，打破单调乏味，增加一丝造型看点。衣身后背处有趣味刺绣装饰，丰富层次感，彰显别样时尚。"}]}
```

##### 动手练习1
请动手完成以下代码补充，实现convert_adgen()方法的完整功能，将原始目录下的数据格式转换为ChatGLM3微调的指定格式，并保存至目标目录。

- <1>处，加载原始数据文件中的json对象
- <2>处，sample为转为新数据格式的一行；
- <3>处，将sameple转为JSON格式的字符串，并确保非ASCII字符被正确处理（ensure_ascii=False）

In [5]:
import json
from typing import Union
from pathlib import Path

def _resolve_path(path: Union[str, Path]) -> Path:
    return Path(path).expanduser().resolve()

def _mkdir(dir_name: Union[str, Path]):
    dir_name = _resolve_path(dir_name)
    if not dir_name.is_dir():
        dir_name.mkdir(parents=True, exist_ok=False)

def convert_adgen(data_dir: Union[str, Path], save_dir: Union[str, Path]):
    def _convert(in_file: Path, out_file: Path):
        _mkdir(out_file.parent)
        with open(in_file, encoding='utf-8') as fin:
            with open(out_file, 'wt', encoding='utf-8') as fout:
                for line in fin:
                    dct = json.loads(line)  # <1>
                    sample = {
                        "conversations": [
                            {"role": "user", "content": dct["content"]},
                            {"role": "assistant", "content": dct["summary"]}
                        ]
                    }  # <2>
                    fout.write(json.dumps(sample, ensure_ascii=False) + '\n')  # <3>

    data_dir = _resolve_path(data_dir)
    save_dir = _resolve_path(save_dir)

    train_file = data_dir / 'train.json'
    if train_file.is_file():
        out_file = save_dir / train_file.relative_to(data_dir)
        _convert(train_file, out_file)

    dev_file = data_dir / 'dev.json'
    if dev_file.is_file():
        out_file = save_dir / dev_file.relative_to(data_dir)
        _convert(dev_file, out_file)

convert_adgen('data/AdvertiseGen', 'data/AdvertiseGen_fix')

## 2. 使用命令行进行 lora 微调
接着，我们仅需要将配置好的参数以命令行的形式传参给程序，就可以使用命令行进行高效微调。

我们采用lora微调方式，其配置文件在`configs/lora.yaml`。

`lora.yaml / ptuning.yaml / sft.yaml`: 模型不同微调方式的配置文件，包括模型参数、优化器参数、训练参数等。 部分重要参数解释如下：

    + data_config 部分
        + train_file: 训练数据集的文件路径。
        + val_file: 验证数据集的文件路径。
        + test_file: 测试数据集的文件路径。
        + num_proc: 在加载数据时使用的进程数量。
    + max_input_length: 输入序列的最大长度。
    + max_output_length: 输出序列的最大长度。
    + training_args 部分
        + output_dir: 用于保存模型和其他输出的目录。
        + max_steps: 训练的最大步数。
        + per_device_train_batch_size: 每个设备（如 GPU）的训练批次大小。
        + dataloader_num_workers: 加载数据时使用的工作线程数量。
        + remove_unused_columns: 是否移除数据中未使用的列。
        + save_strategy: 模型保存策略（例如，每隔多少步保存一次）。
        + save_steps: 每隔多少步保存一次模型。
        + log_level: 日志级别（如 info）。
        + logging_strategy: 日志记录策略。
        + logging_steps: 每隔多少步记录一次日志。
        + per_device_eval_batch_size: 每个设备的评估批次大小。
        + evaluation_strategy: 评估策略（例如，每隔多少步进行一次评估）。
        + eval_steps: 每隔多少步进行一次评估。
        + predict_with_generate: 是否使用生成模式进行预测。
    + generation_config 部分
        + max_new_tokens: 生成的最大新 token 数量。
    + peft_config 部分
        + peft_type: 使用的参数有效调整类型（如 LORA）。
        + task_type: 任务类型，这里是因果语言模型（CAUSAL_LM）。
    + Lora 参数：
        + r: LoRA 的秩。
        + lora_alpha: LoRA 的缩放因子。
        + lora_dropout: 在 LoRA 层使用的 dropout 概率
    + P-TuningV2 参数：
        + num_virtual_tokens: 虚拟 token 的数量。

##### 动手练习2
请打开`configs/lora.yaml`文件，完成以下参数设置：

1. 完成设置训练数据集文件。
2. 完成设置验证数据集文件。
3. 完成设置测试数据集的文件，可设置为与验证数据集为同一文件。
4. 完成设置模型保存的路径为当前目录下的`output`文件夹；
5. 完成设置训练的步数为2000；
6. 设置模型保存策略为`steps`，也就是按照每隔一定步数保存一次；
7. 设置每隔500步保存一次模型；
8. 设置参数调整的类型为`LORA`
9. 设置peft任务类型为因果语言模型（`CAUSAL_LM`）
10. 设置LoRA的秩为8；
11. 设置LoRA 的缩放因子为32；
12. 设置在 LoRA 层使用的 dropout 概率为0.1

完成以上设置并保存配置文件。

##### 动手练习3

补充以下代码，启动模型微调训练。

- <1>处，填入输入数据文件夹的路径；
- <2>处，填入ChatGLM3预训练模型的路径；
- <3>处，填入训练配置文件的路径；

启动训练后，注意观察输出中是否会报错，正常成功训练完预计需要40分钟到1个小时左右；

In [8]:
!CUDA_VISIBLE_DEVICES=0 NCCL_P2P_DISABLE="1" NCCL_IB_DISABLE="1" python finetune_hf.py . $GEMINI_PRETRAIN configs/lora.yaml

Using config file: /etc/orion/env/env.conf
  return self.fget.__get__(instance, owner)()
Loading checkpoint shards: 100%|██████████████████| 7/7 [04:04<00:00, 34.94s/it]
trainable params: 1,949,696 || all params: 6,245,533,696 || trainable%: 0.0312
--> Model

--> model has 1.949696M params

Setting num_proc from 16 back to 1 for the train split to disable multiprocessing as it only contains one shard.
Generating train split: 114599 examples [00:00, 297105.21 examples/s]
Setting num_proc from 16 back to 1 for the validation split to disable multiprocessing as it only contains one shard.
Generating validation split: 1070 examples [00:00, 164711.91 examples/s]
Setting num_proc from 16 back to 1 for the test split to disable multiprocessing as it only contains one shard.
Generating test split: 1070 examples [00:00, 141869.67 examples/s]
Map (num_proc=16): 100%|██████| 114599/114599 [00:03<00:00, 34483.46 examples/s]
train_dataset: Dataset({
    features: ['input_ids', 'labels'],
    num_ro

##### 从保存点进行微调

如果按照上述方式进行训练，每次微调都会从头开始，如果你想从训练一半的模型开始微调，你可以加入第四个参数，这个参数有两种传入方式:

1. `yes`, 自动从最后一个保存的 Checkpoint开始训练
2. `XX`, 断点号数字 例 `600` 则从序号600 Checkpoint开始训练

#### 3. 使用微调的数据集进行推理
在完成微调任务之后，我们可以查看到 `output` 文件夹下多了很多个`checkpoint-*`的文件夹，这些文件夹代表了训练的轮数。
我们选择最后一轮的微调权重，并使用inference进行导入。

##### 动手练习4

- <1>处，填入迭代轮数最大的`checkpoint-2000`文件夹的路径，
- <2>处，填入生成广告语的提示词，提示词的写法注意参考输入训练集中提示语的写法。

执行代码，观察生成的广告语。

In [9]:
!CUDA_VISIBLE_DEVICES=0 NCCL_P2P_DISABLE="1" NCCL_IB_DISABLE="1" python inference_hf.py output/checkpoint-2000 --prompt "类型#上衣*材质#棉*颜色#白色*风格#简约*图案#纯色*衣样式#T恤*衣款式#圆领"

  return self.fget.__get__(instance, owner)()
Loading checkpoint shards: 100%|██████████████████| 7/7 [01:08<00:00,  9.74s/it]
这款白色的圆领纯色短袖t恤，采用优质纯棉面料，穿着舒适柔软，吸湿透气。简约的圆领设计，穿起来不会勒脖子。简洁的白色设计，百搭不挑人，可以搭配各种下装。


#### 使用微调后的模型

您可以在任何一个 demo 内使用我们的 `lora` 和 全参微调的模型。这需要你自己按照以下教程进行修改代码。

1. 使用`finetune_demo/inference_hf.py`中读入模型的方式替换 demo 中读入模型的方式。

> 请注意，对于 LORA 和 P-TuningV2 我们没有合并训练后的模型，而是在`adapter_config.json`
> 中记录了微调型的路径，如果你的原始模型位置发生更改，则你应该修改`adapter_config.json`中`base_model_name_or_path`的路径。

```python
def load_model_and_tokenizer(
        model_dir: Union[str, Path], trust_remote_code: bool = True
) -> tuple[ModelType, TokenizerType]:
    model_dir = _resolve_path(model_dir)
    if (model_dir / 'adapter_config.json').exists():
        model = AutoPeftModelForCausalLM.from_pretrained(
            model_dir, trust_remote_code=trust_remote_code, device_map='auto'
        )
        tokenizer_dir = model.peft_config['default'].base_model_name_or_path
    else:
        model = AutoModelForCausalLM.from_pretrained(
            model_dir, trust_remote_code=trust_remote_code, device_map='auto'
        )
        tokenizer_dir = model_dir
    tokenizer = AutoTokenizer.from_pretrained(
        tokenizer_dir, trust_remote_code=trust_remote_code
    )
    return model, tokenizer
```

2. 读取微调的模型，请注意，你应该使用微调模型的位置，例如，若你的模型位置为`/path/to/finetune_adapter_model`
   ，原始模型地址为`path/to/base_model`,则你应该使用`/path/to/finetune_adapter_model`作为`model_dir`。
3. 完成上述操作后，就能正常使用微调的模型了，其他的调用方式没有变化。

## 4. 总结
到此位置，我们就完成了使用单张 GPU Lora 来微调 ChatGLM3-6B 模型，使其能生产出更好的广告。
在本章节中，你将会学会：
+ 如何使用模型进行 Lora 微调
+ 微调数据集的准备和对齐
+ 使用微调的模型进行推理