# 使用领域（私有）数据微调 ChatGLM3

生成带有 epoch 和 timestamp 的模型文件

In [1]:
import torch
from peft import PeftModel, PeftConfig

print(torch.__config__.show(), torch.cuda.get_device_properties(0))

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2023.1-Product Build 20230303 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.3.2 (Git Hash 2dc95a2ad0841e29db8b22fbccaf3e5da7992b01)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX2
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -DUS

In [2]:
# 定义全局变量和参数
model_name_or_path = 'THUDM/chatglm3-6b'  # 模型ID或本地路径
train_data_path = 'data/conversations_data.csv'    # 训练数据路径
eval_data_path = None                     # 验证数据路径，如果没有则设置为None
per_device_eval_batch_size: 16
evaluation_strategy: "steps"
eval_steps: 500
seed = 8                                 # 随机种子
max_input_length = 512                    # 输入的最大长度
max_output_length = 1536                  # 输出的最大长度
lora_rank = 16                             # LoRA秩
lora_alpha = 32                           # LoRA alpha值
lora_dropout = 0.05                       # LoRA Dropout率
prompt_text = ''                          # 所有数据前的指令文本
peft_model_path = "models/THUDM/chatglm3-6b-epoch10"

## 数据处理

In [3]:
from datasets import load_dataset

dataset = load_dataset("csv", data_files=train_data_path)
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['question', 'answer'],
        num_rows: 4817
    })
})


In [4]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [5]:
show_random_elements(dataset["train"], num_examples=5)

Unnamed: 0,question,answer
0,我的数据是512*512*20，RandomCrop的大小应该是多少？,"好的，我将提供一段Python代码，用于从 `.nii.gz` 文件中读取切片厚度和像素间距，并基于这些信息来重采样影像数据，使第三维接近于其他两维的物理尺寸。我们将使用 `nibabel` 来读取 `.nii.gz` 文件，然后使用 `scipy` 进行重采样。\n\n首先，请确保您已经安装了 `nibabel` 和 `scipy`。如果尚未安装，可以通过运行 `pip install nibabel scipy` 来安装它们。\n\n下面是代码示例：\n\n```python\nimport nibabel as nib\nimport numpy as np\nfrom scipy.ndimage import zoom\n\ndef resample_to_isotropic(nii_path):\n # 加载.nii.gz文件\n nii_img = nib.load(nii_path)\n data = nii_img.get_fdata()\n \n # 获取原始像素间距\n header = nii_img.header\n zooms = header.get_zooms()\n pixel_spacing = zooms[:2]\n slice_thickness = zooms[2]\n\n # 计算重采样因子\n resample_factor = slice_thickness / pixel_spacing[0]\n\n # 重采样第三维度\n new_shape = (data.shape[0], data.shape[1], int(data.shape[2] * resample_factor))\n resampled_data = zoom(data, (1, 1, resample_factor), order=1) # 使用线性插值\n\n # 创建新的NIfTI图像\n new_nii = nib.Nifti1Image(resampled_data, nii_img.affine)\n return new_nii\n\n# 使用函数\nresampled_nii = resample_to_isotropic('your_file.nii.gz')\n\n# 如果需要，可以将调整后的数据保存为新的.nii.gz文件\n# nib.save(resampled_nii, 'resampled_file.nii.gz')\n```\n\n这段代码首先读取 `.nii.gz` 文件，并获取其头信息中的像素间距和切片厚度。然后，根据这些信息计算出第三维的重采样因子，并对数据进行重采样。最后，它创建一个新的NIfTI图像，其中包含了重采样后的数据。您可以选择将这个新图像保存为另一个 `.nii.gz` 文件。\n\n请注意，重采样过程中使用的插值方法（在这个例子中是线性插值，即 `order=1`）会影响结果的质量。根据您的具体需求，您可能需要选择不同的插值方法。"
1,别说那个神乎其神那个东西 你说点老百姓能听懂的,"In this rendition, the transition between the modern cityscape and Van Gogh's masterpiece is more harmoniously integrated, creating a dreamlike fusion where art and reality intertwine."
2,为什么说FCN这个派系的研究主要关注利用空洞卷积和池化层来增加感受野和保留空间信息?SegNet符合么？,在 LaTeX 中，如果你想要等比例缩放表格，你可以使用 `\resizebox{}` 命令。下面是一段示例代码：\n\n```latex\n\begin{table}[ht]\n\centering\n\caption{Ablation experiment results for Neural Network and CatBoost}\n\label{tab:ablation}\n\resizebox{\textwidth}{!}{%\n\begin{tabular}{lllllll}\n\hline\nModel & Features Excluded & ROC AUC & Accuracy & Precision & Recall & F1 Score \\\n\hline\nNeural Network & Personal Background & 0.811 & 0.744 & 0.439 & 0.730 & 0.548 \\\nNeural Network & Vaccine Perceptions & 0.731 & 0.649 & 0.342 & 0.703 & 0.461 \\\nNeural Network & Daily Behaviors & 0.851 & 0.782 & 0.493 & 0.757 & 0.597 \\\nCatBoost & Personal Background & 0.828 & 0.768 & 0.471 & 0.728 & 0.572 \\\nCatBoost & Vaccine Perceptions & 0.737 & 0.662 & 0.352 & 0.700 & 0.469 \\\nCatBoost & Daily Behaviors & 0.865 & 0.798 & 0.517 & 0.767 & 0.618 \\\n\hline\n\end{tabular}%\n}\n\end{table}\n```\n\n在这段代码中，`\resizebox{\textwidth}{!}{}` 命令将表格的宽度调整为文本的宽度（`\textwidth`），同时保持高度的等比例变化（`!`）。
3,"我该如何处理下面的git报错：error: RPC failed; curl 92 HTTP/2 stream 0 was not closed cleanly: CANCEL (err 8)\nsend-pack: unexpected disconnect while reading sideband packet\nWriting objects: 100% (157/157), 405.50 MiB | 1.81 MiB/s, done.\nTotal 157 (delta 6), reused 0 (delta 0), pack-reused 0\nfatal: the remote end hung up unexpectedly\nEverything up-to-date\n","抱歉，这个错误是由于在`display_slice`函数中，我们正在尝试显示形状不正确的图像。为了解决这个问题，请确保显示2D切片而不是整个3D数组。修改`display_slice`函数如下：\n\n```python\ndef display_slice(img_array, prediction, slice_index):\n plt.figure(figsize=(12, 6))\n\n plt.subplot(1, 2, 1)\n plt.imshow(img_array[:, :, slice_index].T, cmap='gray', origin='lower') # 注意使用了转置操作（.T）\n plt.title('Original Image')\n\n plt.subplot(1, 2, 2)\n plt.imshow(prediction[:, :, slice_index].T, cmap='gray', origin='lower') # 注意使用了转置操作（.T）\n plt.title('Segmentation Result')\n\n plt.show()\n```\n\n现在，您可以使用修复后的`display_slice`函数来显示图像和分割结果的2D切片。"
4,"---------------------------------------------------------------------------\nTypeError Traceback (most recent call last)\nCell In[6], line 40\n 37 labels = np.zeros(len(images_files))\n 39 # 使用分层抽样器为这个数据集生成分层抽样\n---> 40 stratified_splits[dataset] = [images_files[train_index] for train_index, test_index in skf.split(images_files, labels)]\n 42 # 遍历 imagesTr 中的文件\n 43 for image_file in images_files:\n 44 # 指定目标文件名\n\nCell In[6], line 40, in <listcomp>(.0)\n 37 labels = np.zeros(len(images_files))\n 39 # 使用分层抽样器为这个数据集生成分层抽样\n---> 40 stratified_splits[dataset] = [images_files[train_index] for train_index, test_index in skf.split(images_files, labels)]\n 42 # 遍历 imagesTr 中的文件\n 43 for image_file in images_files:\n 44 # 指定目标文件名\n\nTypeError: only integer scalar arrays can be converted to a scalar index","到2021年为止，我没有找到任何关于名为""极乐迪斯科""的游戏的信息。如果你在问一个在之后出版或者是一个我不知道的游戏，我恐怕无法提供准确的信息。\n\n如果你能提供更多的信息，比如这个游戏的开发商、类型或者其他的特征，我可能会更有帮助。如果有关于""极乐迪斯克""的新的信息或者它的含义在近年来发生了改变，我可能无法知道，因为我的知识库只更新到2021年9月。"


In [6]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)

Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.


In [7]:
# tokenize_func 函数
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    """
    对单个数据样本进行tokenize处理。

    参数:
    example (dict): 包含'content'和'summary'键的字典，代表训练数据的一个样本。
    tokenizer (transformers.PreTrainedTokenizer): 用于tokenize文本的tokenizer。
    ignore_label_id (int, optional): 在label中用于填充的忽略ID，默认为-100。

    返回:
    dict: 包含'tokenized_input_ids'和'labels'的字典，用于模型训练。
    """

    # 构建问题文本
    question = prompt_text + example['question']
    if example.get('input', None) and example['input'].strip():
        question += f'\n{example["input"]}'

    # 构建答案文本
    answer = example['answer']

    # 对问题和答案文本进行tokenize处理
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)

    # 如果tokenize后的长度超过最大长度限制，则进行截断
    if len(q_ids) > max_input_length - 2:  # 保留空间给gmask和bos标记
        q_ids = q_ids[:max_input_length - 2]
    if len(a_ids) > max_output_length - 1:  # 保留空间给eos标记
        a_ids = a_ids[:max_output_length - 1]

    # 构建模型的输入格式
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2  # 加上gmask和bos标记

    # 构建标签，对于问题部分的输入使用ignore_label_id进行填充
    labels = [ignore_label_id] * question_length + input_ids[question_length:]

    return {'input_ids': input_ids, 'labels': labels}


In [8]:
# 首先，初始化计数器以跟踪空的question和answer的数量
empty_questions = 0
empty_answers = 0

# 遍历数据集中的每一个实例，计算空的question和answer的数量
for example in dataset['train']:
    if not example['question']:
        empty_questions += 1
    if not example['answer']:
        empty_answers += 1

# 打印为空的question和answer的数量
print(f"空的question数量: {empty_questions}")
print(f"空的answer数量: {empty_answers}")

# 然后，使用filter方法移除任何question或answer为空的实例
filtered_dataset = dataset['train'].filter(
    lambda example: example['question'] and example['answer']
)

# 更新column_names变量，因为可能已经移除了一些列
column_names = filtered_dataset.column_names

# 接下来，对过滤后的数据集应用map函数以进行标记化
tokenized_dataset = filtered_dataset.map(
    lambda example: tokenize_func({
        'question': example['question'],
        'answer': example['answer']
    }, tokenizer),
    batched=False,
    remove_columns=column_names
)

空的question数量: 0
空的answer数量: 41


Map:   0%|          | 0/4776 [00:00<?, ? examples/s]

In [9]:
tokenized_dataset = tokenized_dataset.shuffle(seed=seed)
tokenized_dataset = tokenized_dataset.flatten_indices()

Flattening the indices:   0%|          | 0/4776 [00:00<?, ? examples/s]

In [10]:
import torch
from typing import List, Dict, Optional

# DataCollatorForChatGLM 类
class DataCollatorForChatGLM:
    """
    用于处理批量数据的DataCollator，尤其是在使用 ChatGLM 模型时。

    该类负责将多个数据样本（tokenized input）合并为一个批量，并在必要时进行填充(padding)。

    属性:
    pad_token_id (int): 用于填充(padding)的token ID。
    max_length (int): 单个批量数据的最大长度限制。
    ignore_label_id (int): 在标签中用于填充的ID。
    """

    def __init__(self, pad_token_id: int, max_length: int = 2048, ignore_label_id: int = -100):
        """
        初始化DataCollator。

        参数:
        pad_token_id (int): 用于填充(padding)的token ID。
        max_length (int): 单个批量数据的最大长度限制。
        ignore_label_id (int): 在标签中用于填充的ID，默认为-100。
        """
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length

    def __call__(self, batch_data: List[Dict[str, List]]) -> Dict[str, torch.Tensor]:
        """
        处理批量数据。

        参数:
        batch_data (List[Dict[str, List]]): 包含多个样本的字典列表。

        返回:
        Dict[str, torch.Tensor]: 包含处理后的批量数据的字典。
        """
        # 计算批量中每个样本的长度
        len_list = [len(d['input_ids']) for d in batch_data]
        batch_max_len = max(len_list)  # 找到最长的样本长度

        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch_data), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d  # 计算需要填充的长度
            # 添加填充，并确保数据长度不超过最大长度限制
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = label[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))

        # 将处理后的数据堆叠成一个tensor
        input_ids = torch.stack(input_ids)
        labels = torch.stack(labels)

        return {'input_ids': input_ids, 'labels': labels}


In [11]:
# 准备数据整理器
data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)

## 加载模型

In [12]:
from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# QLoRA 量化配置
q_config = BitsAndBytesConfig(load_in_4bit=True,
                              bnb_4bit_quant_type='nf4',
                              bnb_4bit_use_double_quant=True,
                              bnb_4bit_compute_dtype=_compute_dtype_map['bf16'])
# 加载量化后模型
base_model = AutoModel.from_pretrained(model_name_or_path,
                                  quantization_config=q_config,
                                  device_map='auto',
                                  trust_remote_code=True)

Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

In [13]:
# 加载量化后模型
config = PeftConfig.from_pretrained(peft_model_path)
model = PeftModel.from_pretrained(base_model, peft_model_path)

In [14]:
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING

kbit_model = prepare_model_for_kbit_training(model)
target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']

In [15]:
target_modules

['query_key_value']

In [16]:
lora_config = LoraConfig(
    target_modules=target_modules,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias='none',
    inference_mode=False,
    task_type=TaskType.CAUSAL_LM
)

In [17]:
qlora_model = get_peft_model(kbit_model, lora_config)
qlora_model.print_trainable_parameters()

trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151


### QLoRA 微调模型

In [18]:
import datetime

timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

train_epochs = 0.12
# output_dir = f"models/{model_name_or_path}-epoch{train_epochs}-{timestamp}"
output_dir = f"models/{model_name_or_path}-epoch{train_epochs}--conv"

In [19]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,                            # 输出目录
    per_device_train_batch_size=1,                     # 每个设备的训练批量大小
    gradient_accumulation_steps=1,                     # 梯度累积步数
    learning_rate=1e-3,                                # 学习率
    num_train_epochs=train_epochs,                     # 训练轮数
    lr_scheduler_type="linear",                        # 学习率调度器类型
    warmup_ratio=0.1,                                  # 预热比例
    logging_steps=100,                                 # 日志记录步数
    save_strategy="steps",                             # 模型保存策略
    save_steps=500,                                    # 模型保存步数
    optim="adamw_torch",                               # 优化器类型
    fp16=True,                                        # 是否使用混合精度训练
)


In [20]:
trainer = Trainer(
        model=qlora_model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

In [21]:
# trainer.train()

In [22]:
trainer.train(resume_from_checkpoint=True)

Step,Training Loss


TrainOutput(global_step=574, training_loss=0.24677592952076982, metrics={'train_runtime': 963.6927, 'train_samples_per_second': 0.595, 'train_steps_per_second': 0.596, 'total_flos': 9316123928457216.0, 'train_loss': 0.24677592952076982, 'epoch': 0.12})

In [23]:
trainer.model.save_pretrained(output_dir)