# 使用私有数据微调ChatGLM3 #

In [1]:
import os
os.environ['HF_HOME'] = '/root/autodl-tmp/cache/'
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
import torch

print(torch.__config__.show(), torch.cuda.get_device_properties(0))

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2022.2-Product Build 20220804 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.3.6 (Git Hash 86e6af5974177e513fd3fee58425e1063e7f1361)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX512
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -DNDEBUG -DUSE_KINET

In [2]:
# 定义全局变量和参数
model_name_or_path = 'THUDM/chatglm3-6b'
train_data_path = 'data/zhouyi_dataset_20250618_214633.csv'
eval_data_path = None
seed = 8
max_input_length = 512
max_output_length = 1536
lora_rank = 16
lora_alpha = 32
lora_dropout = 0.05
prompt_text = ''

## 数据处理

In [3]:
from datasets import load_dataset

dataset = load_dataset("csv", data_files=train_data_path)
print(dataset) #dataset是字典


  from .autonotebook import tqdm as notebook_tqdm


DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 160
    })
})


In [4]:
dataset['train'].features # features 是数据集特征描述，包含每个列的名称和类型

{'content': Value(dtype='string', id=None),
 'summary': Value(dtype='string', id=None)}

In [5]:
dataset['train']['content'] # content是键

['蒙卦代表什么？',
 '周易中的蒙卦含义是什么？',
 '请解释一下蒙卦。',
 '蒙卦在周易中是什么象征？',
 '周易蒙卦的深层含义是什么？',
 '蒙卦和教育启蒙有什么联系？',
 '周易的蒙卦讲述了什么？',
 '蒙卦是怎样的一个卦象？',
 '蒙卦在周易中怎样表达教育的概念？',
 '蒙卦的基本意义是什么？',
 '周易中蒙卦的解释是什么？',
 '蒙卦在周易中代表了哪些方面？',
 '蒙卦涉及哪些哲学思想？',
 '周易中蒙卦的象征意义是什么？',
 '蒙卦的主要讲述内容是什么？',
 '周易蒙卦的核心思想是什么？',
 '蒙卦和启蒙教育之间有何联系？',
 '在周易中，蒙卦象征着什么？',
 '请描述蒙卦的含义。',
 '蒙卦在周易哲学中扮演什么角色？',
 '屯卦代表什么？',
 '周易中的屯卦含义是什么？',
 '请解释一下屯卦。',
 '屯卦在周易中是什么象征？',
 '周易屯卦的深层含义是什么？',
 '屯卦和教育启蒙有什么联系？',
 '周易的屯卦讲述了什么？',
 '屯卦是怎样的一个卦象？',
 '屯卦在周易中怎样表达教育的概念？',
 '屯卦的基本意义是什么？',
 '周易中屯卦的解释是什么？',
 '屯卦在周易中代表了哪些方面？',
 '屯卦涉及哪些哲学思想？',
 '周易中屯卦的象征意义是什么？',
 '屯卦的主要讲述内容是什么？',
 '周易屯卦的核心思想是什么？',
 '屯卦和启蒙教育之间有何联系？',
 '在周易中，屯卦象征着什么？',
 '请描述屯卦的含义。',
 '屯卦在周易哲学中扮演什么角色？',
 '需卦代表什么？',
 '周易中的需卦含义是什么？',
 '请解释一下需卦。',
 '需卦在周易中是什么象征？',
 '周易需卦的深层含义是什么？',
 '需卦和教育启蒙有什么联系？',
 '周易的需卦讲述了什么？',
 '需卦是怎样的一个卦象？',
 '需卦在周易中怎样表达教育的概念？',
 '需卦的基本意义是什么？',
 '周易中需卦的解释是什么？',
 '需卦在周易中代表了哪些方面？',
 '需卦涉及哪些哲学思想？',
 '周易中需卦的象征意义是什么？',
 '需卦的主要讲述内容是什么？',
 '周易需卦的核心思想是什么？',
 '需卦和启蒙教育之间有何联系？',
 '在周易中，需卦象征着什么？',
 '请描述需卦的

In [6]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dateset."
    
    # 生成一组随机数 picks 用作 dataset索引
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    # 生成 df表格
    df = pd.DataFrame(dataset[picks]) # 返回picks列表的行索引写到表格df
    for column,typ in dataset.features.items():# 固定格式目的是转换数据集中的分类标签和分类标签序列
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))
        
    

In [7]:
show_random_elements(dataset["train"],num_examples=5)

Unnamed: 0,content,summary
0,在周易中，乾卦象征着什么？,乾卦是《易经》六十四卦之首，由六阳爻组成，象征天，代表刚健、旺盛和纯粹阳性。卦辞‘元、亨、利、贞’表示吉祥如意，教导人遵守天道的德行。‘象曰：天行健，君子以自强不息’强调天道刚健运行不息，君子应效法天道，不断自我完善。邵雍认为乾卦象征刚健旺盛，但需谨防过强；傅佩荣则指出临事刚健，自强不息，且施比受有福。传统解卦认为乾卦象征天和龙，代表纯粹阳刚，需行正道方得长久。在运势上，乾卦象征飞龙在天，名利双收，但盛极必衰，需警惕骄傲，保持冷静。事业上象征大吉大利，但需注意谨慎；经商上顺利但有风险，宜把握时机；求名上需克服骄傲，进业修德；婚恋上阳盛阴衰，但刚柔可济；决策上可成就大事，需坚持刚健正直，自强不息。
1,屯卦是怎样的一个卦象？,屯卦是周易中的第二个卦，由下卦震（雷）和上卦坎（水）组成。此卦象征万物初生时的艰难险阻。卦名‘屯’意味着困难，卦辞‘元，亨，利，贞。勿用，有攸往，利建侯’表明初始虽困难，但最终将亨通吉利，有利于建立功业和封侯。象征雷雨交加的环境，君子观此卦应如经纶般有条不紊地治理事务。邵雍认为万物始生困难，但先苦后甜。傅佩荣建议宜守不宜进。传统解卦认为屯卦象征动而逢险，需刚毅果敢。此卦适合解释困境中的坚持与努力，以及在艰难时机的把握。
2,蒙卦的基本意义是什么？,蒙卦在周易中象征着启蒙与迷惑。此卦由下卦坎（水）和上卦艮（山）组成，卦象为山下有泉，象征泉水喷涌而出，但仍有险阻。这一卦象寓意着蒙昧和回还往复，表明智慧未开，蒙昧闭塞，犹豫不决，缺乏果断。在卦辞中提到‘匪我求童蒙，童蒙求我’，表明不是主动去寻求启蒙，而是蒙昧的人主动寻求教化。初筮告，再三渎，渎则不告，意味着初次占筮可以得到启示，但若轻慢不敬地反复占问，则不会得到启示。蒙卦的核心哲学是强调启蒙的重要性，君子应以果敢坚毅的行动来培养自身的品德。在事业上，蒙卦暗示开始时可能混乱无序，但通过勇敢坚毅的行动和接受严格教育，可以扭转局面。在经商和求名方面，蒙卦建议小心谨慎，不得急功近利，应树立高尚的商业道德和接受良好的基础教育。在婚恋方面，蒙卦提醒注意考察对方品德，夫妻需相互宽容、理解。总之，蒙卦教导人们在迷惘困顿中寻求教化，通过果敢坚毅的行动和接受教育，最终达到启蒙和通达的状态。
3,周易中讼卦的象征意义是什么？,讼卦在周易中代表争讼、诉讼的情境。此卦由上卦乾（天）和下卦坎（水）组成，象征天水相违，流向相背，事理乖舛，从而引发争讼。卦辞指出，虽然有利可图，但需警惕戒惧，中期吉利，但最终可能转为凶险。此卦有利于遇见有德行的大人物，但不利于涉越大河。象辞解释为君子应从卦象中汲取教训，在做事谋事之初就要谨慎小心。《断易天机》认为此卦为离宫游魂卦，上乾刚强，下坎险陷，刚险相争必然导致争讼，多有不吉。邵雍解为天高水深，达远不亲，应慎谋退守，敬畏无凶。傅佩荣认为此卦表示时运功名受阻，财运开始谨慎终可获利，家宅宜求淑女，身体需预防胜于治疗。传统解卦指出此卦为异卦相叠，乾为刚健，坎为险陷，刚与险对立，必然产生争讼。运势上事与愿违，宜防陷阱；事业上起初顺利，但继而受挫，需警惕谨慎，避免固执己见，退而让人以求化解；经商上和气生财，吃亏是福，应坚持公正公平互利原则；求名上不利，应坚守纯正，隐忍自励；婚恋上虽不尽人意，但双方理解可处，应以温和方式处理生活；决策上应避免争强好胜，知足适可而止，接受教训，引以为戒。
4,讼卦代表什么？,讼卦在周易中代表争讼、诉讼的情境。此卦由上卦乾（天）和下卦坎（水）组成，象征天水相违，流向相背，事理乖舛，从而引发争讼。卦辞指出，虽然有利可图，但需警惕戒惧，中期吉利，但最终可能转为凶险。此卦有利于遇见有德行的大人物，但不利于涉越大河。象辞解释为君子应从卦象中汲取教训，在做事谋事之初就要谨慎小心。《断易天机》认为此卦为离宫游魂卦，上乾刚强，下坎险陷，刚险相争必然导致争讼，多有不吉。邵雍解为天高水深，达远不亲，应慎谋退守，敬畏无凶。傅佩荣认为此卦表示时运功名受阻，财运开始谨慎终可获利，家宅宜求淑女，身体需预防胜于治疗。传统解卦指出此卦为异卦相叠，乾为刚健，坎为险陷，刚与险对立，必然产生争讼。运势上事与愿违，宜防陷阱；事业上起初顺利，但继而受挫，需警惕谨慎，避免固执己见，退而让人以求化解；经商上和气生财，吃亏是福，应坚持公正公平互利原则；求名上不利，应坚守纯正，隐忍自励；婚恋上虽不尽人意，但双方理解可处，应以温和方式处理生活；决策上应避免争强好胜，知足适可而止，接受教训，引以为戒。


In [8]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)

Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.


In [9]:
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    """
    对单个数据样本进行tokenize处理。

    参数:
    example (dict): 包含'content'和'summary'键的字典，代表训练数据的一个样本。
    tokenizer (transformers.PreTrainedTokenizer): 用于tokenize文本的tokenizer。
    ignore_label_id (int, optional): 在label中用于填充的忽略ID，默认为-100。

    返回:
    dict: 包含'tokenized_input_ids'和'labels'的字典，用于模型训练。
    """
    # 构建问题文本
    question = prompt_text + example['content']
    if example.get('input',None) and example['input'].strip():
        question += f'\n{example["input"]}'
        
    # 构建答案文本
    answer = example['summary']
    
    # 对问题和答案文本进行tokenize处理
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)
    
    # 如果tokenize后的长度超过最大长度限制，则进行截断
    if len(q_ids) > max_input_length - 2:
        q_ids = q_ids[:max_input_length - 2] # 保留空间给gmask和bos标记
    if len(a_ids) > max_output_length - 1:
        a_ids = a_ids[:max_output_length - 1] # 保留空间给eos标记
        
    # 构建模型的输入格式
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2
    
    # 构建标签，对于问题部分的输入使用ignore_label_id进行填充
    labels = [ignore_label_id] * question_length + input_ids[question_length:]
    
    return {'input_ids':input_ids,'labels':labels}

In [10]:
column_names = dataset['train'].column_names
# 为了保持dataset的格式，使用 Dataset.map 方法。直接给 map 函数传入一个函数，这个函数传入 dataset 的一个样本，然后返回映射后的结果。
tokenized_dataset = dataset['train'].map(
    lambda example:tokenize_func(example, tokenizer),
    batched=False,
    remove_columns=column_names
)

In [11]:
tokenized_dataset = tokenized_dataset.shuffle(seed=seed)
# 调用 flatten_indices() 可以消除执行 dataset.map() 时产生的副作用，确保你的数据集像普通的 list 一样按顺序访问。
tokenized_dataset = tokenized_dataset.flatten_indices()

In [12]:
import torch 
from typing import List, Dict, Optional

# DataCollatorForChatGLM 类
class DataCollatorForChatGLM:
    """
    用于处理批量数据的DataCollator，尤其是在使用 ChatGLM 模型时。

    该类负责将多个数据样本（tokenized input）合并为一个批量，并在必要时进行填充(padding)。

    属性:
    pad_token_id (int): 用于填充(padding)的token ID。
    max_length (int): 单个批量数据的最大长度限制。
    ignore_label_id (int): 在标签中用于填充的ID。
    """
    
    def __init__(self, pad_token_id:int, max_length:int = 2048, ignore_label_id: int = -100):
        """
        初始化DataCollator。

        参数:
        pad_token_id (int): 用于填充(padding)的token ID。
        max_length (int): 单个批量数据的最大长度限制。
        ignore_label_id (int): 在标签中用于填充的ID，默认为-100。
        """
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length
        
    def __call__(self, batch_data: List[Dict[str, List]]) -> Dict[str,torch.Tensor]:
        """
        处理批量数据。

        参数:
        batch_data (List[Dict[str, List]]): 包含多个样本的字典列表。

        返回:
        Dict[str, torch.Tensor]: 包含处理后的批量数据的字典。
        """
        
        # 计算批量中每个样本的长度
        len_list = [len(d['input_ids']) for d in batch_data]
        batch_max_len = max(len_list)
        
        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch_data), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d #计算需要填充的长度
            # 田间填充，并确保数据长度不超过最大长度限制
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = lbel[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))
            
        # 将处理后的数据堆叠成一个tensor
        input_ids = torch.stack(input_ids)
        labels = torch.stack(labels)
        
        return{'input_ids': input_ids, 'labels': labels}

In [13]:
# 准备数据整理器
data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)

## 加载模型

In [14]:
from transformers import AutoModel, BitsAndBytesConfig

_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# QLoRA 量化配置
q_config = BitsAndBytesConfig(load_in_4bit=True,
                              bnb_4bit_quant_tpye='nf4',
                              bnb_4bit_use_double_quant=True,
                              bnb_4bit_compute_dtype=_compute_dtype_map['bf16'])

# 加载量化后模型
model = AutoModel.from_pretrained(model_name_or_path,
                                  quantization_config=q_config,
                                  device_map='auto',
                                  trust_remote_code=True)

model.supports_gradient_checkpointing = True
model.gradient_checkpointing_enable()
model.enable_input_require_grads()

model.config.use_cache = False # silence the warnings. Please re-enable for inference!

Loading checkpoint shards: 100%|██████████| 7/7 [00:07<00:00,  1.04s/it]


In [15]:
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING

kbit_model = prepare_model_for_kbit_training(model)
target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']

In [16]:
target_modules

['query_key_value']

In [17]:
lora_config = LoraConfig(
    target_modules=target_modules,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias='none',
    inference_mode=False,
    task_type=TaskType.CAUSAL_LM
)

In [18]:
qlora_model = get_peft_model(kbit_model, lora_config)
qlora_model.print_trainable_parameters()

trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151


## QLoRA微调模型

In [19]:
train_epochs = 3

#timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

output_dir = f'models/{model_name_or_path}-epoch{train_epochs}'

In [20]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,                # 输出目录
    per_device_train_batch_size=2,        # 每个设备的训练批量大小
    gradient_accumulation_steps=1,        # 梯度累计步数
    learning_rate=1e-3,                   # 学习率
    num_train_epochs=train_epochs,        # 训练轮数
    lr_scheduler_type='linear',           # 学习率调度器类型
    warmup_ratio=0.1,                     # 预热比例
    logging_steps=1,                      # 日志记录步数
    save_strategy='steps',                # 模型记录策略
    save_steps=10,                        # 模型保存步数
    optim='adamw_torch',                  # 优化器类型
    fp16=True                             # 是否使用混合精度训练
)

In [21]:
trainer = Trainer(
    model=qlora_model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator
)

In [22]:
trainer.train()

Step,Training Loss
1,4.8211
2,4.8951
3,4.207
4,4.7859
5,4.4749
6,4.4471
7,4.5337
8,3.8043
9,4.2057
10,4.3032


TrainOutput(global_step=240, training_loss=0.42365730858048967, metrics={'train_runtime': 557.2352, 'train_samples_per_second': 0.861, 'train_steps_per_second': 0.431, 'total_flos': 5160316660703232.0, 'train_loss': 0.42365730858048967, 'epoch': 3.0})

In [23]:
trainer.model.save_pretrained(output_dir)