In [1]:
import torch

print(torch.__config__.show(), torch.cuda.get_device_properties(0))

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2022.2-Product Build 20220804 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.3.6 (Git Hash 86e6af5974177e513fd3fee58425e1063e7f1361)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX2
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -DNDEBUG -DUSE_KINETO 

In [2]:
# 或者一次性列出所有已安装包及其版本（可搜索关键词）
!pip list | grep -E "torch|transformers|accelerate|bitsandbytes|datasets|optimum"

/bin/bash: /root/miniconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
accelerate                0.26.1
bitsandbytes              0.41.3.post2
datasets                  2.16.1
optimum                   1.17.0
torch                     2.3.1
torchvision               0.18.1
transformers              4.37.2


In [3]:
import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"

In [4]:
# 定义全局变量和参数
model_name_or_path = 'THUDM/chatglm3-6b'  # 模型ID或本地路径
# train_data_path = 'data/zhouyi_dataset_handmade.csv'    # 训练数据路径
train_data_path = 'data/zhouyi_train_dataset_lizhe.csv'    # 训练数据路径(批量生成数据集）
eval_data_path = None                     # 验证数据路径，如果没有则设置为None
seed = 8                                 # 随机种子
max_input_length = 512                    # 输入的最大长度
max_output_length = 1536                  # 输出的最大长度
lora_rank = 16                             # LoRA秩
lora_alpha = 32                           # LoRA alpha值
lora_dropout = 0.05                       # LoRA Dropout率
prompt_text = ''                          # 所有数据前的指令文本

# 数据处理

In [5]:
from datasets import load_dataset

dataset = load_dataset("csv", data_files=train_data_path)
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 22
    })
})


In [6]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [7]:
show_random_elements(dataset["train"], num_examples=5)

Unnamed: 0,content,summary
0,否卦,在周易哲学体系中，否卦呈现了一个极具警示意义的卦象结构：乾（天）在下，坤（地）在上，形成天地不交的格局。这一独特的卦象排列象征着阴阳二气的隔绝与闭塞，代表着事物发展陷入阻滞不通的困境。\n\n否卦深刻揭示了宇宙运行的周期性规律：乾天本应在上而反居下，坤地本应在下而反居上，这种颠倒的状态导致天地之气无法交感，万物生机受阻。在人生境遇上，此卦预示着可能遭遇的困境与阻碍，提醒人们此时更需坚守正道，保持耐心，静待'否极泰来'的转机。\n\n《序卦》对此的阐释尤为精妙：'泰者，通也。物不可以终通，故受之以否'，这揭示了一个重要哲理——通达的状态不可能永久持续，这正是泰卦之后必然出现否卦的深层原因。\n\n《象传》的智慧箴言'君子以俭德辟难，不可荣以禄'，教导我们在'否'的时期应当收敛德行、远离诱惑，不可贪图虚名厚禄。这种处世的智慧，彰显了周易'知几应变'的深刻哲学。
1,需卦,在周易哲学中，需卦是一个富有象征意义的卦象，由乾（天）下坎（水）上两卦相叠而成。这个卦象生动地描绘了天空（乾）中乌云密布（坎）的景象，暗示着即将降雨的自然现象。在传统农业社会中，雨水是最基本的需求，因此这个卦被命名为'需'，其古文字形'雨上天下'形象地表达了这一概念。\n\n需卦蕴含着深刻的哲学智慧：如同等待天降甘霖滋养万物，人生也需要学会在适当的时候等待时机。卦象显示，当天空布满乌云但尚未降雨时，人们应当像君子一样'饮食宴乐'——这不是消极的等待，而是积极的准备和积蓄力量的过程。这种等待蕴含着'守正待机'的深刻道理，提醒我们在时机未成熟时保持耐心。\n\n从卦序来看，需卦紧随蒙卦（启蒙卦），《序卦》解释道：'物稚不可不养也，故受之以需'。这表明万物在初始阶段都需要滋养和等待，正如幼苗需要雨水的滋润才能成长。需卦因此象征着人生中必要的等待期和准备期，是通向成功的重要阶段。
2,噬嗑卦,噬嗑卦是《周易》中一个充满力量的卦象，由震卦（雷）在下、离卦（火）在上组成。这个卦象生动地展现了雷电交加的景象，象征着咬合与刑狱的意象。在周易哲学中，噬嗑卦代表着处理事务时需要果断坚决的态度，就像咬碎坚硬之物一般干脆利落。\n\n此卦蕴含着深刻的司法智慧，特别适合用于决断刑狱之事。卦辞指出'利于断狱、涉大川，亨通'，表明在重大决策和艰难处境中，秉持公正果断的态度将带来亨通顺利的结果。\n\n从卦序来看，噬嗑卦紧随观卦之后，《序卦》解释道：'可观而后有所合，故受之以噬嗑'。这揭示了一个重要的认知过程：经过充分观察审视后，必然会有需要整合处理的事务出现。\n\n《象传》对此卦的阐释尤为深刻：'雷电，噬嗑；先王以明罚敕法'。古代圣王正是效法这一卦象，通过明确刑罚、整饬法度来治理国家。雷电的威严与火的光明相结合，象征着法律既要严明公正，又要光明正大。
3,大有卦,在周易哲学体系中，大有卦是一个充满光明与繁荣意象的卦象，由下卦乾（天）和上卦离（火）组成。这一卦象展现'火在天上'的壮丽景象，象征着光明普照大地，预示着丰盈的收获与富足。\n\n大有卦的核心哲学启示在于：在富足昌盛之时，更要坚守正道，保持谦和待人。乾卦代表刚健的天道，离卦象征光明的火德，二者结合昭示着当物质丰裕时，精神修养更要与之相匹配。唯有秉持中正之道，与人和睦相处，方能保持长久的亨通。\n\n《序卦》中'与人同者，物必归焉'的论述，揭示了大有卦紧随同人卦的深层逻辑：当人们能够和谐共处时，自然会有丰硕的成果随之而来。《象传》'火在天上，大有'的阐释，则进一步强调君子应当效法此卦精神，抑恶扬善，顺应天命，方能成就真正的大有之境。
4,复卦,在周易哲学中，复卦蕴含着深刻的阴阳转化智慧。这个卦象由下震（雷）上坤（地）组成，形象地展现了'雷在地中'的意象，象征着事物在衰败到极点后的回复与新生。震卦代表雷的震动力量，坤卦则象征大地的包容，二者结合昭示着生命力的重新萌发。\n\n复卦的核心思想是'一阳来复'，这不仅是自然界阴阳消长的规律，也隐喻着人生和事物发展的周期性。当阴气达到极致时，阳气便开始萌动，预示着新的生机即将到来。因此，此卦特别强调'利于坚守正道'的重要性，在看似黑暗的时刻保持信念，终将迎来亨通。\n\n《序卦传》对此的阐释极为精妙：'物不可以终尽剥，穷上反下'，指出剥极必复的自然法则。正如《象传》所言，古代圣王领悟此理，在冬至日闭关静养，暂停商业活动，正是顺应天地阴阳往复的智慧体现。复卦教导我们，在最黑暗的时刻要懂得积蓄力量，等待时机的转化。


In [8]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path,
                                          trust_remote_code=True,
                                          revision='b098244')



In [9]:
# tokenize_func 函数
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    """
    对单个数据样本进行tokenize处理。

    参数:
    example (dict): 包含'content'和'summary'键的字典，代表训练数据的一个样本。
    tokenizer (transformers.PreTrainedTokenizer): 用于tokenize文本的tokenizer。
    ignore_label_id (int, optional): 在label中用于填充的忽略ID，默认为-100。

    返回:
    dict: 包含'tokenized_input_ids'和'labels'的字典，用于模型训练。
    """

    # 构建问题文本
    question = prompt_text + example['content']
    if example.get('input', None) and example['input'].strip():
        question += f'\n{example["input"]}'

    # 构建答案文本
    answer = example['summary']

    # 对问题和答案文本进行tokenize处理
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)

    # 如果tokenize后的长度超过最大长度限制，则进行截断
    if len(q_ids) > max_input_length - 2:  # 保留空间给gmask和bos标记
        q_ids = q_ids[:max_input_length - 2]
    if len(a_ids) > max_output_length - 1:  # 保留空间给eos标记
        a_ids = a_ids[:max_output_length - 1]

    # 构建模型的输入格式
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2  # 加上gmask和bos标记

    # 构建标签，对于问题部分的输入使用ignore_label_id进行填充
    labels = [ignore_label_id] * question_length + input_ids[question_length:]

    return {'input_ids': input_ids, 'labels': labels}

In [10]:
column_names = dataset['train'].column_names
tokenized_dataset = dataset['train'].map(
    lambda example: tokenize_func(example, tokenizer),
    batched=False, 
    remove_columns=column_names
)

In [11]:
import torch
from typing import List, Dict, Optional

# DataCollatorForChatGLM 类
class DataCollatorForChatGLM:
    """
    用于处理批量数据的DataCollator，尤其是在使用 ChatGLM 模型时。

    该类负责将多个数据样本（tokenized input）合并为一个批量，并在必要时进行填充(padding)。

    属性:
    pad_token_id (int): 用于填充(padding)的token ID。
    max_length (int): 单个批量数据的最大长度限制。
    ignore_label_id (int): 在标签中用于填充的ID。
    """

    def __init__(self, pad_token_id: int, max_length: int = 2048, ignore_label_id: int = -100):
        """
        初始化DataCollator。

        参数:
        pad_token_id (int): 用于填充(padding)的token ID。
        max_length (int): 单个批量数据的最大长度限制。
        ignore_label_id (int): 在标签中用于填充的ID，默认为-100。
        """
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length

    def __call__(self, batch_data: List[Dict[str, List]]) -> Dict[str, torch.Tensor]:
        """
        处理批量数据。

        参数:
        batch_data (List[Dict[str, List]]): 包含多个样本的字典列表。

        返回:
        Dict[str, torch.Tensor]: 包含处理后的批量数据的字典。
        """
        # 计算批量中每个样本的长度
        len_list = [len(d['input_ids']) for d in batch_data]
        batch_max_len = max(len_list)  # 找到最长的样本长度

        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch_data), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d  # 计算需要填充的长度
            # 添加填充，并确保数据长度不超过最大长度限制
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = label[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))

        # 将处理后的数据堆叠成一个tensor
        input_ids = torch.stack(input_ids)
        labels = torch.stack(labels)

        return {'input_ids': input_ids, 'labels': labels}

In [12]:
# 准备数据整理器
data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)

# 加载模型

In [13]:
from transformers import AutoModel, BitsAndBytesConfig

_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# QLoRA 量化配置
q_config = BitsAndBytesConfig(load_in_4bit=True,
                              bnb_4bit_quant_type='nf4',
                              bnb_4bit_use_double_quant=True,
                              bnb_4bit_compute_dtype=_compute_dtype_map['bf16'])
# 加载量化后模型
model = AutoModel.from_pretrained(model_name_or_path,
                                  quantization_config=q_config,
                                  device_map='auto',
                                  trust_remote_code=True,
                                  revision='b098244')

model.supports_gradient_checkpointing = True  
model.gradient_checkpointing_enable()
model.enable_input_require_grads()

model.config.use_cache = False  # silence the warnings. Please re-enable for inference!



Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [14]:
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING

kbit_model = prepare_model_for_kbit_training(model)
target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [15]:
lora_config = LoraConfig(
    target_modules=target_modules,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias='none',
    inference_mode=False,
    task_type=TaskType.CAUSAL_LM
)

In [16]:
qlora_model = get_peft_model(kbit_model, lora_config)
qlora_model.print_trainable_parameters()

trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151


# QLoRA 微调模型

In [17]:
import datetime

timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

train_epochs = 50
output_dir = f"models/{model_name_or_path}-epoch{train_epochs}-{timestamp}-lizhe"

In [18]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,                            # 输出目录
    per_device_train_batch_size=8,                     # 每个设备的训练批量大小
    gradient_accumulation_steps=1,                     # 梯度累积步数
    learning_rate=1e-3,                                # 学习率
    num_train_epochs=train_epochs,                     # 训练轮数
    lr_scheduler_type="linear",                        # 学习率调度器类型
    warmup_ratio=0.1,                                  # 预热比例
    logging_steps=1,                                 # 日志记录步数
    save_strategy="steps",                             # 模型保存策略
    save_steps=10,                                    # 模型保存步数
    optim="adamw_torch",                               # 优化器类型
    fp16=True,                                        # 是否使用混合精度训练
)

In [19]:
trainer = Trainer(
        model=qlora_model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

In [20]:
trainer.train()



Step,Training Loss
1,3.8677
2,3.7912
3,3.8951
4,3.7712
5,3.5744
6,3.7729
7,3.4556
8,3.2018
9,2.9526
10,2.8706




TrainOutput(global_step=150, training_loss=0.4680325033096597, metrics={'train_runtime': 3448.5992, 'train_samples_per_second': 0.319, 'train_steps_per_second': 0.043, 'total_flos': 1.1264816884998144e+16, 'train_loss': 0.4680325033096597, 'epoch': 50.0})

In [21]:
trainer.model.save_pretrained(output_dir)