# 作业要求

基于 data 目录下的数据训练 ChatGLM3 模型，使用 inference Notebook 对比微调前后的效果。
（可选）：将 gen_dataset Notebook 改写为 py 文件。

## 作业步骤

1. 完善 `data/raw_data.txt`, 补全全部 64 卦卦辞与解释。 （泰卦网站内容错误，缺失）
2. 修改 `gen_dataset.ipynb` 代码，将 openai 的调用改成了阿里云百炼的`千问-max`的调用。（openai api 访问不到）
3. 运行 `gen_dataset.ipynb` 生成 `data/zhouyi_dataset_20240731_160353.csv` 训练数据集。
4. 使用训练数据训练 qlora 模型。

## 模型效果展示

![](./gua1.png)

![](./gua2.png)

![](./gua3.png)


## 参考跳转

1. [用千问max数据增强的 62 卦的训练数据](./data/raw_data.txt)
2. [千问max的训练nb跳转](./gen_dataset.ipynb)
3. [效果评估的nb跳转](./chatglm_inference.ipynb)


# 使用领域（私有）数据微调 ChatGLM3

生成带有 epoch 和 timestamp 的模型文件

In [1]:
import torch

print(torch.__config__.show(), torch.cuda.get_device_properties(0))

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2022.2-Product Build 20220804 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.3.6 (Git Hash 86e6af5974177e513fd3fee58425e1063e7f1361)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX2
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -DNDEBUG -DUSE_KINETO 

In [2]:
# 定义全局变量和参数
model_name_or_path = 'THUDM/chatglm3-6b'  # 模型ID或本地路径
# train_data_path = 'data/zhouyi_dataset_handmade.csv'    # 训练数据路径
train_data_path = 'data/zhouyi_dataset_20240731_160353.csv'    # 训练数据路径(批量生成数据集）
eval_data_path = None                     # 验证数据路径，如果没有则设置为None
seed = 8                                 # 随机种子
max_input_length = 512                    # 输入的最大长度
max_output_length = 1536                  # 输出的最大长度
lora_rank = 16                             # LoRA秩
lora_alpha = 32                           # LoRA alpha值
lora_dropout = 0.05                       # LoRA Dropout率
prompt_text = ''                          # 所有数据前的指令文本

## 数据处理

In [3]:
from datasets import load_dataset

dataset = load_dataset("csv", data_files=train_data_path)
print(dataset)

#! 由于千问调用时有报错的时候，所以手工处理的时候，最终只生成了 62 卦的数据。

  from .autonotebook import tqdm as notebook_tqdm


DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 1240
    })
})


In [4]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [5]:
show_random_elements(dataset["train"], num_examples=5)

Unnamed: 0,content,summary
0,在周易中，咸卦象征着什么？,咸卦，兑上艮下，属于兑宫的三世卦，其卦象展示了万物之间的感应关系，尤其是强调男女之间、夫妇之间的和谐与感应，象征着正道上的相互感知与影响。《象辞》通过山泽相应来比喻君子应拥有如山谷与大泽般的广阔胸襟，虚怀若谷，愿意并能够接纳他人的教导与启迪。\n\n此卦昭示着通达与吉祥，鼓励以谦虚和真诚的态度与人相处，不仅利于家庭的和睦，也能确保个人的功名与事业的成功。在事业上强调了和谐共处的重要性，提示应避免盲从，坚持自己的主见和大志，而在时机不利时则需保持耐心，等待最佳行动时机。经商方面，提示在追求利益的同时，要以诚信为本，合作互助，面对市场的起伏，应有静待时机的智慧。求名则要求有远大的目标，同时需谦逊好学，广纳贤言。\n\n咸卦还特别强调了感情生活的美满，指出在纯洁动机基础上的婚姻关系可望长久幸福。至于人生的重大决策，咸卦提醒人们要以真诚和原则行事，防止被甜言蜜语所欺骗，同时在挫折面前要懂得反思与调整策略，不应轻易放弃或优柔寡断。\n\n综上所述，咸卦深刻揭示了人与人之间互动的基本法则——真诚、谦虚与顺应时势，这对于人际关系、事业进展乃至个人修养，均具有重要的指导意义。
1,周易艮卦的深层含义是什么？,艮卦象征着静止与内省，在周易中以其独特的双重山形呈现，强调适时的停止与自我约束的重要性。此卦提醒人们应当在达到一定阶段后进行反思与调整，而非盲目追求前进。它教导我们要学会在行动与静止间找到平衡点，做到'宜止则止，宜行则行'，把握恰当的时机。\n\n在个人修养层面，'君子以思不出其位'意味着个体当专注于自身的职责范围，不越界干涉他人，以智慧和节制来保护自己，避免无谓的风险和纷争。在具体情境中，无论是仕途中的隐退，还是财物的管理，都需遵循这一原则，做到谨慎行事，知足常乐。\n\n艮卦的启示适用于多方面，包括事业发展应适时暂停，审视现状；商业经营遇阻时，则宜静待转机，避免盲动合作；求名之路则需坚守道德，不受外界诱惑。在感情世界里，它强调了真诚相待与长久承诺的价值。总体而言，艮卦鼓励在面对困境或选择时，采取保守与思考的姿态，等待最佳时机的到来，以实现长远的和谐与成功。
2,"""既济卦在周易哲学中扮演什么角色？","""既济卦""\nsummary: ""既济卦在周易体系中呈现坎上离下的结构，象征水在火上，寓意着事物达到一个成功的平衡点。卦辞中提到'亨，小利贞，初吉终乱'，揭示了虽然当前情境通达，小有吉利，但若不谨慎维持，初期的吉祥最终可能导致混乱。《象辞》借水火既济之象，教导君子应当在安逸之时预见到潜在的危机，积极做好准备以防患于未然。\n\n《断易天机》将既济视为成就之后的警惕，强调了事物盛极必反的自然规律。邵雍解此卦，认为是成功的象征，告诫得卦者在得意之时更应重视坚忍与自重，避免过度扩展而导致盛运的衰退。傅佩荣先生从时运、财运、家宅、身体等多方面解析既济卦，提醒人们在各方面虽有收获，但仍需自省，防止后患。\n\n卦象背后的哲理是成功并非终点，而是一个新的开始，需要时刻思量可能发生的逆转。既济卦是坎离相叠的产物，反映了水与火的调和，提示了事物发展中的动态平衡与转化，要求我们在胜利时亦能预见并预防未来可能的挑战。此卦紧接小过卦之后，强调了对过往小过的修正能够促成成功，但这种成功需要智慧来维护，避免最终走向混乱。\n\n既济卦的占断中，强调名利兼收是暂时的现象，需居安思危，事业上既要保持警惕，又要善于把握时机继续前行；商业上则要灵活应对市场变化，不断开拓进取；在个人修养上，即使名利双全也不可骄傲自满，应持续努力，保持谦虚；恋爱婚姻中可能遭遇波折，需双方共同努力维系。总之，既济卦不仅是对成功的庆祝，更是对未来挑战的预警，提醒我们时刻保持清醒与进取，实现真正的长远发展。"
3,否卦代表什么？,否卦，作为六十四卦之一，呈现乾上坤下的结构，属于乾宫三世卦，象征闭塞与不顺畅。此卦揭示了阴阳两气不交，天地隔阂，万物受阻的状态，是不吉的预示。否卦的卦象与泰卦完全相反，反映了事物发展到极端则转向另一面，即'否极泰来'的哲理。\n\n在实际应用中，否卦指示如下含义：\n1. **时运**：预示着个人可能遭遇诸多不顺，提醒在此阶段应保持耐心，不宜轻举妄动。\n2. **财运**：建议在市场低谷时购入，未来有望获得收益。\n3. **家宅**：倡导勤俭持家的生活态度，以避免灾祸；同时，也可能指向家庭关系的紧张或疏离。\n4. **健康**：提示气血运行不畅，需注意饮食调节。\n\n根据传统易学分析，否卦象征天气上升、地气下沉，天地之气不交汇导致堵塞，预示着事物的阻滞和发展困难。在这种情况下，面对上下不和及诸多不顺，应采取的策略包括：\n- **事业**：坚守正义，远离小人，团结同志，忍辱负重，等待时机翻转。\n- **经商**：面临强敌和信息闭塞的挑战，要特别小心，保持守势，静待时机。\n- **求名**：条件暂未成熟，需持续努力，借助外界助力，最终可达目的。\n- **婚恋**：可能遭遇波折，但只要双方信念坚定，仍有望收获圆满结局。\n- **决策**：虽个人能力出众，勤奋努力，但人际关系的处理尤为关键。应有克服逆境的勇气和决心，即使道路艰辛，坚持到底终将成就一番事业。
4,"""师卦在周易中怎样表达教育的概念？","""师卦""\nsummary: ""周易中的师卦，呈现坤上坎下之象，作为坎宫归魂卦，寓意兵众与领导之道。此卦警示，唯有以德高望重之人领导军队，方能确保吉祥无咎。卦象中坎水藏于坤地之下，象征兵事隐于民间，倡导君子应仿效大地宽容民众，蓄养大众。\n\n《象辞》解释此卦象征意义，强调在困境与变化中，应秉持公正无私的态度，积极面对并克服所有障碍。得此卦者，预示将面临多重挑战，需团结众人，刻苦耐劳，诚恳包容，以智慧和毅力逐一解决难题，最终消除危机。\n\n此卦从军事拓展到人生各领域，皆提示面对困难和竞争时，需遵循正道，协同合作，戒骄戒躁，灵活应对，同时坚持原则和道德。无论是事业发展、商业经营、求名逐利乃至婚姻情感，均需谨慎行事，克己复礼，不被短期利益诱惑，凭借坚定信念和不懈努力，终将迎来成功与和谐。在决策方面，提醒拥有天赋与灵活性的人士，当以成熟稳重为要，避免不必要的争论，追求中正之道，如此方可成就一番伟业。"


In [6]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path,
                                          trust_remote_code=True,
                                          revision='b098244')



In [7]:
# tokenize_func 函数
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    """
    对单个数据样本进行tokenize处理。

    参数:
    example (dict): 包含'content'和'summary'键的字典，代表训练数据的一个样本。
    tokenizer (transformers.PreTrainedTokenizer): 用于tokenize文本的tokenizer。
    ignore_label_id (int, optional): 在label中用于填充的忽略ID，默认为-100。

    返回:
    dict: 包含'tokenized_input_ids'和'labels'的字典，用于模型训练。
    """

    # 构建问题文本
    question = prompt_text + example['content']
    if example.get('input', None) and example['input'].strip():
        question += f'\n{example["input"]}'

    # 构建答案文本
    answer = example['summary']

    # 对问题和答案文本进行tokenize处理
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)

    # 如果tokenize后的长度超过最大长度限制，则进行截断
    if len(q_ids) > max_input_length - 2:  # 保留空间给gmask和bos标记
        q_ids = q_ids[:max_input_length - 2]
    if len(a_ids) > max_output_length - 1:  # 保留空间给eos标记
        a_ids = a_ids[:max_output_length - 1]

    # 构建模型的输入格式
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2  # 加上gmask和bos标记

    # 构建标签，对于问题部分的输入使用ignore_label_id进行填充
    labels = [ignore_label_id] * question_length + input_ids[question_length:]

    return {'input_ids': input_ids, 'labels': labels}


In [8]:
column_names = dataset['train'].column_names
tokenized_dataset = dataset['train'].map(
    lambda example: tokenize_func(example, tokenizer),
    batched=False, 
    remove_columns=column_names
)

In [9]:
tokenized_dataset = tokenized_dataset.shuffle(seed=seed)
tokenized_dataset = tokenized_dataset.flatten_indices()

In [10]:
import torch
from typing import List, Dict, Optional

# DataCollatorForChatGLM 类
class DataCollatorForChatGLM:
    """
    用于处理批量数据的DataCollator，尤其是在使用 ChatGLM 模型时。

    该类负责将多个数据样本（tokenized input）合并为一个批量，并在必要时进行填充(padding)。

    属性:
    pad_token_id (int): 用于填充(padding)的token ID。
    max_length (int): 单个批量数据的最大长度限制。
    ignore_label_id (int): 在标签中用于填充的ID。
    """

    def __init__(self, pad_token_id: int, max_length: int = 2048, ignore_label_id: int = -100):
        """
        初始化DataCollator。

        参数:
        pad_token_id (int): 用于填充(padding)的token ID。
        max_length (int): 单个批量数据的最大长度限制。
        ignore_label_id (int): 在标签中用于填充的ID，默认为-100。
        """
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length

    def __call__(self, batch_data: List[Dict[str, List]]) -> Dict[str, torch.Tensor]:
        """
        处理批量数据。

        参数:
        batch_data (List[Dict[str, List]]): 包含多个样本的字典列表。

        返回:
        Dict[str, torch.Tensor]: 包含处理后的批量数据的字典。
        """
        # 计算批量中每个样本的长度
        len_list = [len(d['input_ids']) for d in batch_data]
        batch_max_len = max(len_list)  # 找到最长的样本长度

        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch_data), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d  # 计算需要填充的长度
            # 添加填充，并确保数据长度不超过最大长度限制
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = label[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))

        # 将处理后的数据堆叠成一个tensor
        input_ids = torch.stack(input_ids)
        labels = torch.stack(labels)

        return {'input_ids': input_ids, 'labels': labels}


In [11]:
# 准备数据整理器
data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)

## 加载模型

In [12]:
from transformers import AutoModel, BitsAndBytesConfig

_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# QLoRA 量化配置
q_config = BitsAndBytesConfig(load_in_4bit=True,
                              bnb_4bit_quant_type='nf4',
                              bnb_4bit_use_double_quant=True,
                              bnb_4bit_compute_dtype=_compute_dtype_map['bf16'])
# 加载量化后模型
model = AutoModel.from_pretrained(model_name_or_path,
                                  quantization_config=q_config,
                                  device_map='auto',
                                  trust_remote_code=True,
                                  revision='b098244')

model.supports_gradient_checkpointing = True  
model.gradient_checkpointing_enable()
model.enable_input_require_grads()

model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

Loading checkpoint shards: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:07<00:00,  1.10s/it]
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [13]:
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING

kbit_model = prepare_model_for_kbit_training(model)
target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [14]:
lora_config = LoraConfig(
    target_modules=target_modules,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias='none',
    inference_mode=False,
    task_type=TaskType.CAUSAL_LM
)

In [15]:
qlora_model = get_peft_model(kbit_model, lora_config)
qlora_model.print_trainable_parameters()

trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151


### QLoRA 微调模型

In [16]:
import datetime

timestamp = datetime.datetime.now().strftime("%Y%m%d_%H%M%S")

train_epochs = 3
output_dir = f"models/{model_name_or_path}-epoch{train_epochs}-{timestamp}"

In [17]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,                            # 输出目录
    per_device_train_batch_size=8,                     # 每个设备的训练批量大小
    gradient_accumulation_steps=1,                     # 梯度累积步数
    learning_rate=1e-3,                                # 学习率
    num_train_epochs=train_epochs,                     # 训练轮数
    lr_scheduler_type="linear",                        # 学习率调度器类型
    warmup_ratio=0.1,                                  # 预热比例
    logging_steps=1,                                 # 日志记录步数
    save_strategy="steps",                             # 模型保存策略
    save_steps=10,                                    # 模型保存步数
    optim="adamw_torch",                               # 优化器类型
    fp16=True,                                        # 是否使用混合精度训练
)


In [18]:
trainer = Trainer(
        model=qlora_model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

In [19]:
trainer.train()



Step,Training Loss
1,4.6301
2,4.5656
3,4.773
4,4.744
5,4.6362
6,4.8791
7,4.4794
8,4.6354
9,4.3412
10,4.4493




TrainOutput(global_step=465, training_loss=0.5394162360203242, metrics={'train_runtime': 2320.652, 'train_samples_per_second': 1.603, 'train_steps_per_second': 0.2, 'total_flos': 5.17787251776553e+16, 'train_loss': 0.5394162360203242, 'epoch': 3.0})

In [20]:
trainer.model.save_pretrained(output_dir)