# peft qlora chatglm finetune and inference with custom dataset

```
第四周作业：
1、基于 data 目录下的数据训练 ChatGLM3 模型，使用 inference Notebook 对比微调前后的效果。------> this notebook is for this task.
2、（可选）：将 gen_dataset Notebook 改写为 py 文件。
作业代码：
微调的代码：https://github.com/DjangoPeng/LLM-quickstart/blob/main/chatglm/qlora_chatglm3_timestamp.ipynb
使用微调后模型进行推理的代码：https://github.com/DjangoPeng/LLM-quickstart/blob/main/chatglm/chatglm_inference.ipynb
生成数据集的代码：https://github.com/RorschachWwww/LLM-quickstart/blob/main/chatglm/gen_dataset.ipynb

```

In [1]:
# this cell is to train the model with custom dataset from data/zhouyi_dataset_xxx
from datasets import load_dataset, ClassLabel, Sequence
from transformers import AutoTokenizer, TrainingArguments, Trainer
import torch
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING
from transformers import AutoModel, BitsAndBytesConfig
import random
import pandas as pd
from IPython.display import display, HTML
from typing import List, Dict, Optional

# print ptorch info
print(torch.__config__.show(), torch.cuda.get_device_properties(0))

# ======================
# 1. parameneters setup
# ======================

model_name_or_path = 'THUDM/chatglm3-6b'
#train_data_path = 'data/zhouyi_dataset_20240118_163659.csv'
#eval_data_path = None
seed = 8
max_input_length = 512
max_output_length = 1536
lora_rank = 16
lora_alpha = 32
lora_dropout = 0.05
#resume_from_checkpoint = None
prompt_text = ''
compute_dtype = 'bf16'  # fp32 / fp16 / bf16

# support multiple dataset_names to be tested
dataset_names = [
    "data/zhouyi_dataset_20240118_152413.csv",
    "data/zhouyi_dataset_20240118_163659.csv",
    "data/zhouyi_dataset_handmade.csv",
    #"shibing624/AdvertiseGen",
    #can add more dataset for test
]

# use small data for faster test...
num_train_samples = 1000
# use 0.1 of train data
num_eval_samples = num_train_samples // 10

# training paramenters setup
per_device_train_batch_size = 8
per_device_eval_batch_size = 8
gradient_accumulation_steps = 1
learning_rate = 1e-3
num_train_epochs = 3
#eval_steps = num_train_samples // (5 * per_device_train_batch_size * gradient_accumulation_steps)
#save_steps = num_train_samples // (3 * per_device_train_batch_size * gradient_accumulation_steps)
#logging_steps = num_train_samples // (15 * per_device_train_batch_size * gradient_accumulation_steps)
logging_steps = 1
eval_steps = 1
save_steps = 10

# dtype mapping
_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# the tokenize function
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    question = prompt_text + example['content']
    if example.get('input', None) and example['input'].strip():
        question += f'\n{example["input"]}'
    answer = example['summary']
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)
    if len(q_ids) > max_input_length - 2:
        q_ids = q_ids[:max_input_length - 2]
    if len(a_ids) > max_output_length - 1:
        a_ids = a_ids[:max_output_length - 1]
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2
    labels = [ignore_label_id] * question_length + input_ids[question_length:]
    return {'input_ids': input_ids, 'labels': labels}

# the DataCollator class
class DataCollatorForChatGLM:
    def __init__(self, pad_token_id: int, max_length: int = 2048, ignore_label_id: int = -100):
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length

    def __call__(self, batch: List[Dict[str, List]]) -> Dict[str, torch.Tensor]:
        len_list = [len(d['input_ids']) for d in batch]
        batch_max_len = max(len_list)

        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = label[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))
        return {
            'input_ids': torch.stack(input_ids),
            'labels': torch.stack(labels)
        }

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

# function to free up mem    
def freeup_mem():
    print("\n🔧 Releasing GPU ...")
    import torch, gc
    torch.cuda.empty_cache()
    gc.collect()
    #%reset -f
    
# tain/eval for the datasets
for dataset_name in dataset_names:
    print(f"\n" + "="*80)
    print(f"🔍 Train/Eval with dataset: {dataset_name}")
    print("="*80)

    # call to freeup mem    
    freeup_mem()

    # ======================
    # 1. load dataset
    # ======================
    print(f"loading dataset_name:{dataset_name}")
    dataset = load_dataset("csv", data_files=dataset_name)
    # print out dataset
    print(dataset)

    # show random elements
    show_random_elements(dataset["train"], num_examples=5)

    eval_dataset_loaded = None
    if 'validation' in dataset:
        eval_dataset_loaded = dataset['validation']
    else:
        print("⚠️  The dataset doesn't have 'validation' split， not evaluating.")

    # ======================
    # 2. set the used train/eval samples
    # ======================
    if num_train_samples is not None and num_train_samples > 0 \
    and len(dataset['train']) >= num_train_samples:
        print(f"num_train_samples: {num_train_samples}")
        dataset['train'] = dataset['train'].select(range(num_train_samples))
    if eval_dataset_loaded is not None and num_eval_samples is not None \
and num_eval_samples > 0 and len(eval_dataset_loaded) >= num_eval_samples:
        print(f"num_eval_samples: {num_eval_samples}")
        eval_dataset_loaded = eval_dataset_loaded.select(range(num_eval_samples))

    # ======================
    # 3. Tokenize
    # ======================
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True, revision='b098244')

    column_names = dataset['train'].column_names
    tokenized_train = dataset['train'].map(
        lambda x: tokenize_func(x, tokenizer), 
        batched=False, 
        remove_columns=column_names
    )
    tokenized_train = tokenized_train.shuffle(seed=seed)
    tokenized_train = tokenized_train.flatten_indices()


    tokenized_eval = None
    if eval_dataset_loaded is not None:
        column_names_eval = eval_dataset_loaded.column_names
        tokenized_eval = eval_dataset_loaded.map(
            lambda x: tokenize_func(x, tokenizer), 
            batched=False, 
            remove_columns=column_names_eval
        )

        tokenized_eval = tokenized_eval.shuffle(seed=seed)
        tokenized_eval = tokenized_eval.flatten_indices()
    
    # ======================
    # 4. init the model, LoRA、QLoRA
    # ======================
    model = AutoModel.from_pretrained(
        model_name_or_path,
        quantization_config=BitsAndBytesConfig(
            load_in_4bit=True,
            bnb_4bit_quant_type='nf4',
            bnb_4bit_use_double_quant=True,
            bnb_4bit_compute_dtype=_compute_dtype_map[compute_dtype]
        ),
        device_map='auto',
        trust_remote_code=True,
        revision='b098244'
    )

    model.supports_gradient_checkpointing = True  
    model.gradient_checkpointing_enable()
    model.enable_input_require_grads()

    model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

    kbit_model = prepare_model_for_kbit_training(model)
    target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']
    lora_config = LoraConfig(
        target_modules=target_modules,
        r=lora_rank,
        lora_alpha=lora_alpha,
        lora_dropout=lora_dropout,
        bias='none',
        inference_mode=False,
        task_type=TaskType.CAUSAL_LM
    )
    qlora_model = get_peft_model(kbit_model, lora_config)
    qlora_model.print_trainable_parameters()

    # ======================
    # 5. TrainingArguments & Trainer
    # ======================

    # Split the string by '/' and take the last part (the filename)
    # "data/zhouyi_dataset_20240118_163659.csv"
    print(f"dataset_name={dataset_name}")
    filename = dataset_name.split('/')[-1]  # 'zhouyi_dataset_20240118_163659.csv'

    # Split by '_' and take the parts after 'dataset'
    # parts = filename.split('_')
    # Assuming structure: ... dataset YYYYMMDD HHMMSS .csv
    # date_part = parts[-2]  # '20240118'
    # time_part = parts[-1].split('.')[0]  # '163659'
    # timestamp = f"{date_part}_{time_part}"
    # zhouyi_dataset_20240118_163659
    part1 = filename.split('.')[-2]
    saved_dir = f"models/{model_name_or_path}-epoch{num_train_epochs}-{part1}"
    print(f"training_args num_train_epochs: {num_train_epochs}, \
logging_steps: {logging_steps}, eval_steps: {eval_steps}, save_steps: {save_steps}\
, per_device_train_batch_size: {per_device_train_batch_size}, , gradient_accumulation_steps: {gradient_accumulation_steps}")

    training_args = TrainingArguments(
        output_dir=saved_dir,
        per_device_train_batch_size=per_device_train_batch_size,
        per_device_eval_batch_size=per_device_eval_batch_size,
        gradient_accumulation_steps=gradient_accumulation_steps,
        learning_rate=learning_rate,
        num_train_epochs=num_train_epochs,
        lr_scheduler_type="linear",
        warmup_ratio=0.1,
        evaluation_strategy="steps" if eval_dataset_loaded is not None else "no",
        eval_steps=eval_steps,
        save_strategy="steps",
        save_steps=save_steps,
        logging_steps=logging_steps,
        optim="adamw_torch",
        fp16=True,
    )

    data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)
    
    trainer = Trainer(
        model=qlora_model,
        args=training_args,
        train_dataset=tokenized_train,
        eval_dataset=tokenized_eval,
        data_collator=data_collator,
    )

    # ======================
    # 6. train & auto print the train/validation loss
    # ======================
    print(f"start train...")
    trainer.train()
    print(f"end train.")

    # ======================
    # 7. saved the tuned model
    # ======================
    trainer.model.save_pretrained(saved_dir)
    print(f"✅ fine tuned model saved to path: {saved_dir}")

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2022.2-Product Build 20220804 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.3.6 (Git Hash 86e6af5974177e513fd3fee58425e1063e7f1361)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX512
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -DUSE_PTHREADPOOL -DNDEBUG -DUSE_KINET

Unnamed: 0,content,summary
0,需卦在周易中是什么象征？,"需卦""由上卦坎（水）和下卦乾（天）组成，上卦为云，下卦为天。上卦坎为险，下卦乾为刚，象征着云浮聚于天上，待时降雨之象。预示抓到俘虏，大吉大利，有利于涉水渡河。君子观此卦象，可以宴饮安乐，待时而动。\n\n这个卦象表示踌躇期待，虽然刚强，但前面有险阻，应当等待，涉大川则利。时机尚未成熟，需要耐心等待，不宜冒进。谋事应审时度势，耐心等待，切勿冒险，欲速不达。自信、坚守中正，可化险为夷。情况有利时，仍得居安思危。\n\n需卦的核心哲学是谋事应审时度势，耐心等待，切勿冒险，欲速不达。自信、坚守中正，可以化险为夷。需要控制饮食，保持健康的生活方式。在感情和婚姻方面，需要慎重、诚实、和柔克刚。\n\n在行动之初，需要极大的耐心，观时待变，创造条件和机会。等待时机成熟后，大器必定晚成。在事业发展中，遇到困难和险阻时，必须十分谨慎，坦然对待小人的中伤。为人处事应谦和、坦率，多有他人相助，促使事业成功。当时机成熟后，则必然一帆风顺。""\n\nsource:""《易经》"
1,请解释一下比卦。,"比卦""是周易卦象中的一枚卦，由下卦坤（地）上卦坎（水）组成，预示着吉利的变化。在卜筮时，再次占卜依然吉利，预示长期稳定无灾祸。然而，当不愿臣服的邦国未能前来朝贺时，将会带来危险。\n\n在《象辞》中，比卦被描述为地上有水的情景，反映了相亲相依相互依赖的意义。先王观此卦象，取法于水附大地，地纳江河之象，因此此卦被解释为建立万国，亲近诸侯。\n\n北宋易学家邵雍解释认为，比卦代表水在地面上流动，人际关系亲密和睦，各种事情无忧无虑。\n\n台湾国学大儒傅佩荣解释认为，比卦的时运是众人相贺，财运是善人相扶，家宅方面是长久美满，身体方面则需早求治心腹水肿。\n\n传统解卦认为，比卦预示着相亲相辅，宽宏无私，精诚团结的道理。在运势上，表示平顺，能得贵人提拔，事业宜速战速决，不宜过度迟疑。对于事业、经商、求名、婚恋等方面都有积极的影响，提醒人们待人宽厚、正直，主动热情，并谨慎选择朋友。\n\n总之，""比卦"
2,"""讼卦在周易中怎样表达教育的概念？",在周易中，讼卦是一个极具深意的卦象。上卦为乾（天），下卦为坎（水），两者相背而行，代表天与水违行的状况，象征着事理乖舛和争讼之象。讼卦中有利可图，但必须警惕戒惧，事情中间吉利，但最终会有凶险。在卜卦时，利于会见贵族王公，但不利于涉水渡河。\n\n讼卦的核心哲学是：开始可能顺利，有所收获，但随后会遇到困难和挫折。因此，务必慎之又慎，不得固执已见，避免介入诉讼纠纷的争执之中。退让而不固执，求得化解，安于正理，可免除意外之灾。陷入争讼，即使获胜，最后还得失去，得不偿失。\n\n讼卦的经商指引是：和气生财，吃亏是福，切勿追求不义之财。在商业谈判中要坚持公正、公平、互利的原则，尽量避免发生冲突。\n\n对于决策，讼卦提醒我们，争强好胜，不安于现状，为改变命运和超越他人而奋斗。但缺乏持之以恒的毅力，容易得罪他人，带来诉讼之灾。因此，接受教训，引以为戒，可功成名就。\n\n讼卦所蕴含的智慧是：在面对争端和异见时，要善于退让和求和，坚守正道，谨慎处事，以避免不必要的冲突和损失。
3,"周易的""乾卦讲述了什么？","""乾卦""\nsummary: ""《易经》中的乾卦是六十四卦中的首卦，象征天，由六个阳爻组成，代表着刚健强劲的特性。其卦辞为“元、亨、利、贞”，预示着吉祥如意，同时也教导人们遵守天道的德行。乾卦所蕴含的核心哲学是：天道刚健，运行不已，君子观此卦象，从而以天为法，自强不息。""\n\ncomment: ""在传统解卦中，乾卦预示着大吉大利，事业如日中天，但也提醒要警惕盛极必衰的道理。经商方面顺利发展，但要冷静分析形势，坚持商业道德。对于婚恋，尽管阳盛阴衰，但刚柔可相济，最终形成美满结果。总体而言，乾卦代表着充满活力和力量的时机，但也需要保持谦逊谨慎的态度，以应对可能出现的困难。"
4,"""讼卦涉及哪些哲学思想？",在周易中，讼卦是一个极具深意的卦象。上卦为乾（天），下卦为坎（水），两者相背而行，代表天与水违行的状况，象征着事理乖舛和争讼之象。讼卦中有利可图，但必须警惕戒惧，事情中间吉利，但最终会有凶险。在卜卦时，利于会见贵族王公，但不利于涉水渡河。\n\n讼卦的核心哲学是：开始可能顺利，有所收获，但随后会遇到困难和挫折。因此，务必慎之又慎，不得固执已见，避免介入诉讼纠纷的争执之中。退让而不固执，求得化解，安于正理，可免除意外之灾。陷入争讼，即使获胜，最后还得失去，得不偿失。\n\n讼卦的经商指引是：和气生财，吃亏是福，切勿追求不义之财。在商业谈判中要坚持公正、公平、互利的原则，尽量避免发生冲突。\n\n对于决策，讼卦提醒我们，争强好胜，不安于现状，为改变命运和超越他人而奋斗。但缺乏持之以恒的毅力，容易得罪他人，带来诉讼之灾。因此，接受教训，引以为戒，可功成名就。\n\n讼卦所蕴含的智慧是：在面对争端和异见时，要善于退让和求和，坚守正道，谨慎处事，以避免不必要的冲突和损失。


⚠️  The dataset doesn't have 'validation' split， not evaluating.




Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151
dataset_name=data/zhouyi_dataset_20240118_152413.csv
training_args num_train_epochs: 3, logging_steps: 1, eval_steps: 1, save_steps: 10, per_device_train_batch_size: 8, , gradient_accumulation_steps: 1
start train...




Step,Training Loss
1,3.5941
2,4.0491
3,3.0897
4,3.3751
5,3.5392
6,2.6016
7,2.6541
8,3.1634
9,2.2747
10,2.2919


Checkpoint destination directory models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413/checkpoint-10 already exists and is non-empty.Saving will proceed but saved results may be invalid.
Checkpoint destination directory models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413/checkpoint-20 already exists and is non-empty.Saving will proceed but saved results may be invalid.
Checkpoint destination directory models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413/checkpoint-30 already exists and is non-empty.Saving will proceed but saved results may be invalid.
Checkpoint destination directory models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413/checkpoint-40 already exists and is non-empty.Saving will proceed but saved results may be invalid.
Checkpoint destination directory models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413/checkpoint-50 already exists and is non-empty.Saving will proceed but saved results may be invalid.
Checkpoint destinati

end train.
✅ fine tuned model saved to path: models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413

🔍 Train/Eval with dataset: data/zhouyi_dataset_20240118_163659.csv

🔧 Releasing GPU ...
loading dataset_name:data/zhouyi_dataset_20240118_163659.csv
DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 160
    })
})


Unnamed: 0,content,summary
0,屯卦在周易中怎样表达教育的概念？,在周易中，屯卦是一个大吉大利的卦象，预示着吉祥和大利。然而，不利于出门，但有利于建国封侯。屯卦由上卦坎（水）下卦震（雷）组成，坎为云，震为雷。预示着云行雷动的卦象。君子观此卦象，取法于云雷，用云的恩泽，雷的威严来治理国事。屯卦象征着开始困难，需要毅力和果敢才能获得吉利。身处困境需要多加辛苦努力，排除困难，方可通达，有初难后解之象。因此，对于事业创业而言，应当小心翼翼，勇往直前，灵活机动，可望获得大的成功。但也需注意到仍有困难存在，务必有他人相助，平时应多施恩惠。对于经商，起初多有挫折，必须坚定信念，积极进取，行动果断，若仍无法摆脱困境，则应退守保全，等待机会，再展宏图。对于婚恋，好事多磨，忠贞纯洁，大胆追求，能够成功。屯卦的核心哲学在于，初难后解，需要毅力和坚忍不拔的毅力和锲而不舍的奋斗精神，但也需得到贤德之人的帮助才能摆脱困境。
1,周易的蒙卦讲述了什么？,蒙卦是由艮卦（山）下，坎卦（水）上组成的异卦相叠。它代表着通泰，启蒙的意义。在这里，卜者并非是在向幼稚愚昧的人取求，而是幼稚愚昧的人在向卜者求教。第一次卜筮就得到了神灵的指示。然而，如果轻慢不敬地再三卜筮的话，神灵便不会再示警。总的来说，这是一个吉利的卜问。\n\n蒙卦的核心在于山下有泉的形象，寓意着启蒙。君子观此卦象，应当以果敢坚毅的行动来培养自身的品德，像山泉一样果断行动。然而，此卦乃是离宫四世卦，它代表着回还往复、疑惑不前、多忧愁过失，因而属于凶卦。\n\n蒙卦在个人发展、事业经商、求名婚恋等方面的解释不一。在事业方面，表示事业初建，具有启蒙和通达之象，需要勇敢坚毅的行动；而在经商方面，需要务必小心谨慎，树立高尚的商业道德，不可急功近利；求名方面，需要接受良好的基础教育，陶冶情操。整体而言，此卦提示须忍耐待机而动，听取别人意见，方能通达运势。
2,周易中讼卦的解释是什么？,在周易中，讼卦是一个充满警示的卦象。它由上卦乾（天）和下卦坎（水）组成，代表着天与水背道而驰，形成争讼的局面。虽然事情开始时有利可图，但必须警惕戒惧，因为中间虽然吉利，但最终会带来凶险。对于涉及大川，涉水渡河的行动不利。因此，君子观此卦象，应当慎之又慎，杜绝争讼之事，并在谋事之初谨慎行事。讼卦的核心哲学是要避免争讼，退而让人，求得化解，安于正理，方可避免意外之灾。在事业上，务必避免介入诉讼纠纷的争执之中，与其这样，不如退而让人。即使最终获胜，也难免得失不均。经商方面，要坚持公正、公平、互利的原则，避免冲突，这样会有好结果。而对于求名、婚恋和决策，也都需要慎重行事，避免盲目追求，退让让人，可助事业、婚姻和决策的发展。
3,请解释一下讼卦。,在周易中，讼卦是一个充满警示的卦象。它由上卦乾（天）和下卦坎（水）组成，代表着天与水背道而驰，形成争讼的局面。虽然事情开始时有利可图，但必须警惕戒惧，因为中间虽然吉利，但最终会带来凶险。对于涉及大川，涉水渡河的行动不利。因此，君子观此卦象，应当慎之又慎，杜绝争讼之事，并在谋事之初谨慎行事。讼卦的核心哲学是要避免争讼，退而让人，求得化解，安于正理，方可避免意外之灾。在事业上，务必避免介入诉讼纠纷的争执之中，与其这样，不如退而让人。即使最终获胜，也难免得失不均。经商方面，要坚持公正、公平、互利的原则，避免冲突，这样会有好结果。而对于求名、婚恋和决策，也都需要慎重行事，避免盲目追求，退让让人，可助事业、婚姻和决策的发展。
4,在周易中，需卦象征着什么？,需卦是一个占卜卦象，在周易卦象中，它由下卦乾和上卦坎组成。坎象征着云，乾象征着天，云聚于天，形成了等待时机的卦象。这是一个大吉大利的卜问，特别适合涉水渡河。根据《象辞》，君子观此卦象，可以宴饮安乐，待时而动。\n\n需卦的核心哲学是：稳扎稳打，不可冒失行动，观时待变，耐心等待。在事业上，需要审时度势，守中正，不可急进，自信充满，可化险为夷。在经商中，必须充满耐心，创造条件和机会，行事光明磊落，等到时机成熟后必然一帆风顺。在感情方面，亦需慎重，培养感情，以诚实、热情相待，时机成熟后可以有良好的结果。\n\n需卦紧随坤宫游魂卦，预示着踌躇和期待。得此卦者，需要时机尚未成熟，需要耐心等待，急进反会见凶险。


⚠️  The dataset doesn't have 'validation' split， not evaluating.




Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151
dataset_name=data/zhouyi_dataset_20240118_163659.csv
training_args num_train_epochs: 3, logging_steps: 1, eval_steps: 1, save_steps: 10, per_device_train_batch_size: 8, , gradient_accumulation_steps: 1
start train...




Step,Training Loss
1,4.6725
2,4.701
3,4.2729
4,4.3955
5,3.951
6,3.6859
7,3.5222
8,3.1386
9,3.022
10,2.764




end train.
✅ fine tuned model saved to path: models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_163659

🔍 Train/Eval with dataset: data/zhouyi_dataset_handmade.csv

🔧 Releasing GPU ...
loading dataset_name:data/zhouyi_dataset_handmade.csv
DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 8
    })
})


Unnamed: 0,content,summary
0,坤卦,坤卦原文\n坤。元，亨，利牝马之贞。君子有攸往，先迷后得主。利西南得朋，东北丧朋。安贞，吉。\n象曰：地势坤，君子以厚德载物。\n白话文解释\n坤卦：大吉大利。占问雌马得到吉兆。君子前去旅行，先迷失路途，后来找到主人，吉利。西南行获得财物，东北行丧失财物。占问定居，得到吉兆。\n《象辞》说：大地的形势平铺舒展，顺承天道。君子观此卦象，取法于地，以深厚的德行来承担重大的责任。\n《断易天机》解\n坤卦坤上坤下，为坤宫本位卦。坤卦为柔顺，为地气舒展之象，具有纯阴之性，先失道而后得主，宜往西南，西南可得到朋友。\n北宋易学家邵雍解\n柔顺和静，厚载之功；静守安顺，妄动招损。\n得此卦者，宜顺从运势，以静制动，不宜独立谋事，顺从他人，一起合作，可成大事。\n台湾国学大儒傅佩荣解\n时运：为人厚道，声名远传。\n财运：满载而归。\n家宅：家庭安稳；婚嫁大吉。\n身体：柔软运动。\n传统解卦\n这个卦是同卦（下坤上坤）相叠，阴性。象征地（与乾卦相反），顺从天，承载万物，伸展无穷无尽。坤卦以雌马为象征，表明地道生育抚养万物，而又依天顺时，性情温顺。它以“先迷后得”证明“坤”顺从“乾”，依随“乾”，才能把握正确方向，遵循正道，获取吉利。
1,乾卦,乾卦原文\n乾。元，亨，利，贞。\n象曰：天行健，君子以自强不息。\n\n白话文解释\n乾卦：大吉大利，吉利的贞卜。\n《象辞》说：天道刚健，运行不已。君子观此卦象，从而以天为法，自强不息。\n\n《断易天机》解\n乾象征天，六阳爻构成乾卦，为《易经》六十四卦之首。纯阳刚建，其性刚强，其行劲健，大通而至正，兆示大通而有利，但须行正道，方可永远亨通。\n\n北宋易学家邵雍解\n刚健旺盛，发育之功；完事顺利，谨防太强。\n得此卦者，天行刚健，自强不息，名利双收之象，宜把握机会，争取成果。女人得此卦则有过于刚直之嫌。\n\n传统解卦\n这个卦是同卦（下乾上乾）相叠。象征天，喻龙（德才的君子），又象征纯粹的阳和健，表明兴盛强健。乾卦是根据万物变通的道理，以“元、亨、利、贞”为卦辞，表示吉祥如意，教导人遵守天道的德行。
2,水天需卦,需卦原文：需。有孚，光亨，贞吉。利涉大川。象曰：云上于天，需；君子以饮食宴乐。白话文解释：需卦代表俘虏，大吉大利，适宜涉水过河。《象辞》说：上卦为坎，象征云；下卦为乾，象征天。云聚天上，待降雨，君子观此卦，宜宴饮安乐，待时而动。《断易天机》解：需卦坎上乾下，象征踌躇期待，刚强面对险阻，宜等待，涉大川利。北宋易学家邵雍解：遇阻不进，大器晚成，需耐心等待。台湾国学大儒傅佩荣解：时运需耐心等待，财运资本未集，家宅平安，身体调饮食以健康。传统解卦：异卦（下乾上坎），刚逢险，宜稳健，观时待变，必成功。
3,山水蒙卦,蒙卦原文：蒙。亨。匪我求童蒙，童蒙求我。初筮告，再三渎，渎则不告。利贞。象曰：山下出泉，蒙。君子以果行育德。白话文解释：蒙卦通泰。不是我求幼稚之人，而是幼稚之人求我。初次占卜被告知，轻慢占卜则不再告知。占卜吉利。《象辞》说：卦象为山下有泉，取法于山泉果敢坚毅，培养品德。《断易天机》解：蒙卦艮上坎下，象征蒙昧，主疑惑不前，多忧愁，凶兆。北宋易学家邵雍解：智慧未开，犹豫不决，需顺师友教导启智。台湾国学大儒傅佩荣解：时运蓄德出世，财运矿业果决吉，家宅君子居吉，婚姻之始，身体驱邪保安。传统解卦：异卦（下坎上艮），山下有险仍前进，为蒙昧，把握时机行动恰时，启蒙通达之象。大象：蒙为昏无所见，宜启蒙。
4,水雷屯卦,屯卦原文：屯。元，亨，利，贞。勿用，有攸往，利建侯。象曰：云，雷，屯；君子以经纶。白话文解释：屯卦大吉大利，吉利的占卜。不利于出门。有利于建国封侯。《象辞》说：屯的上卦为坎，坎为云，下卦为震，震为雷。云行于上，雷动于下，是屯卦的卦象。君子观此卦象，取法于云雷，用云的恩泽和雷的威严治理国事。《断易天机》解：屯卦坎上震下，为坎宫二世卦。屯卦显示困难，动而逢险，需刚毅果敢方为吉。北宋易学家邵雍解：万物始生，开始困难；先劳后逸，苦尽甘来。得此卦者，身处困境，宜守不宜进，需辛劳克难，初难后解。台湾国学大儒傅佩荣解：时运宜守，财运创业艰难，家宅初婚不和，身体需保元气。传统解卦：异卦（下震上坎），震为雷动，坎为雨险。雷雨交加，环境险恶。“屯”指万物始生，艰难险阻中顺时应运，终将欣荣。


⚠️  The dataset doesn't have 'validation' split， not evaluating.




Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151
dataset_name=data/zhouyi_dataset_handmade.csv
training_args num_train_epochs: 3, logging_steps: 1, eval_steps: 1, save_steps: 10, per_device_train_batch_size: 8, , gradient_accumulation_steps: 1
start train...




Step,Training Loss
1,4.173
2,4.173
3,3.7847


end train.
✅ fine tuned model saved to path: models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_handmade


In [4]:
# this cell is to evaluate the modles
# function to free up mem and remove all variables
def freeup_mem_deep():
    print("\n🔧 Releasing GPU ...")
    import torch, gc
    torch.cuda.empty_cache()
    gc.collect()
    %reset -f
# call to freeup mem    
freeup_mem_deep()

import torch
from transformers import AutoModel, AutoTokenizer, BitsAndBytesConfig
from peft import PeftModel, PeftConfig
import time

# ======================
# 1. parameters setup
# ======================

# the base model
model_name_or_path = 'THUDM/chatglm3-6b'

# support multiple fine tuned models
#"data/zhouyi_dataset_20240118_152413.csv",
#"data/zhouyi_dataset_20240118_163659.csv",
#"data/zhouyi_dataset_handmade_20250811_163200.csv",
peft_model_paths = [
    f"models/{model_name_or_path}-epoch3-zhouyi_dataset_20240118_152413",
    f"models/{model_name_or_path}-epoch3-zhouyi_dataset_20240118_163659",
    f"models/{model_name_or_path}-epoch3-zhouyi_dataset_handmade",
    #can add more models for test
]

_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# init q_config（with 4bit）
q_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=_compute_dtype_map['bf16']
)

# ======================
# 2. load the base model
# ======================

print(f"🔍 Loading the base model: {model_name_or_path} (not fine tuned)...")
base_model = AutoModel.from_pretrained(
    model_name_or_path,
    quantization_config=q_config,
    trust_remote_code=True,
    device_map='auto',
    revision='b098244'
)
base_model.requires_grad_(False)

# load tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True, revision='b098244')

# ======================
# 3. function to evaluate and compare the models
# ======================
def compare_chatglm_results(query, base_model, qlora_model, training_tag):
    base_response, base_history = base_model.chat(tokenizer, query)

    inputs = tokenizer(query, return_tensors="pt").to(0)
    ft_out = qlora_model.generate(**inputs, max_new_tokens=512)
    ft_response = tokenizer.decode(ft_out[0], skip_special_tokens=True)
    print("\n" + "="*80)
    print(f"📊 Comparing result for query: {query}")
    print("="*80)
    #print(f" 📝 Question：{query} \
    print(f"📝Base model response:\n{base_response} \
    \n👉Fine tuned model ({training_tag}) response: \n{ft_response}")
    #print("="*60)
    return base_response, ft_response

# ======================
# 4. Evaluate and compare base model and peft model
# ======================
for peft_model_dir in peft_model_paths:
    print("\n" + "="*80)
    print(f"🔍 Loading PEFT model from: {peft_model_dir}")
    print("="*80)
    
    try:
        # Load the PEFT adapter with the base_model
        config = PeftConfig.from_pretrained(peft_model_dir)
        qlora_model = PeftModel.from_pretrained(base_model, peft_model_dir)
        base_response, ft_response = compare_chatglm_results("解释下乾卦是什么？", base_model, qlora_model, peft_model_dir)
        base_response, ft_response = compare_chatglm_results("周易中的讼卦是什么", base_model, qlora_model, peft_model_dir)
        base_response, ft_response = compare_chatglm_results("师卦是什么？", base_model, qlora_model, peft_model_dir)
        base_response, ft_response = compare_chatglm_results("地水师卦是什么？", base_model, qlora_model, peft_model_dir)
        base_response, ft_response = compare_chatglm_results("天水讼卦", base_model, qlora_model, peft_model_dir)
    except Exception as e:
        print(f"❌ Failed to load the model: {peft_model_dir} with error: {e}")
    


🔧 Releasing GPU ...
🔍 Loading the base model: THUDM/chatglm3-6b (not fine tuned)...


Loading checkpoint shards:   0%|          | 0/7 [00:00<?, ?it/s]


🔍 Loading PEFT model from: models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413

📊 Comparing result for query: 解释下乾卦是什么？
📝Base model response:
乾卦是周易中的一卦，代表天，象征着刚健强劲的特性。它由两个阳爻夹一个阴爻构成，象征着阳刚之气的聚集。乾卦象征着刚健、强盛、独立自主的特性，代表着锐利、直率、果敢的性格。在《易经》中，乾卦预示着健旺、强盛、独立自主的情况，并带来吉兆。

乾卦的卦辞描述了阳爻在前的特性，强调刚健、锐利和果敢，并预示着可能带来成功。同时，需要注意准备好了燃料（前进）才能前进，而阴爻提示需要谨慎行事，以免带来灾难。在决策时，应当积极刚健，而谨慎柔弱，以事业成功为吉，否事业失败为凶。

在古代，人们认为乾卦代表天，象征刚健、强盛、独立自主的特性。在决策时，应该积极刚健，而谨慎柔弱，以事业成功为吉，否事业失败为凶。同时，经商求谋须谨慎选择方向，同时注意合作，以利益最大化为目标。经商求谋方面，须得遇贤人，根据时势变化，抓住机遇。在事业中，需要积极刚健，同时谨慎柔弱，以事业成功为吉，否事业失败为凶。

乾卦的核心哲学是：刚健强劲，阳刚之气的聚集，代表着锐利、直率、果敢的性格。在决策时，应该积极刚健，而谨慎柔弱，以事业成功为吉，否事业失败为凶。     
👉Fine tuned model (models/THUDM/chatglm3-6b-epoch3-zhouyi_dataset_20240118_152413) response: 
[gMASK]sop 解释下乾卦是什么？ 乾卦是周易中的一卦，代表天，象征刚健强劲的特性。它由两个乾卦叠加而成，代表着刚健强劲的特性。在卜问中，乾卦预示着吉祥如意，同时也提醒面临着修养和成长的过程。在决策中，意味着刚健强劲的特性会带来吉祥如意，但需要警惕可能会带来困难。

乾卦的特性包括：

1. 吉祥：乾卦预示着事情顺利，带来吉祥如意。
2. 刚健：乾卦代表刚健强劲的特性，表示事情的发展需要刚健强劲的毅力。
3. 突出：乾卦强调刚健强劲的特性，具有突出和领导能力。
4. 养：乾卦意味着养成了刚健强劲的特性，能够养成了坚定的品德。

 summary:

乾卦 