# 使用SQL书写规范数据微调 ChatGLM3

In [1]:
import torch

print(torch.__config__.show(), torch.cuda.get_device_properties(0))

PyTorch built with:
  - GCC 9.3
  - C++ Version: 201703
  - Intel(R) oneAPI Math Kernel Library Version 2023.1-Product Build 20230303 for Intel(R) 64 architecture applications
  - Intel(R) MKL-DNN v3.1.1 (Git Hash 64f6bcbcbab628e96f33a62c3e975f8535a7bde4)
  - OpenMP 201511 (a.k.a. OpenMP 4.5)
  - LAPACK is enabled (usually provided by MKL)
  - NNPACK is enabled
  - CPU capability usage: AVX512
  - CUDA Runtime 12.1
  - NVCC architecture flags: -gencode;arch=compute_50,code=sm_50;-gencode;arch=compute_60,code=sm_60;-gencode;arch=compute_61,code=sm_61;-gencode;arch=compute_70,code=sm_70;-gencode;arch=compute_75,code=sm_75;-gencode;arch=compute_80,code=sm_80;-gencode;arch=compute_86,code=sm_86;-gencode;arch=compute_90,code=sm_90
  - CuDNN 8.9.2
  - Magma 2.6.1
  - Build settings: BLAS_INFO=mkl, BUILD_TYPE=Release, CUDA_VERSION=12.1, CUDNN_VERSION=8.9.2, CXX_COMPILER=/opt/rh/devtoolset-9/root/usr/bin/c++, CXX_FLAGS= -D_GLIBCXX_USE_CXX11_ABI=0 -fabi-version=11 -fvisibility-inlines-hidden -D

In [2]:
# 定义全局变量和参数
model_name_or_path = '/llm_model/chatglm3-6b'  # 模型ID或本地路径
# train_data_path = 'data/zhouyi_dataset_handmade.csv'    # 训练数据路径
train_data_path = 'sql_qa.csv'    # 训练数据路径(批量生成数据集）
eval_data_path = None                     # 验证数据路径，如果没有则设置为None
seed = 8                                 # 随机种子
max_input_length = 512                    # 输入的最大长度
max_output_length = 1536                  # 输出的最大长度
lora_rank = 16                             # LoRA秩
lora_alpha = 32                           # LoRA alpha值
lora_dropout = 0.05                       # LoRA Dropout率
prompt_text = ''                          # 所有数据前的指令文本

## 数据处理

In [3]:
from datasets import load_dataset

dataset = load_dataset("csv", data_files=train_data_path)
print(dataset)

  from .autonotebook import tqdm as notebook_tqdm


DatasetDict({
    train: Dataset({
        features: ['content', 'summary'],
        num_rows: 305
    })
})


In [4]:
from datasets import ClassLabel, Sequence
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
        elif isinstance(typ, Sequence) and isinstance(typ.feature, ClassLabel):
            df[column] = df[column].transform(lambda x: [typ.feature.names[i] for i in x])
    display(HTML(df.to_html()))

In [5]:
show_random_elements(dataset["train"], num_examples=15)

Unnamed: 0,content,summary
0,笛卡尔积的避免策略有哪些？,一般情况下，不应该笛卡尔积，如果出现笛卡尔积，请检查相关表是否存在关联条件出现疏漏的情况。
1,为什么我们在SELECT子句中应避免使用*，而要指定列名？,避免select*可能引发的问题：•\t将访问所有的列，增加了数据库服务器和应用服务器之间的通讯流量•\t如果日后出现数据库添加字段，老的应用程序将出错。•\t如果发生删除再添加字段，甚至可能导致数据库和应用程序的列的对应关系的错位。
2,什么是OLTP事务的加锁顺序？,•\t如果多个事务，需要对多张表进行DML操作，建议以相同的顺序对表进行操作，以减少和避免锁等待以及死锁的情况•\t如果是OLTP程序，及时commit，避免锁占用时间过长。•\t锁定记录的3条原则：尽可能晚地获取锁资源尽可能锁定少的记录尽可能快地提交记录•\t在获得锁资源后，提交前尽可能减少和避免过长的查询，保存结果到外部等操作•\t公用的、重要的、稀缺的资源较一般资源而言，更加应该尽可能晚申请尽可能早释放
3,在列上使用函数的原理是什么？,"在列上做进行函数计算，会导致无法使用索引错误写法:whereto_char(insert_time,'yyyymmdd')>='20170508'正确写法:whereinsert_time>=to_date('20170508','yyyymmdd')错误写法:whereto_char(insert_time,'yyyymmdd')='20170508'正确写法:whereinsert_time>=to_date('20170508','yyyymmdd')andinsert_time<to_date('20170509','yyyymmdd');"
4,如何确保未使用第三方工具连接生产数据库？,因为第三方工具存在版本兼容性、安全等方面的不确定风险，特别一些从非官方网站下载的工具或者破解程序，可能带有木马程序和勒索程序，可能对生产数据带来严重的影响。禁止使用第三方工具访问生产数据库。建议通过自带的sqlplus等工具，访问生产数据库。
5,如何避免在连接数据库时遇到的常见问题？,数据库应用用户应该通过合法途径登录到数据库。应用用户应该通过JDBC等正规程序，连接到数据库。数据库监控用户应该只有查询权限，并且严格控制访问对象，按照最小授权方式进行赋权。
6,对于非法使用第三方工具连接生产数据库，我们如何可以避免或防止此类行为发生？,因为第三方工具存在版本兼容性、安全等方面的不确定风险，特别一些从非官方网站下载的工具或者破解程序，可能带有木马程序和勒索程序，可能对生产数据带来严重的影响。禁止使用第三方工具访问生产数据库。建议通过自带的sqlplus等工具，访问生产数据库。
7,如何实现禁止无过滤条件的update语句？,除非业务逻辑是更新表上所有行记录，不得在大表（超过1千万条记录的表，下同）上执行无过滤条件的UPDATE语句。
8,什么是关键资源更新？,对关键资源UPDATE时，如果使用SELECTFORUPDATE来获取行锁，根据业务特点可以加上wait时间限制或SKIPLOCK，并在应用中对相应的出错返回进行捕获，设计合适的重做、告警措施，从而避免因为关键资源无法获取造成UPDATE任务不断堆积，影响不断扩大，尽量降低问题影响范围。执行关键资源UPDATE应设置SQL执行超时时间，避免单个AP、单个连接的问题不能自动解决，持续影响整个系统。
9,应用开发指导思想有哪些关键要素？,建议应用系统设计和开发人员在开发过程中，在开发指导思想上进行如下方面的加强：\t不仅关注SQL语句功能，而且要关注性能。即用量化手段，进行SQL语句质量控制。\t开发队伍能有层次性和专业分工。不仅按照业务模块分工，而且有专门的质量控制，尤其是SQL质量控制人员。\t加强软件开发的规范管理\t注重知识共享和传递，减少低级错误的重复性。\t强调实际测试的重要性。切忌想当然的主观推断，一切以实际应用在尽可能真实数据和环境下的测试数据为准。


In [6]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)

In [7]:
# tokenize_func 函数
def tokenize_func(example, tokenizer, ignore_label_id=-100):
    """
    对单个数据样本进行tokenize处理。
    """

    # 构建问题文本
    question = prompt_text + example['content']
    if example.get('input', None) and example['input'].strip():
        question += f'\n{example["input"]}'

    # 构建答案文本
    answer = example['summary']

    # 对问题和答案文本进行tokenize处理
    q_ids = tokenizer.encode(text=question, add_special_tokens=False)
    a_ids = tokenizer.encode(text=answer, add_special_tokens=False)


    if len(q_ids) > max_input_length - 2: 
        q_ids = q_ids[:max_input_length - 2]
    if len(a_ids) > max_output_length - 1: 
        a_ids = a_ids[:max_output_length - 1]

    # 构建模型的输入格式
    input_ids = tokenizer.build_inputs_with_special_tokens(q_ids, a_ids)
    question_length = len(q_ids) + 2  

    # 构建标签
    labels = [ignore_label_id] * question_length + input_ids[question_length:]

    return {'input_ids': input_ids, 'labels': labels}


In [8]:
column_names = dataset['train'].column_names
tokenized_dataset = dataset['train'].map(
    lambda example: tokenize_func(example, tokenizer),
    batched=False, 
    remove_columns=column_names
)

In [9]:
tokenized_dataset = tokenized_dataset.shuffle(seed=seed)
tokenized_dataset = tokenized_dataset.flatten_indices()

In [10]:
import torch
from typing import List, Dict, Optional

# DataCollatorForChatGLM 类
class DataCollatorForChatGLM:
    """
    用于处理批量数据的DataCollator，尤其是在使用 ChatGLM 模型时。

    该类负责将多个数据样本（tokenized input）合并为一个批量，并在必要时进行填充(padding)。

    """

    def __init__(self, pad_token_id: int, max_length: int = 2048, ignore_label_id: int = -100):
        """
        初始化DataCollator。
        """
        self.pad_token_id = pad_token_id
        self.ignore_label_id = ignore_label_id
        self.max_length = max_length

    def __call__(self, batch_data: List[Dict[str, List]]) -> Dict[str, torch.Tensor]:
        """
        处理批量数据。
        """
        # 计算批量中每个样本的长度
        len_list = [len(d['input_ids']) for d in batch_data]
        batch_max_len = max(len_list)  # 找到最长的样本长度

        input_ids, labels = [], []
        for len_of_d, d in sorted(zip(len_list, batch_data), key=lambda x: -x[0]):
            pad_len = batch_max_len - len_of_d  # 计算需要填充的长度
            ids = d['input_ids'] + [self.pad_token_id] * pad_len
            label = d['labels'] + [self.ignore_label_id] * pad_len
            if batch_max_len > self.max_length:
                ids = ids[:self.max_length]
                label = label[:self.max_length]
            input_ids.append(torch.LongTensor(ids))
            labels.append(torch.LongTensor(label))

        # 将处理后的数据堆叠成一个tensor
        input_ids = torch.stack(input_ids)
        labels = torch.stack(labels)

        return {'input_ids': input_ids, 'labels': labels}


In [11]:
# 准备数据整理器
data_collator = DataCollatorForChatGLM(pad_token_id=tokenizer.pad_token_id)

In [34]:
print(data_collator['labels'])

TypeError: 'DataCollatorForChatGLM' object is not subscriptable

## 加载模型

In [12]:
from transformers import AutoModel, BitsAndBytesConfig

_compute_dtype_map = {
    'fp32': torch.float32,
    'fp16': torch.float16,
    'bf16': torch.bfloat16
}

# QLoRA 量化配置
q_config = BitsAndBytesConfig(load_in_4bit=True,
                              bnb_4bit_quant_type='nf4',
                              bnb_4bit_use_double_quant=True,
                              bnb_4bit_compute_dtype=_compute_dtype_map['bf16'])
# 加载量化后模型
model = AutoModel.from_pretrained(model_name_or_path,
                                  quantization_config=q_config,
                                  device_map='auto',
                                  trust_remote_code=True)

model.supports_gradient_checkpointing = True  
model.gradient_checkpointing_enable()
model.enable_input_require_grads()

model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

Loading checkpoint shards: 100%|██████████| 7/7 [00:41<00:00,  5.92s/it]
You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [13]:
from peft import TaskType, LoraConfig, get_peft_model, prepare_model_for_kbit_training
from peft.utils import TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING

kbit_model = prepare_model_for_kbit_training(model)
target_modules = TRANSFORMERS_MODELS_TO_LORA_TARGET_MODULES_MAPPING['chatglm']

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.


In [14]:
target_modules

['query_key_value']

In [15]:
lora_config = LoraConfig(
    target_modules=target_modules,
    r=lora_rank,
    lora_alpha=lora_alpha,
    lora_dropout=lora_dropout,
    bias='none',
    inference_mode=False,
    task_type=TaskType.CAUSAL_LM
)

In [16]:
qlora_model = get_peft_model(kbit_model, lora_config)
qlora_model.print_trainable_parameters()

trainable params: 3,899,392 || all params: 6,247,483,392 || trainable%: 0.06241540401681151


### QLoRA 微调模型

In [17]:
train_epochs = 10
output_dir = f"/llm_train_model/{model_name_or_path}-epoch{train_epochs}"

In [18]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir=output_dir,                            # 输出目录
    per_device_train_batch_size=8,                     # 每个设备的训练批量大小
    gradient_accumulation_steps=1,                     # 梯度累积步数
    learning_rate=1e-3,                                # 学习率
    num_train_epochs=train_epochs,                     # 训练轮数
    lr_scheduler_type="linear",                        # 学习率调度器类型
    warmup_ratio=0.1,                                  # 预热比例
    logging_steps=1,                                 # 日志记录步数
    save_strategy="steps",                             # 模型保存策略
    save_steps=10,                                    # 模型保存步数
    optim="adamw_torch",                               # 优化器类型
    fp16=True,                                        # 是否使用混合精度训练
)


In [19]:
trainer = Trainer(
        model=qlora_model,
        args=training_args,
        train_dataset=tokenized_dataset,
        data_collator=data_collator
    )

In [20]:
trainer.train()



Step,Training Loss
1,4.7372
2,5.1692
3,4.2996
4,4.3137
5,4.2024
6,4.7812
7,3.8675
8,4.1752
9,4.5572
10,4.5331




RuntimeError: Expected is_sm80 || is_sm90 to be true, but got false.  (Could this error message be improved?  If so, please report an enhancement request to PyTorch.)

In [21]:
trainer.model.save_pretrained(output_dir)