In [1]:
import json

import datasets
from peft import get_peft_model
from peft import LoraConfig
from transformers import AutoModelForCausalLM
from transformers import AutoTokenizer
from transformers import DataCollatorForSeq2Seq
from transformers import Trainer
from transformers import TrainingArguments

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 训练集共1949972条，只取前1000条
with open("medical_zh/train_zh_0.jsonl", "r") as f:
    lst = [json.loads(next(f)) for _ in range(1000)]
lst[0]

{'instruction': '血热的临床表现是什么?',
 'input': '',
 'output': '初发或复发病不久。皮疹发展迅速，呈点滴状、钱币状或混合状。常见丘疹、斑丘疹、大小不等的斑片，潮红、鲜红或深红色。散布于体表各处或几处，以躯干、四肢多见，亦可先从头面开始，逐渐发展至全身。新皮疹不断出现，表面覆有银白色鳞屑，干燥易脱落，剥刮后有点状出血。可有同形反应;伴瘙痒、心烦口渴。大便秘结、小便短黄，舌质红赤，苔薄黄或根部黄厚，脉弦滑或滑数。血热炽盛病机，主要表现在如下四个面：一、热象：血热多属阳盛则热之实性、热性病机和病证、并表现出热象。二、血行加速：血得热则行，可使血流加速，且使脉道扩张，络脉充血，故可见面红目赤，舌色深红（即舌绛）等症。三、动血：在血行加速与脉道扩张的基础上，血分有热，可灼伤脉络，引起出血，称为“热迫血妄行”，或称动血。四、扰乱心神：血热炽盛则扰动心神，心主血脉而藏神，血脉与心相通，故血热则使心神不安，而见心烦，或躁扰发狂等症。'}

In [3]:
with open("train_lora.json", "w") as f:
    json.dump(lst, f, ensure_ascii=False)  # 有汉字，加ensure_ascii=False

In [4]:
# 加载Dataset。原文经过DataFrame中转，比较麻烦
ds = datasets.load_dataset("json", data_files="train_lora.json", split="train")  # 不加split会返回DatasetDict
ds[0]

Generating train split: 1000 examples [00:00, 47730.89 examples/s]


{'input': '',
 'instruction': '血热的临床表现是什么?',
 'output': '初发或复发病不久。皮疹发展迅速，呈点滴状、钱币状或混合状。常见丘疹、斑丘疹、大小不等的斑片，潮红、鲜红或深红色。散布于体表各处或几处，以躯干、四肢多见，亦可先从头面开始，逐渐发展至全身。新皮疹不断出现，表面覆有银白色鳞屑，干燥易脱落，剥刮后有点状出血。可有同形反应;伴瘙痒、心烦口渴。大便秘结、小便短黄，舌质红赤，苔薄黄或根部黄厚，脉弦滑或滑数。血热炽盛病机，主要表现在如下四个面：一、热象：血热多属阳盛则热之实性、热性病机和病证、并表现出热象。二、血行加速：血得热则行，可使血流加速，且使脉道扩张，络脉充血，故可见面红目赤，舌色深红（即舌绛）等症。三、动血：在血行加速与脉道扩张的基础上，血分有热，可灼伤脉络，引起出血，称为“热迫血妄行”，或称动血。四、扰乱心神：血热炽盛则扰动心神，心主血脉而藏神，血脉与心相通，故血热则使心神不安，而见心烦，或躁扰发狂等症。'}

In [5]:
CKPT_PATH = "Qwen-1_8B-Chat"
tokenizer = AutoTokenizer.from_pretrained(CKPT_PATH, trust_remote_code=True)
tokenizer.pad_token_id = tokenizer.eod_id
tokenizer

QWenTokenizer(name_or_path='Qwen-1_8B-Chat', vocab_size=151851, model_max_length=8192, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'pad_token': '<|endoftext|>'}, clean_up_tokenization_spaces=True),  added_tokens_decoder={
	
}

In [6]:
def process_func(example):
    MAX_LENGTH = 384

    instruction = tokenizer(
        "<|im_start|>system\n" +
        "你是一个医学助手，需要回答用户关于医学的问题：<|im_end|>\n" +
        "<|im_start|>user\n" +
        example["instruction"] + example["input"] + "<|im_end|>\n"
    )
    response = tokenizer(
        "<|im_start|>assistant\n" +
        example["output"] + "<|im_end|>\n"
    )
    
    input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.eod_id]
    attention_mask = instruction["attention_mask"] + response["attention_mask"] + [1]
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.eod_id]

    # 截断
    if len(input_ids) > MAX_LENGTH:
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }

In [7]:
# 类似DataFrame的用法，并行处理数据
train_dataset = ds.map(process_func, remove_columns=ds.column_names)  # 去掉原始的列
train_dataset

Map: 100%|██████████| 1000/1000 [00:00<00:00, 2042.84 examples/s]


Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 1000
})

In [8]:
tokenizer.decode(train_dataset[1]['input_ids'])

'<|im_start|>system\n你是一个医学助手，需要回答用户关于医学的问题：<|im_end|>\n<|im_start|>user\n帕金森叠加综合征的辅助治疗有些什么？<|im_end|>\n<|im_start|>assistant\n综合治疗；康复训练；生活护理指导；低频重复经颅磁刺激治疗<|im_end|>\n<|endoftext|>'

In [9]:
tokenizer.decode(list(filter(lambda x: x != -100, train_dataset[1]["labels"])))

'<|im_start|>assistant\n综合治疗；康复训练；生活护理指导；低频重复经颅磁刺激治疗<|im_end|>\n<|endoftext|>'

In [10]:
model = AutoModelForCausalLM.from_pretrained(CKPT_PATH, trust_remote_code=True, load_in_8bit=True)
model

The model is automatically converting to bf16 for faster inference. If you want to disable the automatic precision, please manually add bf16/fp16/fp32=True to "AutoModelForCausalLM.from_pretrained".
Try importing flash-attention for faster inference...
Loading checkpoint shards: 100%|██████████| 2/2 [00:03<00:00,  1.82s/it]


QWenLMHeadModel(
  (transformer): QWenModel(
    (wte): Embedding(151936, 2048)
    (drop): Dropout(p=0.0, inplace=False)
    (rotary_emb): RotaryEmbedding()
    (h): ModuleList(
      (0-23): 24 x QWenBlock(
        (ln_1): RMSNorm()
        (attn): QWenAttention(
          (c_attn): Linear8bitLt(in_features=2048, out_features=6144, bias=True)
          (c_proj): Linear8bitLt(in_features=2048, out_features=2048, bias=False)
          (attn_dropout): Dropout(p=0.0, inplace=False)
        )
        (ln_2): RMSNorm()
        (mlp): QWenMLP(
          (w1): Linear8bitLt(in_features=2048, out_features=5504, bias=False)
          (w2): Linear8bitLt(in_features=2048, out_features=5504, bias=False)
          (c_proj): Linear8bitLt(in_features=5504, out_features=2048, bias=False)
        )
      )
    )
    (ln_f): RMSNorm()
  )
  (lm_head): Linear(in_features=2048, out_features=151936, bias=False)
)

In [11]:
model.dtype

torch.float16

In [12]:
# 使用gradient_checkpointing+peft需要加这句补丁
model.enable_input_require_grads()

In [13]:
config = LoraConfig(
    # task_type=TaskType.CAUSAL_LM, # 可以不写
    target_modules=["c_attn", "c_proj", "w1", "w2"],  # 必须指定，Qwen官方的微调脚本也是写这几个
    # 原文说这三个参数比较通用，先留着
    r=8,
    lora_alpha=32,
    lora_dropout=0.1
)
config

LoraConfig(peft_type=<PeftType.LORA: 'LORA'>, auto_mapping=None, base_model_name_or_path=None, revision=None, task_type=None, inference_mode=False, r=8, target_modules={'c_proj', 'c_attn', 'w2', 'w1'}, lora_alpha=32, lora_dropout=0.1, fan_in_fan_out=False, bias='none', use_rslora=False, modules_to_save=None, init_lora_weights=True, layers_to_transform=None, layers_pattern=None, rank_pattern={}, alpha_pattern={}, megatron_config=None, megatron_core='megatron.core', loftq_config={}, use_dora=False, layer_replication=None)

In [14]:
model = get_peft_model(model, config)
model

PeftModel(
  (base_model): LoraModel(
    (model): QWenLMHeadModel(
      (transformer): QWenModel(
        (wte): Embedding(151936, 2048)
        (drop): Dropout(p=0.0, inplace=False)
        (rotary_emb): RotaryEmbedding()
        (h): ModuleList(
          (0-23): 24 x QWenBlock(
            (ln_1): RMSNorm()
            (attn): QWenAttention(
              (c_attn): lora.Linear8bitLt(
                (base_layer): Linear8bitLt(in_features=2048, out_features=6144, bias=True)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=2048, out_features=8, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=8, out_features=6144, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
              )


In [15]:
model.print_trainable_parameters()

trainable params: 6,709,248 || all params: 1,843,537,920 || trainable%: 0.3639


In [16]:
# 定义训练配置
args = TrainingArguments(
    output_dir=f"./output/{CKPT_PATH}_new",
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,  # 累计16个样本才迭代一次，1个epoch有1000/16=62步
    logging_steps=10,
    num_train_epochs=12,
    gradient_checkpointing=True,  # 开启激活重计算，时间换空间
    save_steps=186,  # 也就是正好3个epoch保存一次
    learning_rate=1e-4
)

In [17]:
# 定义trainer
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    # 用pad填充batch的三个字段
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer)  # 原文设置padding=True，是默认值，省略掉
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False)
Detected kernel version 4.19.24, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.


In [18]:
# 训练前看看效果
response, history = model.eval().chat(tokenizer, "帕金森叠加综合征的辅助治疗有些什么?", history=None,
                                      system="你是一个医学助手，需要回答用户关于医学的问题：")
response, history

('帕金森叠加综合征是一种常见的神经系统退行性疾病，辅助治疗可以对改善症状、延缓病情进展起到积极作用。以下是一些常用的辅助治疗方法：\n\n1. 药物治疗：常用的药物包括抗帕金森病药、β阻滞剂、镇静催眠药等，可以帮助控制症状和改善生活质量。\n\n2. 物理疗法：物理疗法有助于增强肌肉力量、提高协调性，同时还可以缓解关节僵硬和疼痛。\n\n3. 心理辅导：心理辅导有助于提高患者的生活质量，帮助他们应对生活中的困难和挑战。\n\n4. 定期检查：定期进行身体检查，监测病情变化，并根据医生建议调整治疗方案。\n\n5. 社区支持：与家人和朋友保持紧密联系，参与社区活动，建立良好的社会支持系统。\n\n需要注意的是，帕金森叠加综合征是一种慢性疾病，无法完全治愈，但通过综合治疗可以有效减轻症状并延缓病情进展。此外，患者应保持积极的心态，遵守医生的治疗计划，并定期复查，以确保病情得到有效的管理。',
 [('帕金森叠加综合征的辅助治疗有些什么?',
   '帕金森叠加综合征是一种常见的神经系统退行性疾病，辅助治疗可以对改善症状、延缓病情进展起到积极作用。以下是一些常用的辅助治疗方法：\n\n1. 药物治疗：常用的药物包括抗帕金森病药、β阻滞剂、镇静催眠药等，可以帮助控制症状和改善生活质量。\n\n2. 物理疗法：物理疗法有助于增强肌肉力量、提高协调性，同时还可以缓解关节僵硬和疼痛。\n\n3. 心理辅导：心理辅导有助于提高患者的生活质量，帮助他们应对生活中的困难和挑战。\n\n4. 定期检查：定期进行身体检查，监测病情变化，并根据医生建议调整治疗方案。\n\n5. 社区支持：与家人和朋友保持紧密联系，参与社区活动，建立良好的社会支持系统。\n\n需要注意的是，帕金森叠加综合征是一种慢性疾病，无法完全治愈，但通过综合治疗可以有效减轻症状并延缓病情进展。此外，患者应保持积极的心态，遵守医生的治疗计划，并定期复查，以确保病情得到有效的管理。')])

In [19]:
trainer.train()

You are using an old version of the checkpointing format that is deprecated (We will also silently ignore `gradient_checkpointing_kwargs` in case you passed it).Please update to the new format on your modeling file. To use the new format, you need to completely remove the definition of the method `_set_gradient_checkpointing` in your model.
`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`...


Step,Training Loss
10,2.5031
20,2.0703
30,2.1567
40,2.0066
50,2.0447
60,2.0344
70,1.9135
80,1.9243
90,1.8909
100,1.9184




TrainOutput(global_step=744, training_loss=1.3516380351076844, metrics={'train_runtime': 1978.4477, 'train_samples_per_second': 6.065, 'train_steps_per_second': 0.376, 'total_flos': 3.0783890072223744e+16, 'train_loss': 1.3516380351076844, 'epoch': 11.9})

In [20]:
# 训练后看看效果（用回训练集测试效果当然好）
response, history = model.eval().chat(tokenizer, "帕金森叠加综合征的辅助治疗有些什么?", history=None,
                                      system="你是一个医学助手，需要回答用户关于医学的问题：")
response, history

('综合护理干预；康复训练；支持性心理疗法；临床护理路径(LSMS)程序',
 [('帕金森叠加综合征的辅助治疗有些什么?', '综合护理干预；康复训练；支持性心理疗法；临床护理路径(LSMS)程序')])