In [40]:
%%capture
!pip install unsloth
!pip install datasets
!pip install load_dataset

In [None]:
# 导入Unsloth高效训练库（比HuggingFace Trainer快5倍以上）
from unsloth import FastLanguageModel  # 支持QLoRA/DPO等先进训练技术

# === 硬件优化配置 ===
max_seq_length = 2048  # 序列长度（交通规则条款或案例分析可能包含长上下文）
dtype = None  # 自动选择最优数据类型（推荐None让系统自动判断）
load_in_4bit = True  # 4位量化加载（减少显存占用，适合交通规则知识微调）

# === 交通规则专用模型加载 ===
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",  # 通用基座模型，可适用于交通规则语料
    max_seq_length = max_seq_length,  # 支持处理长篇交通法规或案例文书
    dtype = dtype,  # 让系统选择最适合硬件的精度配置
    load_in_4bit = load_in_4bit,  # 在主流GPU上可节省显存，支持更大batch或上下文
)


In [None]:
prompt_style = """以下是一项任务的描述，附带提供背景信息的输入内容。
请撰写能恰当完成该请求的响应。在回答前，请仔细思考问题并建立分步推理链条，以确保回答的逻辑性和准确性。

### Instruction:
您是一位资深的交通法规专家、博士，在道路交通法律法规、交通事故责任认定、驾驶行为规范和交通安全教育方面拥有深厚的专业知识。请回答以下交通规则相关问题。

### Question:
{}

### Response:
<think>{}"""

In [None]:
# 定义用户问题（交通规则咨询示例）
question = "在没有交通标志的交叉路口，谁先行？"

# 启用Unsloth优化推理模式（速度提升2倍）
# 注意：必须在generate()之前调用，且会修改模型结构
FastLanguageModel.for_inference(model)

# 使用预定义的提示模板格式化输入
# prompt_style 是交通规则专用模板，第二个空字符串用于回答部分占位
inputs = tokenizer(
    [prompt_style.format(question, "")],  # 格式化输入（将问题嵌入提示模板）
    return_tensors="pt"  # 返回PyTorch张量格式
).to("cuda")  # 将输入数据移动到GPU进行加速

# 执行模型生成（推理）
outputs = model.generate(
    input_ids=inputs.input_ids,             # 输入token IDs
    attention_mask=inputs.attention_mask,   # 注意力掩码（忽略padding部分）
    max_new_tokens=1200,                    # 最大生成token数（控制输出长度）
    use_cache=True,                         # 使用KV缓存加速生成
)

# 解码生成的token为文本
response = tokenizer.batch_decode(outputs)  # 批量解码（尽管这里只生成了一个）

# 提取模型回答部分（基于模板中的“### Response:”分隔符）
print(response[0].split("### Response:")[1])  # 分割并输出回答内容


In [None]:
train_prompt_style = """以下是一项任务的描述，附带提供背景信息的输入内容。
请撰写能恰当完成该请求的响应。在回答前，请仔细思考问题并建立分步推理链条，以确保回答的逻辑性和准确性。

### Instruction:
您是一位资深的交通法规专家、博士，在道路交通法律法规、交通事故责任认定、驾驶行为规范和交通安全教育方面拥有深厚的专业知识。请回答以下交通规则相关问题。

### Question:
{}

### Response:
<think>
{}
</think>
{}"""


In [None]:
# 获取分词器的结束标记（End-of-Sequence Token）
# 在文本生成任务中，EOS标记用于表示文本序列的结束
EOS_TOKEN = tokenizer.eos_token # Must add EOS_TOKEN
def formatting_prompts_func(examples):
  """
  格式化训练数据的函数，将原始数据转换为模型训练所需的文本格式
  参数:
  examples (dict): 包含批量样本的字典，键为字段名，值为字段值列表
  返回:
  dict: 包含格式化后文本的字典，键为"text"，值为文本列表
  处理流程:
  1. 从输入数据中提取问题、推理链和回答
  2. 按照预定模板格式拼接文本
  3. 添加EOS标记表示序列结束
  """
  # 从输入数据中提取各字段（假设examples是批数据，每个值是列表）
  inputs = examples["Question"] # 获取问题列表
  cots = examples["Complex_CoT"] # 获取推理链列表
  outputs = examples["Answer"] # 获取回答列表
  texts = [] # 初始化存储格式化文本的列表
  # 遍历每个样本的问题、推理链和回答
  for input, cot, output in zip(inputs,cots,outputs):
    text = train_prompt_style.format(input,cot,output) + EOS_TOKEN
    # 将格式化后的文本添加到列表中
    texts.append(text)
  # 返回包含格式化文本的字典
  return {
  "text": texts, # 键名"text"需与后续处理流程匹配
  }

In [None]:
# 从Hugging Face数据集库加载数据集
from datasets import load_dataset
# 参数说明：
dataset = load_dataset('json', data_files='/content/traffic_law_new.json', split ="train",trust_remote_code=True)
# 对数据集应用格式化函数
# 参数说明：
# - formatting_prompts_func：之前定义的格式化函数
# - batched=True：以批处理方式运行（提高处理效率）
# 作用：将原始数据转换为模型训练所需的文本格式
dataset = dataset.map(formatting_prompts_func, batched = True,) # 批量处理提高性能
dataset["text"][0]

In [None]:
# 使用FastLanguageModel工具将基础模型转换为PEFT(Parameter-Efficient Fine-Tuning)模型
# 主要采用LoRA(Low-Rank Adaptation)技术进行高效微调
model = FastLanguageModel.get_peft_model(
  model, # 基础语言模型（如Llama、Mistral等）
  # LoRA核心参数
  r=16, # LoRA矩阵的秩（rank），决定可训练参数数量
  target_modules=[
  "q_proj", # 查询(Query)投影层
  "k_proj", # 键(Key)投影层
  "v_proj", # 值(Value)投影层
  "o_proj", # 输出(Output)投影层
  "gate_proj", # 门控(Gate)投影层（FFN第一部分）
  "up_proj", # 上投影层（FFN第二部分）
  "down_proj", # 下投影层（FFN第三部分）
  ],
  # 注意：不同模型架构需要调整target_modules
  lora_alpha=16, # LoRA缩放因子（控制新参数对原始参数的权重）
  # 通常设置为与r相同或2倍的值
  lora_dropout=0, # LoRA层的dropout率（0表示不使用）
  # 典型值：0-0.2，设为0可获得更稳定训练
  bias="none", # 偏置项处理方式：
  # "none"：不训练任何偏置参数（最常用）
  # "all"：训练所有偏置
  # "lora_only"：仅训练LoRA部分的偏置
  # 梯度检查点配置（内存优化技术）
  use_gradient_checkpointing="unsloth", # 使用Unsloth优化的检查点技术
  # 特别适合长上下文训练（7K+ tokens）
  # 可用True启用普通检查点
  random_state=3407, # 随机种子（确保LoRA初始化可复现）
  # 3407是常用"魔法种子"
  use_rslora=False, # 是否使用rsLoRA（Rescaled LoRA）变体
  # False表示标准LoRA
  loftq_config=None, # LoFTQ量化配置（None表示不应用）
  # 可用于量化感知训练
)

In [None]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    args=TrainingArguments(
        per_device_train_batch_size=8,     # 可试6，如果OOM就回退4
        gradient_accumulation_steps=2,     # 减少梯度累积次数
        warmup_steps=20,
        max_steps=600,                    # 你可根据时间或效果自行扩展
        learning_rate=2e-4,
        optim="adamw_8bit",
        weight_decay=0.01,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=20,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
        save_strategy="steps",            # 新增：每隔一定步数保存
        save_steps=200,
        logging_dir="./logs",             # 如果你想用 TensorBoard
        report_to="none",                 # 你也可以改为 "tensorboard"
    ),
)


In [None]:
trainer_stats = trainer.train()

In [None]:
question = "不系安全带开车会怎么样？"
FastLanguageModel.for_inference(model) # Unsloth has 2x faster inference!
inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")
outputs = model.generate(
  input_ids=inputs.input_ids,
  attention_mask=inputs.attention_mask,
  max_new_tokens=1200,
  use_cache=True,
)
response = tokenizer.batch_decode(outputs)
print(response[0].split("### Response:")[1])

In [None]:
# 定义本地保存路径（将模型和分词器保存到此目录）
new_model_local = "DeepSeek-R1-traffic-COT"
# 1. 标准保存方法（适用于PEFT模型）
# 保存适配器权重和配置文件（不包括基础模型）
# 适合继续微调或共享适配器
model.save_pretrained(new_model_local) # 保存LoRA适配器权重
tokenizer.save_pretrained(new_model_local) # 保存分词器文件
# 2. 合并保存方法（Unsloth特有功能）
# 将LoRA适配器与基础模型合并后保存完整模型
model.save_pretrained_merged(
  new_model_local, # 保存路径
  tokenizer, # 关联的分词器
  save_method="merged_16bit", # 保存格式选项：
)

In [None]:
from huggingface_hub import HfApi, login
login(token="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")
api = HfApi()
api.create_repo(repo_id="Lemonsion/DeepSeek-R1-traffic-COT", private=False)
new_model_online = "Lemonsion/DeepSeek-R1-traffic-COT" # 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
model.push_to_hub(new_model_online)
tokenizer.push_to_hub(new_model_online)
model.push_to_hub_merged(new_model_online, tokenizer, save_method = "merged_16bit")
model.push_to_hub_gguf("Lemonsion/DeepSeek-R1-traffic-COT", tokenizer, quantization_method = "q8_0")