<a href="https://colab.research.google.com/github/yanjun-sui/test-config/blob/master/deepseek_lora_ipynb2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

使用lora方式对DeepSeek-R1-Distill-Llama-8B进行模型微调，并保存模型文件到HuggingFace

### 1.依赖安装

In [1]:
# 捕获该单元格的标准输出（stdout）和标准错误输出（stderr）, 这些输出将不在界面中打印
# %%capture
# Normally using pip install unsloth is enough

# Temporarily as of Jan 31st 2025, Colab has some issues with Pytorch
# Using pip install unsloth will take 3 minutes, whilst the below takes <1 minute:
# !将后面的代码当做系统命令执行
# !pip install --no-deps bitsandbytes accelerate xformers==0.0.29 peft trl triton -v
# !pip install --no-deps cut_cross_entropy unsloth_zoo
# !pip install sentencepiece protobuf datasets huggingface_hub hf_transfer
# !pip install --no-deps unsloth

Using pip 24.1.2 from /usr/local/lib/python3.11/dist-packages/pip (python 3.11)


In [1]:
!pip install -U unsloth trl transformers

Collecting trl
  Using cached trl-0.16.1-py3-none-any.whl.metadata (12 kB)


### 2.模型加载

In [2]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

# deepseek-ai/DeepSeek-R1-Distill-Llama-8B   deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
Unsloth: Failed to patch Gemma3ForConditionalGeneration.
🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.3.19: Fast Llama patching. Transformers: 4.51.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.5.1+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.1.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


### 3.模型问答测试

In [2]:
prompt_style="""<optimized_prompt>
<task>从文本中提取访问控制策略的json列表</task>

<context>
请按照下面的步骤分析输入中的文本，提取访问控制策略的json列表。并严格按照下面output_format标签中的精确格式输出。
步骤1. 要素提取。
步骤2. 权限判定与判定条件提取。
步骤3. 再次检查与最终JSON策略列表生成。
输入：{}
</context>

<instructions>
注意事项：
  - 生成的最终json列表必须与目标访问控制策略json列表完全一致
  - 概念的定义与限制
	操作行为（action）：系统允许的行为类型，如数据管理、数据使用、权限控制、页面操作等
	主体（subject）：系统中进行操作的实体，如平台本身、用户、角色、管理人员等
	资源（resource）：被操作的对象，各种数据、信息、页面等
	目的（purpose）：操作目的
	权限判定（decision）：操作是否被系统允许
	条件（condition）：权限判定中直接决定操作是否允许的逻辑规则，当条件满足时操作权限立即被确定（允许/拒绝），无需后续判定，且与操作执行时的数据格式等业务规范无关。


1. 要素提取：
	- 提取所有操作行为
		识别所有动词
		判断各动词是否满足操作行为的定义与限定
	- 提取主体与资源
		结合上下文语义、文本的主谓宾结构分析各操作行为的主体与资源
		判定资源是否否满足定义与限定
	- 提取目的
		提取文本中有关于操作目的的直接描述

2. 权限判定与判定条件提取
	- 权限判定
		根据上下文判断各个操作行为是否被系统允许，允许为allow，否则为拒绝deny
	- 判定条件提取
		依据上面权限判定时的逻辑规则，抽取判定条件的直观描述

3. 再次检查与最终JSON策略列表生成
	- 验证提取结果：
		检查各要素的完整性、是否符合其定义与限定范围
		确认要素间的逻辑一致性
	- 生成JSON策略列表：
		每个操作行为（action）生成一个权限控制的json对象
</instructions>

<output_format>
<output>
    <think>
    1. **要素提取**
        1.1 提取所有操作行为

        1.2 提取主体与资源

        1.3 提取目的

        解释说明：
    2. **权限判定与判定条件提取**
        2.1 权限判定

        2.2 判定条件提取

        解释说明：
    3. **再次检查与最终JSON策略列表生成**
        验证提取结果
    <think/>
    <result>
        JSON策略列表
    <result/>
<output/>
注意：
	1、需返回包含完整思考过程，思考过程及json列表。
	2、使用有序列表展示分析步骤，并在每一步后加简要文字说明
	3、最终策略列表用代码块包裹为JSON数组
	4、每个策略对象字段顺序为：decision > subject > action > resource > condition > purpose
	5、空值字段保持"none"占位符
</output_format>
</optimized_prompt>
{}"""



# 用于将模型切换到推理模式，以启用原生的 2 倍加速推理功能。
FastLanguageModel.for_inference(model)
inputs = tokenizer([prompt_style.format(question, "")], return_tensors="pt").to("cuda")

outputs = model.generate(
    input_ids=inputs.input_ids,
    attention_mask=inputs.attention_mask,
    max_new_tokens=1200,
    use_cache=True,
)
response = tokenizer.batch_decode(outputs)
print(response[0].split("###答复：")[1])

NameError: name 'question' is not defined

In [None]:
print(response[0].split("###答复：")[1])


<think>
好的，我现在需要判断董晓红先生今年是否需要进行体检，并确定具体的体检项目。首先，根据提供的规则，我会逐一分析他的情况。

董晓红今年64岁，属于60岁以上的年龄段，根据规则，每年进行全面体检，包括癌症筛查、心脏检查、骨密度等项目。此外，他有糖尿病和高血压的历史，这两个疾病都需要定期监测相关指标。糖尿病方面，需要每年做血糖、尿常规和视网膜检查；高血压则需要每年做血压、心电图、肾功能检查。他的家庭病史中没有提到癌症或心脏病，但他属于高危职业，作为男性，可能需要职业体检。此外，他的生活方式是久坐少动，需要进行骨密度和骨折风险评估。

考虑到他上一轮体检是在2025年1月5日，距离现在还有两个月，超过一年的话需要进行例行体检。综合以上因素，董晓红先生需要进行全面体检，包括血糖、尿常规、视网膜检查、血压、心电图、肾功能、肝肾功能、骨密度、骨折风险评估、职业病检查、心理健康评估等项目。
</think>

董晓红先生今年需要进行体检。根据他的年龄段和健康状况，需要进行全面体检，包括以下项目：

1. **糖尿病相关检查**：血糖、尿常规、视网膜检查。
2. **高血压相关检查**：血压、心电图、肾功能检查。
3. **全面体检项目**：身高、体重、血常规、肝肾功能、骨密度、骨折风险评估。
4. **职业体检**：职业病检查。
5. **心理健康评估**：心理健康筛查。

建议尽快进行体检，以确保健康状况。<｜end▁of▁sentence｜>


### 4.模型lora配置

In [3]:
model = FastLanguageModel.get_peft_model(  #函数用于为模型添加 LoRA（低秩适应）适配器，以提高微调效率
    model,
    r = 16, # LoRA 的秩，决定了适配器的参数量。较大的 r 值（如 16、32、64）可以捕捉更多的模型特征，但会增加计算和内存开销。选择适当的 r 值需要在性能和资源消耗之间权衡。
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",], # 定要添加 LoRA 适配器的模型模块列表。通过仅在关键模块（如 q_proj、k_proj 等）添加适配器，可以减少训练参数量，提高训练效率。
    lora_alpha = 16, #LoRA 的缩放因子，用于调整适配器输出的影响力。适当的 lora_alpha 值有助于平衡适配器和原始模型的贡献，影响模型的学习能力和泛化性能。
    lora_dropout = 0, # LoRA 适配器的 dropout 概率，用于防止过拟合。设置为 0 表示不使用 dropout。适当的 dropout 可以提高模型的泛化能力，但过高的 dropout 可能导致训练困难。
    bias = "none",    # 指定 LoRA 适配器中是否包含偏置项。设置为 "none" 表示不使用偏置项。去除偏置项可以减少参数量，但可能影响模型的表达能力。若想使用填all
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # 启用梯度检查点，以减少显存使用。设置为 "unsloth" 表示使用 Unsloth 的梯度检查点实现，进一步降低显存消耗，适用于长序列训练。
    random_state = 3407, #设置随机种子，确保实验的可重复性。
    use_rslora = False,  # 启用 Rank Stabilized LoRA（RSLoRA），一种改进的 LoRA 方法，旨在提高训练稳定性和性能。
    loftq_config = None, # 配置 LoftQ（低秩量化），用于进一步减少模型大小和计算量。设置为 None 表示不使用 LoftQ。
)

Unsloth 2025.3.19 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.



### 5.训练数据集准备


In [4]:
from google.colab import files
uploaded = files.upload()

Saving acre2.csv to acre2 (1).csv


In [4]:
train_prompt_style = """<optimized_prompt>
<task>从文本中提取访问控制策略的json列表</task>

<context>
请按照下面的步骤分析输入中的文本，提取访问控制策略的json列表。并严格按照下面output_format标签中的精确格式输出。
步骤1. 要素提取。
步骤2. 权限判定与判定条件提取。
步骤3. 再次检查与最终JSON策略列表生成。
输入：{}
</context>

<instructions>
注意事项：
  - 生成的最终json列表必须与目标访问控制策略json列表完全一致
  - 概念的定义与限制
	操作行为（action）：系统允许的行为类型，如数据管理、数据使用、权限控制、页面操作等
	主体（subject）：系统中进行操作的实体，如平台本身、用户、角色、管理人员等
	资源（resource）：被操作的对象，各种数据、信息、页面等
	目的（purpose）：操作目的
	权限判定（decision）：操作是否被系统允许
	条件（condition）：权限判定中直接决定操作是否允许的逻辑规则，当条件满足时操作权限立即被确定（允许/拒绝），无需后续判定，且与操作执行时的数据格式等业务规范无关。


1. 要素提取：
	- 提取所有操作行为
		识别所有动词
		判断各动词是否满足操作行为的定义与限定
	- 提取主体与资源
		结合上下文语义、文本的主谓宾结构分析各操作行为的主体与资源
		判定资源是否否满足定义与限定
	- 提取目的
		提取文本中有关于操作目的的直接描述

2. 权限判定与判定条件提取
	- 权限判定
		根据上下文判断各个操作行为是否被系统允许，允许为allow，否则为拒绝deny
	- 判定条件提取
		依据上面权限判定时的逻辑规则，抽取判定条件的直观描述

3. 再次检查与最终JSON策略列表生成
	- 验证提取结果：
		检查各要素的完整性、是否符合其定义与限定范围
		确认要素间的逻辑一致性
	- 生成JSON策略列表：
		每个操作行为（action）生成一个权限控制的json对象
</instructions>

<output_format>
<output>
    <think>
    1. **要素提取**
        1.1 提取所有操作行为

        1.2 提取主体与资源

        1.3 提取目的

        解释说明：
    2. **权限判定与判定条件提取**
        2.1 权限判定

        2.2 判定条件提取

        解释说明：
    3. **再次检查与最终JSON策略列表生成**
        验证提取结果
    <think/>
    <result>
        JSON策略列表
    <result/>
<output/>
注意：
	1、需返回包含完整思考过程，思考过程及json列表。
	2、使用有序列表展示分析步骤，并在每一步后加简要文字说明
	3、最终策略列表用代码块包裹为JSON数组
	4、每个策略对象字段顺序为：decision > subject > action > resource > condition > purpose
	5、空值字段保持"none"占位符
</output_format>
</optimized_prompt>
{}
"""

EOS_TOKEN = tokenizer.eos_token# Must add EOS_TOKEN


def formatting_prompts_func(examples):
    inputs = examples["input"]

    outputs = examples["output2"]
    texts = []
    for input,  output in zip(inputs,  outputs):
        text = train_prompt_style.format(input,  output) + EOS_TOKEN
        texts.append(text)
    return {"text": texts,}
pass

from datasets import load_dataset


dataset = load_dataset('csv', data_files='acre2.csv')
dataset = dataset['train']
dataset = dataset.map(formatting_prompts_func, batched=True)
print(dataset['text'][0])



<optimized_prompt>
<task>从文本中提取访问控制策略的json列表</task>

<context> 
请按照下面的步骤分析输入中的文本，提取访问控制策略的json列表。并严格按照下面output_format标签中的精确格式输出。
步骤1. 要素提取。 
步骤2. 权限判定与判定条件提取。 
步骤3. 再次检查与最终JSON策略列表生成。
输入：The user inputs the MID of a patient who is deceased and is prompted to try again.
</context>

<instructions> 
注意事项：
  - 生成的最终json列表必须与目标访问控制策略json列表完全一致
  - 概念的定义与限制
	操作行为（action）：系统允许的行为类型，如数据管理、数据使用、权限控制、页面操作等
	主体（subject）：系统中进行操作的实体，如平台本身、用户、角色、管理人员等
	资源（resource）：被操作的对象，各种数据、信息、页面等
	目的（purpose）：操作目的
	权限判定（decision）：操作是否被系统允许
	条件（condition）：权限判定中直接决定操作是否允许的逻辑规则，当条件满足时操作权限立即被确定（允许/拒绝），无需后续判定，且与操作执行时的数据格式等业务规范无关。


1. 要素提取：
	- 提取所有操作行为
		识别所有动词
		判断各动词是否满足操作行为的定义与限定
	- 提取主体与资源
		结合上下文语义、文本的主谓宾结构分析各操作行为的主体与资源
		判定资源是否否满足定义与限定
	- 提取目的
		提取文本中有关于操作目的的直接描述
		
2. 权限判定与判定条件提取
	- 权限判定
		根据上下文判断各个操作行为是否被系统允许，允许为allow，否则为拒绝deny
	- 判定条件提取
		依据上面权限判定时的逻辑规则，抽取判定条件的直观描述
	
3. 再次检查与最终JSON策略列表生成
	- 验证提取结果：
		检查各要素的完整性、是否符合其定义与限定范围
		确认要素间的逻辑一致性
	- 生成JSON策略列表：
		每个操作行为（action）生成一个权限控制的json对象 
</instructions>

<output

Let's see how the `Phi-3` format works by printing the 5th element

### 6.模型训练


In [5]:
from trl import SFTTrainer,SFTConfig

from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer( # 用于有监督微调（Supervised Fine-Tuning）的训练器
    model = model,
    tokenizer = tokenizer, # 用于处理文本数据的分词器。
    train_dataset = dataset, # 用于训练的数据集。
    # max_seq_length = max_seq_length, # 输入序列的最大长度。
    # dataset_num_proc = 2, # 用于加载数据集的进程数。
    # packing = False, # 是否启用打包功能，以提高短序列的训练速度。
    args = SFTConfig( # 训练参数
        dataset_text_field = "text", # 数据集中包含文本数据的字段名称。
        per_device_train_batch_size = 1, # 每个设备的训练批次大小。
        gradient_accumulation_steps = 1, # 梯度累积的步数。 适当设置 per_device_train_batch_size 和 gradient_accumulation_steps 可以平衡内存使用和训练速度
        warmup_steps = 5, # 预热阶段的步数。
        max_steps = 60, # 训练的最大步数。
        learning_rate = 2e-4, # 学习率。过高的学习率可能导致训练过程不稳定，模型在最优解附近震荡，甚至无法收敛。过低的学习率则可能导致训练过程缓慢，收敛速度降低，甚至陷入局部最优解。
        fp16 = not is_bfloat16_supported(), # 是否启用半精度浮点数训练。
        bf16 = is_bfloat16_supported(), # 是否启用 bfloat16 精度训练。
        logging_steps = 1, # 记录日志的步数间隔。
        optim = "adamw_8bit", # 优化器类型。
        weight_decay = 0.01, # 权重衰减系数。较大的学习率可能需要较小的权重衰减，以避免训练过程中的不稳定性。 反之，较小的学习率可能需要适当的权重衰减，以提高模型的泛化能力。
        lr_scheduler_type = "linear", # 学习率调度器类型。StepLR（阶梯衰减）、MultiStepLR（多步衰减）、ExponentialLR（指数衰减）、CosineAnnealingLR（余弦退火）、CyclicLR（循环学习率）
        seed = 3407, # 随机种子。
        output_dir = "outputs", # 输出目录，用于保存模型和日志。
        report_to = "none", # 报告工具，设置为 "none" 表示不使用任何报告工具。

        # load_best_model_at_end=True, # 训练结束时加载表现最好的模型
        # evaluation_strategy="steps",  # 每隔eval_steps阶段之后都进行评估
        # eval_steps=500,  # 每500步进行一次评估
        # save_strategy="steps",  # 每隔save_steps阶段之后都保存模型
        # save_steps=500,  # 每500步保存一次模型
        # save_total_limit=1,  # 最多保存1个模型检查点
        # metric_for_best_model="accuracy",  # 用于评估最佳模型的指标
        # overwrite_output_dir=True,  # 如果该参数为True，在输出目录已经存在的情况下将删除该目录并重新创建

    ),
)

trainer_stats = trainer.train()

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/12 [00:00<?, ? examples/s]

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 12 | Num Epochs = 5 | Total steps = 60
O^O/ \_/ \    Batch size per device = 1 | Gradient accumulation steps = 1
\        /    Data Parallel GPUs = 1 | Total batch size (1 x 1 x 1) = 1
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Step,Training Loss
1,2.0044
2,1.8852
3,1.841
4,1.8614
5,1.8085
6,1.4716
7,1.5218
8,1.2544
9,1.2723
10,1.0951


Unsloth: Will smartly offload gradients to save VRAM!


在深度学习模型的训练过程中，**学习率调度器（Learning Rate Scheduler）**用于动态调整学习率，以优化模型的收敛速度和性能。 常见的学习率调度器类型包括：

    StepLR（阶梯衰减）：
        描述： 每隔固定的训练步数（或epoch），将学习率乘以一个衰减因子。
        适用场景： 适用于训练过程中需要在特定阶段降低学习率的情况。
        示例： 每10个epoch将学习率降低为原来的0.1倍。

    MultiStepLR（多步衰减）：
        描述： 在指定的训练步数（或epoch）位置，按照预设的衰减因子降低学习率。
        适用场景： 适用于训练过程中需要在多个阶段降低学习率的情况。
        示例： 在epoch 30和80时，将学习率分别降低为原来的0.1倍。

    ExponentialLR（指数衰减）：
        描述： 每个训练步数（或epoch）后，学习率按照指数规律衰减。
        适用场景： 适用于需要持续且平滑降低学习率的情况。
        示例： 每个epoch将学习率乘以一个小于1的因子，如0.99。

    CosineAnnealingLR（余弦退火）：
        描述： 学习率按照余弦函数的规律变化，通常在训练过程中先降低后升高。
        适用场景： 适用于需要动态调整学习率，以避免局部最优，尤其适合复杂模型。
        示例： 在训练过程中，学习率从初始值逐渐降低到最小值，然后再逐渐升高。

    CyclicLR（循环学习率）：
        描述： 学习率在预设的范围内周期性地变化，通常在训练过程中先增加后减少。
        适用场景： 适用于需要在训练过程中探索不同学习率的情况。
        示例： 学习率从初始值逐渐增加到最大值，然后再逐渐减少到最小值，形成一个周期。

选择合适的学习率调度器类型取决于具体的训练任务和模型特性。 通常需要通过实验和交叉验证来确定最佳的调度策略。


### 7.模型保存

In [None]:
model.save_pretrained("lora_model")  # Local saving
tokenizer.save_pretrained("lora_model")
token = "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"
# model.push_to_hub("suiyanjun/lora_model", token = token) # Online saving
# tokenizer.push_to_hub("suiyanjun/lora_model", token = token) # Online saving

('lora_model/tokenizer_config.json',
 'lora_model/special_tokens_map.json',
 'lora_model/tokenizer.model',
 'lora_model/added_tokens.json',
 'lora_model/tokenizer.json')

### 8.训练后模型测试

In [7]:
question = "Also, she cannot view the private notes of doctors and clearly she cannot sign the legal agreement on behalf of a resident."



inputs = tokenizer([train_prompt_style.format(question, "")], return_tensors="pt").to("cuda")

outputs = model.generate(
  input_ids=inputs.input_ids,
  attention_mask=inputs.attention_mask,
  max_new_tokens=1024,
  use_cache=True,
)
response = tokenizer.batch_decode(outputs)

print(response[0])

<｜begin▁of▁sentence｜><optimized_prompt>
<task>从文本中提取访问控制策略的json列表</task>

<context> 
请按照下面的步骤分析输入中的文本，提取访问控制策略的json列表。并严格按照下面output_format标签中的精确格式输出。
步骤1. 要素提取。 
步骤2. 权限判定与判定条件提取。 
步骤3. 再次检查与最终JSON策略列表生成。
输入：Also, she cannot view the private notes of doctors and clearly she cannot sign the legal agreement on behalf of a resident.
</context>

<instructions> 
注意事项：
  - 生成的最终json列表必须与目标访问控制策略json列表完全一致
  - 概念的定义与限制
	操作行为（action）：系统允许的行为类型，如数据管理、数据使用、权限控制、页面操作等
	主体（subject）：系统中进行操作的实体，如平台本身、用户、角色、管理人员等
	资源（resource）：被操作的对象，各种数据、信息、页面等
	目的（purpose）：操作目的
	权限判定（decision）：操作是否被系统允许
	条件（condition）：权限判定中直接决定操作是否允许的逻辑规则，当条件满足时操作权限立即被确定（允许/拒绝），无需后续判定，且与操作执行时的数据格式等业务规范无关。


1. 要素提取：
	- 提取所有操作行为
		识别所有动词
		判断各动词是否满足操作行为的定义与限定
	- 提取主体与资源
		结合上下文语义、文本的主谓宾结构分析各操作行为的主体与资源
		判定资源是否否满足定义与限定
	- 提取目的
		提取文本中有关于操作目的的直接描述
		
2. 权限判定与判定条件提取
	- 权限判定
		根据上下文判断各个操作行为是否被系统允许，允许为allow，否则为拒绝deny
	- 判定条件提取
		依据上面权限判定时的逻辑规则，抽取判定条件的直观描述
	
3. 再次检查与最终JSON策略列表生成
	- 验证提取结果：
		检查各要素的完整性、是否符合其定义与限定范围
		确认要素间的逻辑一致性
	- 生成JSON策