In [1]:
from unsloth import FastLanguageModel
import torch

max_seq_length = 2048  # 文本最大长度
dtype = None # 自动发现数据类型
load_in_4bit = True # 是否使用4bit加载模型

# 加载预训练的FastLanguageModel模型及其对应的分词器（tokenizer）
model, tokenizer = FastLanguageModel.from_pretrained(
    # model_name="unsloth/Meta-LLama-3.1-8b",  # 如果需要从Hugging Face远程下载模型，可以使用此注释掉的参数
    model_name="/mnt/g/model/Qwen/Qwen2-0.5B/",  # 指定本地已下载的模型路径，避免重复下载
    max_seq_length=max_seq_length,  # 设置模型支持的最大序列长度
    dtype=dtype,  # 指定模型权重的数据类型（例如：torch.float16 或 torch.bfloat16）
    load_in_4bit=load_in_4bit  # 是否以4位量化方式加载模型，以减少显存占用
)

# 得到 model 模型和 tokenizer 解码器

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


  from .autonotebook import tqdm as notebook_tqdm
    PyTorch 2.5.1 with CUDA 1201 (you have 2.7.0+cu126)
    Python  3.11.10 (you have 3.11.11)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details


🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.4.3: Fast Qwen2 patching. Transformers: 4.51.3.
   \\   /|    NVIDIA GeForce RTX 3060 Laptop GPU. Num GPUs = 1. Max memory: 6.0 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.0+cu126. CUDA: 8.6. CUDA Toolkit: 12.6. Triton: 3.3.0
\        /    Bfloat16 = TRUE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Sliding Window Attention is enabled but not implemented for `eager`; unexpected results may be encountered.


/mnt/g/model/Qwen/Qwen2-0.5B/ does not have a padding token! Will use pad_token = <|PAD_TOKEN|>.


In [2]:
print(model)


Qwen2ForCausalLM(
  (model): Qwen2Model(
    (embed_tokens): Embedding(151936, 896, padding_idx=151646)
    (layers): ModuleList(
      (0-23): 24 x Qwen2DecoderLayer(
        (self_attn): Qwen2Attention(
          (q_proj): Linear4bit(in_features=896, out_features=896, bias=True)
          (k_proj): Linear4bit(in_features=896, out_features=128, bias=True)
          (v_proj): Linear4bit(in_features=896, out_features=128, bias=True)
          (o_proj): Linear4bit(in_features=896, out_features=896, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): Qwen2MLP(
          (gate_proj): Linear4bit(in_features=896, out_features=4864, bias=False)
          (up_proj): Linear4bit(in_features=896, out_features=4864, bias=False)
          (down_proj): Linear4bit(in_features=4864, out_features=896, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): Qwen2RMSNorm((896,), eps=1e-06)
        (post_attention_layernorm): Qwen2RMSNorm((896,), eps=1e-

```
Qwen2ForCausalLM(
  # 定义模型的主体部分，包含嵌入层、多层解码器层、归一化层和最终的线性层
  (model): Qwen2Model(
    # 定义嵌入层，将输入的词汇索引转换为2048维的向量，使用151936作为词汇表大小，padding_idx=151643表示填充词的索引
    (embed_tokens): Embedding(151936, 2048, padding_idx=151643)
    # 定义一个包含24个Qwen2DecoderLayer的模块列表，每个解码器层包含自注意力机制、多层感知机（MLP）、输入归一化层和后注意力归一化层
    (layers): ModuleList(
      (0-23): 24 x Qwen2DecoderLayer(
        # 定义自注意力机制，包含查询、键、值的线性投影和输出线性投影，以及旋转位置嵌入
        (self_attn): Qwen2Attention(
          # 查询线性投影，将2048维的输入转换为2048维的输出，并带有偏置
          (q_proj): Linear4bit(in_features=2048, out_features=2048, bias=True)
          # 键线性投影，将2048维的输入转换为2048维的输出，并带有偏置
          (k_proj): Linear4bit(in_features=2048, out_features=2048, bias=True)
          # 值线性投影，将2048维的输入转换为2048维的输出，并带有偏置
          (v_proj): Linear4bit(in_features=2048, out_features=2048, bias=True)
          # 输出线性投影，将2048维的输入转换为2048维的输出，不带偏置
          (o_proj): Linear4bit(in_features=2048, out_features=2048, bias=False)
          # 旋转位置嵌入，用于在自注意力机制中引入位置信息
          (rotary_emb): Qwen2RotaryEmbedding()
        )
        # 定义多层感知机（MLP），包含门控投影、上投影、下投影和激活函数
        (mlp): Qwen2MLP(
          # 门控投影，将2048维的输入转换为5504维的输出，不带偏置
          (gate_proj): Linear4bit(in_features=2048, out_features=5504, bias=False)
          # 上投影，将2048维的输入转换为5504维的输出，不带偏置
          (up_proj): Linear4bit(in_features=2048, out_features=5504, bias=False)
          # 下投影，将5504维的输入转换为2048维的输出，不带偏置
          (down_proj): Linear4bit(in_features=5504, out_features=2048, bias=False)
          # 激活函数，使用SiLU（Sigmoid Linear Unit）
          (act_fn): SiLU()
        )
        # 输入归一化层，用于对输入进行归一化处理，eps=1e-06是防止除零的小常数
        (input_layernorm): Qwen2RMSNorm((2048,), eps=1e-06)
        # 后注意力归一化层，用于对自注意力机制后的输出进行归一化处理，eps=1e-06是防止除零的小常数
        (post_attention_layernorm): Qwen2RMSNorm((2048,), eps=1e-06)
      )
    )
    # 最终的归一化层，用于对整个模型的输出进行归一化处理，eps=1e-06是防止除零的小常数
    (norm): Qwen2RMSNorm((2048,), eps=1e-06)
    # 旋转位置嵌入，用于在整个模型中引入位置信息
    (rotary_emb): Qwen2RotaryEmbedding()
  )
  # 定义语言模型的头（head），将2048维的隐藏状态转换为151936维的输出，不带偏置
  (lm_head): Linear(in_features=2048, out_features=151936, bias=False)
)
```

## Step2：使用LoRA微调模型，更新模型1%-10%的参数

LoRA（Low-Rank Adaptation）是一种用于模型微调的优化方法，它通过降低模型的参数数量来提高模型的性能。在微调模型时，可以使用LoRA来更新模型的1%-10%的参数，从而减少模型的参数数量，并提高模型的性能。

LoRA:LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

原理：矩阵A使用高斯初始化，先降维，矩阵B使用全零初始化，然后升维。这里的维度控制参数就是矩阵的秩 **r**，它通常是一个很小的参数 (1,6,8,16)

In [3]:
# 使用FastLanguageModel获取模型
model = FastLanguageModel.get_peft_model(
    model,  # 原始的基础模型
    r=16,  # LoRA微调的秩（rank），控制参数量和表达能力 建议值是 8 16,32,64,128,256,512,1024
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "down_proj", "up_proj"],  # 需要应用LoRA的模块列表，即需要对这些模块进行微调
    lora_alpha=16,  # LoRA的缩放因子，影响训练时权重的重要性
    lora_dropout=0,  # LoRA层的dropout概率，设置为0表示不使用dropout
    bias="none",  # 是否对bias进行微调，"none"表示不微调
    use_gradient_checkpointing="unsloth",  # 是否使用梯度检查点技术以节省显存，具体实现方式由参数值定义
    random_state=3407,  # 随机种子，确保结果可复现
    use_rslora=False,  # 是否使用RS-LoRA方法，默认为False
    loftq_config=None  # LoFTQ配置，如果需要使用LoFTQ量化方法，可以在此处传入配置
)


Unsloth 2025.4.3 patched 24 layers with 24 QKV layers, 24 O layers and 24 MLP layers.


运行Step2后会生成LoRA相关结构

有了这些结构，我们就可以准备数据来进行微调。

## Step3: 使用 alpaca 格式定义数据

训练数据必须是 jsonl 格式，包含以下三个字段：
- instruction: 输入的提示语，即用户输入的指令或问题
- input: 可选的输入，如果存在，则表示用户输入的附加信息
- output: 模型的输出结果，即根据输入的指令或问题生成的答案或回复

In [5]:
alpaca_prompt = """Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""

# EOS_TOKEN = "<|endoftext|>"
EOS_TOKEN = tokenizer.eos_token # 截至符号，如果没有的话，模型会一直生成输出，直到达到最大长度
def format_prompts_func(examples):
    instruction = examples["instruction"]  # 获取指令列表
    inputs = examples["input"]  # 获取输入列表
    output = examples["output"]  # 获取输出列表
    texts = []
    for instruction, inputs, output in zip(instruction, inputs, output):
        text = alpaca_prompt.format(instruction, inputs, output) + EOS_TOKEN  # 格式化提示文本并添加结束符
        texts.append(text)  # 将格式化后的文本添加到列表中
    return {"text": texts}  # 返回包含格式化文本的字典

from datasets import load_dataset
dataset = load_dataset('./zh_tranditional/', split='train')  # 加载训练数据集
dataset = dataset.map(format_prompts_func, batched=True)  # 应用格式化函数到数据集，批量处理


Generating train split: 232 examples [00:00, 10029.98 examples/s]
Map: 100%|███████████████████████████████████████████████| 232/232 [00:00<00:00, 34581.13 examples/s]


## Step4: 使用SFTrainer进行微调

In [6]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text", #可以是input，output，text，也可以是自定义的列名，其实这里的text就是上面format_prompts_func构建的字典
    max_seq_length=max_seq_length,
    dataset_num_proc=2,
    packing=False,
    args=TrainingArguments(
        per_device_train_batch_size=1,
        gradient_accumulation_steps=1,
        warmup_steps=5,
        # num_train_epochs=1,
        max_steps=20,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="./outputs",
    )
)

Unsloth: Tokenizing ["text"] (num_proc=2): 100%|███████████| 232/232 [00:00<00:00, 360.36 examples/s]


In [7]:
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 /1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU memory: {gpu_stats.name}. Max_memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU memory: NVIDIA GeForce RTX 3060 Laptop GPU. Max_memory = 6.0 GB.
0.633 GB of memory reserved.


In [8]:
trainer_state = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 232 | Num Epochs = 1 | Total steps = 20
O^O/ \_/ \    Batch size per device = 1 | Gradient accumulation steps = 1
\        /    Data Parallel GPUs = 1 | Total batch size (1 x 1 x 1) = 1
 "-____-"     Trainable parameters = 8,798,208/5,000,000,000 (0.18% trained)


Step,Training Loss
1,0.0568
2,0.1533
3,0.2583
4,0.1297
5,0.2123
6,0.0131
7,0.1298
8,0.0028
9,0.001
10,0.0012


## Step5: 推理和预测

运行微调后的模型：根据输入的instruction和input，模型会生成对应的output。

In [18]:
FastLanguageModel.for_inference(model)

# 格式化输入
formatted_input = alpaca_prompt.format(
    "请根据以下文章构建一个需要回答的问题。",  # instruction
    "人工智能是当今科技领域的热门话题",  # input
    "",  # output
)

# 编码输入
inputs = tokenizer(
    [formatted_input],
    return_tensors="pt"
).to("cuda")
print(inputs)

outputs = model.generate(**inputs, max_new_tokens=256, use_cache=True)
tokenizer.batch_decode(outputs)

{'input_ids': tensor([[ 38214,    374,    458,   7600,    429,  16555,    264,   3383,     13,
           9645,    264,   2033,    429,  34901,  44595,    279,   1681,    382,
          14374,  29051,    510,  14880, 100345,  87752,  82025, 104004,  46944,
          85106, 102104, 103936,   3407,  14374,   5571,    510, 104455,  20412,
         106850,  99602, 104799, 105034, 105167,    271,  14374,   5949,    510]],
       device='cuda:0'), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
         1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]],
       device='cuda:0')}


['Below is an instruction that describes a task. Write a response that appropriately completes the request.\n\n### Instruction:\n请根据以下文章构建一个需要回答的问题。\n\n### Input:\n人工智能是当今科技领域的热门话题\n\n### Response:\n#################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

In [16]:
with torch.no_grad():
    outputs = model.generate(
        inputs["input_ids"],
        attention_mask=inputs["attention_mask"],
        max_length=50,  # 控制生成的最大长度
        num_return_sequences=1  # 返回的序列数量
    )

Both `max_new_tokens` (=2048) and `max_length`(=50) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


In [17]:
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
请根据以下文章构建一个需要回答的问题。

### Input:


### Response:
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

In [None]:
# 1. 删除模型引用
del model

# 2. 强制垃圾回收
import gc
gc.collect()

# 3. 清空CUDA缓存（如果使用GPU）
import torch
if torch.cuda.is_available():
    torch.cuda.empty_cache()

# 4. 可选：删除tokenizer（如果需要释放全部资源）
del tokenizer