# 微信聊天角色扮演 - Qwen3-0.6B 微调

使用LoRA微调Qwen3-0.6B，让模型学习模仿聊天记录中对方的说话风格。

## 环境要求
- Google Colab (GPU)
- 免费版T4 GPU即可运行

In [17]:
# 安装依赖
!pip install -q transformers>=4.40.0 peft>=0.10.0 trl>=0.8.0 datasets accelerate bitsandbytes

In [18]:
import json
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from trl import SFTTrainer, SFTConfig
from datasets import Dataset

# 检查GPU
print(f"GPU可用: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU型号: {torch.cuda.get_device_name(0)}")
    print(f"显存: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")

GPU可用: True
GPU型号: Tesla T4
显存: 15.8 GB


## 1. 上传训练数据

将预处理好的 `train_data.json` 上传到Colab

In [19]:
from google.colab import files

# 上传训练数据
uploaded = files.upload()
data_file = list(uploaded.keys())[0]
print(f"已上传: {data_file}")

Saving train_data.json to train_data (1).json
已上传: train_data (1).json


In [20]:
# 加载训练数据
with open(data_file, 'r', encoding='utf-8') as f:
    train_data = json.load(f)

print(f"训练样本数量: {len(train_data)}")
print(f"\n样本示例:")
print(json.dumps(train_data[0], ensure_ascii=False, indent=2))

训练样本数量: 9

样本示例:
{
  "conversations": [
    {
      "role": "user",
      "content": "到家了没"
    },
    {
      "role": "assistant",
      "content": "今天蟹蟹啦\n把钱转给你\n到啦到啦\n你们到家了吗"
    },
    {
      "role": "user",
      "content": "我们在外面消消食"
    },
    {
      "role": "assistant",
      "content": "好滴好滴，那下回我请"
    }
  ]
}


## 2. 加载模型和Tokenizer

In [21]:
MODEL_ID = "Qwen/Qwen3-0.6B"

# 加载Tokenizer
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_ID,
    trust_remote_code=True
)

# 设置pad_token
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token

print(f"词表大小: {len(tokenizer)}")
print(f"特殊token: pad={tokenizer.pad_token}, eos={tokenizer.eos_token}")

词表大小: 151669
特殊token: pad=<|endoftext|>, eos=<|im_end|>


In [22]:
# 4-bit量化配置（节省显存）
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True
)

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

# 准备模型进行k-bit训练
model = prepare_model_for_kbit_training(model)

print(f"模型加载完成")
print(f"模型参数量: {model.num_parameters() / 1e6:.1f}M")

Loading weights:   0%|          | 0/311 [00:00<?, ?it/s]



模型加载完成
模型参数量: 751.6M


## 3. 配置LoRA

In [23]:
# LoRA配置
lora_config = LoraConfig(
    r=16,                    # LoRA秩
    lora_alpha=32,           # 缩放系数
    target_modules=[
        "q_proj", "k_proj", "v_proj", "o_proj",  # 注意力层
        "gate_proj", "up_proj", "down_proj"       # FFN层
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

# 应用LoRA
model = get_peft_model(model, lora_config)

# 打印可训练参数
model.print_trainable_parameters()

trainable params: 10,092,544 || all params: 761,724,928 || trainable%: 1.3250


## 4. 准备数据集

In [24]:
def format_conversation(example):
    """
    将对话格式化为Qwen3的chat模板
    """
    messages = example["conversations"]

    # 使用tokenizer的chat模板
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=False
    )

    return {"text": text}

# 创建Dataset
dataset = Dataset.from_list(train_data)
dataset = dataset.map(format_conversation)

print(f"数据集大小: {len(dataset)}")
print(f"\n格式化后的样本:")
print(dataset[0]["text"][:500])

Map:   0%|          | 0/9 [00:00<?, ? examples/s]

数据集大小: 9

格式化后的样本:
<|im_start|>user
到家了没<|im_end|>
<|im_start|>assistant
今天蟹蟹啦
把钱转给你
到啦到啦
你们到家了吗<|im_end|>
<|im_start|>user
我们在外面消消食<|im_end|>
<|im_start|>assistant
<think>

</think>

好滴好滴，那下回我请<|im_end|>



## 5. 训练配置

In [28]:
# 训练参数
training_args = SFTConfig(
    output_dir="./output",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=4,
    learning_rate=2e-4,
    lr_scheduler_type="cosine",
    warmup_ratio=0.1,
    fp16=False,
    logging_steps=10,
    save_strategy="epoch",
    save_total_limit=2,
    optim="paged_adamw_8bit",
    report_to="none",
    seed=42,
    dataset_text_field="text",
    packing=False
)

# 通过tokenizer控制序列长度
tokenizer.model_max_length = 512

print("训练配置:")
print(f"  Epochs: {training_args.num_train_epochs}")
print(f"  Batch size: {training_args.per_device_train_batch_size}")
print(f"  Gradient accumulation: {training_args.gradient_accumulation_steps}")
print(f"  Effective batch size: {training_args.per_device_train_batch_size * training_args.gradient_accumulation_steps}")
print(f"  Learning rate: {training_args.learning_rate}")

warmup_ratio is deprecated and will be removed in v5.2. Use `warmup_steps` instead.


训练配置:
  Epochs: 3
  Batch size: 4
  Gradient accumulation: 4
  Effective batch size: 16
  Learning rate: 0.0002


In [29]:
# 创建Trainer
trainer = SFTTrainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    processing_class=tokenizer
)

print("Trainer已创建，准备开始训练")

Adding EOS to train dataset:   0%|          | 0/9 [00:00<?, ? examples/s]

Tokenizing train dataset:   0%|          | 0/9 [00:00<?, ? examples/s]

Truncating train dataset:   0%|          | 0/9 [00:00<?, ? examples/s]

Trainer已创建，准备开始训练


## 6. 开始训练

In [30]:
# 开始训练
print("开始训练...")
trainer.train()
print("训练完成！")

开始训练...


Step,Training Loss


训练完成！


## 7. 保存模型

In [31]:
# 保存LoRA适配器
LORA_OUTPUT_DIR = "./lora_adapter"
model.save_pretrained(LORA_OUTPUT_DIR)
tokenizer.save_pretrained(LORA_OUTPUT_DIR)

print(f"LoRA适配器已保存至: {LORA_OUTPUT_DIR}")

LoRA适配器已保存至: ./lora_adapter


In [32]:
# （可选）合并为完整模型
MERGE_OUTPUT_DIR = "./merged_model"

# 重新加载基座模型（不量化）
base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 加载LoRA权重并合并
from peft import PeftModel
merged_model = PeftModel.from_pretrained(base_model, LORA_OUTPUT_DIR)
merged_model = merged_model.merge_and_unload()

# 保存合并后的模型
merged_model.save_pretrained(MERGE_OUTPUT_DIR)
tokenizer.save_pretrained(MERGE_OUTPUT_DIR)

print(f"合并后的模型已保存至: {MERGE_OUTPUT_DIR}")

`torch_dtype` is deprecated! Use `dtype` instead!


Loading weights:   0%|          | 0/311 [00:00<?, ?it/s]



Writing model shards:   0%|          | 0/1 [00:00<?, ?it/s]

合并后的模型已保存至: ./merged_model


## 8. 测试模型

In [33]:
def chat(model, tokenizer, user_input, history=[]):
    """
    单轮对话测试
    """
    messages = history + [{"role": "user", "content": user_input}]

    prompt = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=128,
            do_sample=True,
            temperature=0.7,
            top_p=0.9,
            repetition_penalty=1.1,
            pad_token_id=tokenizer.pad_token_id
        )

    generated = outputs[0][inputs["input_ids"].shape[1]:]
    response = tokenizer.decode(generated, skip_special_tokens=True)

    return response.strip()

In [34]:
# 测试对话
test_inputs = [
    "在干嘛",
    "今天累不累",
    "晚上吃什么",
    "一起看电影吧"
]

print("=== 模型测试 ===")
for user_input in test_inputs:
    response = chat(merged_model, tokenizer, user_input)
    print(f"用户: {user_input}")
    print(f"模型: {response}")
    print()

=== 模型测试 ===
用户: 在干嘛
模型: <think>
好的，用户问“在干嘛”，我需要先理解他们的意图。他们可能是在询问我的工作内容，或者想了解我的日常活动。根据之前的对话历史，用户和我讨论过关于AI助手的话题，所以这次的问题应该与AI相关。

首先，我要确认用户是否想知道我的功能或用途。如果是的话，可以简要说明我的主要作用，比如提供帮助、解答问题等。但要注意保持回答简洁明了，避免过于冗长。

另外，考虑到用户的潜在需求，可能希望了解更详细的信息。因此，在回答时可以提到一些具体的功能，例如语言翻译、知识

用户: 今天累不累
模型: <think>
好的，用户问今天的累不累。我需要先了解用户的当前状态和需求。首先，可能用户在工作中感到疲惫，或者有其他原因导致身体不适。作为助手，应该保持友好和支持的态度。

接下来，要确保回答的问题具体，让用户能感受到关心。比如询问具体的疲惫情况，是否需要休息或调整工作安排。同时，也要考虑到用户的情绪，避免使用过于负面的语言，保持积极的交流方式。

另外，还要注意用户可能有的深层需求，比如希望得到帮助解决疲劳问题，或者想寻求放松的方法。因此，在回应中可以提供一些实用建议，比如

用户: 晚上吃什么
模型: <think>
好的，用户问晚上吃什么。首先，我需要考虑不同用户的饮食需求和健康状况。可能他们想保持体重、控制血糖或者有特定的口味偏好。

接下来，我要分析这个问题的背景。用户可能是上班族，晚餐时间长，容易感到疲劳或饥饿。或者他们可能在寻找一种健康的饮食方案来改善睡眠质量。

然后，我需要考虑回答的方式。用户可能希望得到一些具体的食物建议，但也要注意避免提供不适合某些人（如低血糖、过敏）的内容。同时，要确保信息准确，符合一般营养标准。

还要考虑到用户可能没有明确说明的需求，

用户: 一起看电影吧
模型: <think>
好的，用户说“一起看电影吧”，我需要先理解他们的意图。可能他们想要一起观看电影，或者只是想让我帮忙找电影。这时候应该提供帮助，比如推荐合适的电影或安排观影时间。

接下来要考虑的是如何回应才能让对话更自然流畅。用户可能希望得到一个积极的回应，同时保持开放的态度。所以可以询问他们是否需要帮助，或者推荐一些电影，这样既能满足需求，又能保持互动。

另外，要注意语气要友好和热情，让用户觉得有参与感。例如可以说

## 9. 下载模型

将训练好的模型下载到本地

In [35]:
# 打包LoRA适配器
!zip -r lora_adapter.zip ./lora_adapter

# 下载
from google.colab import files
files.download('lora_adapter.zip')

print("LoRA适配器已下载，解压后放到本地项目目录使用")

  adding: lora_adapter/ (stored 0%)
  adding: lora_adapter/adapter_config.json (deflated 59%)
  adding: lora_adapter/README.md (deflated 65%)
  adding: lora_adapter/chat_template.jinja (deflated 76%)
  adding: lora_adapter/tokenizer_config.json (deflated 59%)
  adding: lora_adapter/adapter_model.safetensors (deflated 31%)
  adding: lora_adapter/tokenizer.json (deflated 81%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

LoRA适配器已下载，解压后放到本地项目目录使用


In [36]:
# （可选）打包合并后的完整模型
# 注意：完整模型文件较大，下载可能需要较长时间
!zip -r merged_model.zip ./merged_model

from google.colab import files
files.download('merged_model.zip')

  adding: merged_model/ (stored 0%)
  adding: merged_model/chat_template.jinja (deflated 76%)
  adding: merged_model/config.json (deflated 71%)
  adding: merged_model/model.safetensors (deflated 14%)
  adding: merged_model/tokenizer_config.json (deflated 59%)
  adding: merged_model/generation_config.json (deflated 38%)
  adding: merged_model/tokenizer.json (deflated 81%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## 本地使用方法

```bash
# 方法1: 使用LoRA适配器
python inference/chat.py --model Qwen/Qwen3-0.6B --lora ./lora_adapter

# 方法2: 使用合并后的模型
python inference/chat.py --model ./merged_model
```