# 1. 导入环境

本节将导入训练DeepSeek-7B-chat模型所需的所有Python库和依赖包，并进行基础的环境配置。

### 主要依赖库说明

#### 核心机器学习库
- **transformers**: Hugging Face的Transformers库，用于加载预训练模型和分词器
- **torch**: PyTorch深度学习框架，提供模型训练的基础功能
- **datasets**: Hugging Face的数据集处理库，用于高效处理训练数据
- **peft**: Parameter-Efficient Fine-Tuning库，提供LoRA等高效微调方法

#### 数据处理库
- **pandas**: 数据分析和处理库，用于读取JSON数据并转换格式
- **numpy**: 数值计算库（通过其他库间接使用）

#### 训练相关组件
- **AutoTokenizer**: 自动选择合适的分词器
- **AutoModelForCausalLM**: 自动加载因果语言模型
- **DataCollatorForSeq2Seq**: 序列到序列任务的数据整理器
- **TrainingArguments**: 训练参数配置类
- **Trainer**: Hugging Face的训练器，简化训练流程
- **GenerationConfig**: 文本生成配置类

### 环境要求
- Python 3.8+
- CUDA 11.8+ (用于GPU训练)
- 至少24GB GPU内存 (推荐24GB+)
- 足够的磁盘空间存储模型和数据集
- GPU驱动和CUDA工具包已正确安装

In [2]:
# 导入相应的依赖
from datasets import Dataset
import pandas as pd
from transformers import AutoTokenizer, AutoModelForCausalLM, DataCollatorForSeq2Seq, TrainingArguments, Trainer, GenerationConfig

  from .autonotebook import tqdm as notebook_tqdm


# 2.读取和处理数据集
### 2.1 读取数据

In [3]:
# 读取对应的数据
file_path = './dataset/tianji-chinese/tianji-wishes-chinese-v0.1-format.json'
df = pd.read_json(file_path)
ds = Dataset.from_pandas(df)
ds[:3]

{'instruction': ['你现在是一个送祝福大师，帮我针对不同人和事情、节日送对应的祝福',
  '你现在是一个送祝福大师，帮我针对不同人和事情、节日送对应的祝福',
  '你现在是一个送祝福大师，帮我针对不同人和事情、节日送对应的祝福'],
 'input': ['我想送赵老师生日祝福,严肃风格', '送祝福给赵老师春节,严肃风格', '祝赵老师元宵节快乐,严肃风格'],
 'output': ['尊敬的赵老师，值此生辰之际，愿岁月如诗，为您带来无尽的喜悦与美好；愿时光荏苒，为您留下珍贵的回忆与感悟。愿您快快乐乐，事业更上一层楼，教诲之恩桃李满天下。在这充满敬意的时刻，恭祝赵老师生日快乐，幸福安康！',
  '赵老师，值此春节佳节之际，恭祝您福寿安康，万事如意。在过去的一年里，您的辛勤耕耘为后辈树立了榜样，新春到来，愿您的生活如诗如画，工作更上一层楼，继续以您的智慧和热忱，引领我们前行。岁月静好，愿您享受每一个温馨时刻，幸福安康，喜悦无忧。',
  '尊敬的赵老师，元宵佳节至，愿您福寿安康，智慧如灯。愿这团圆的灯火，照亮您的事业与前程，带来更多学术的辉煌与成就。在这温馨的时刻，愿您家庭美满，幸福长存，如元宵般圆满甜蜜。谨祝元宵快乐，万事如意！']}

### 2.2 加载分词器

In [4]:
# 初始化模型的分词器
tokenizer = AutoTokenizer.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/', use_fast=False, trust_remote_code=True)
# 设置填充方向为右侧填充，不会影响模型对序列开头的理解
tokenizer.padding_side = 'right'
tokenizer

LlamaTokenizerFast(name_or_path='./deepseek-ai/deepseek-llm-7b-chat/', vocab_size=100000, model_max_length=4096, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<｜begin▁of▁sentence｜>', 'eos_token': '<｜end▁of▁sentence｜>', 'pad_token': '<｜end▁of▁sentence｜>'}, clean_up_tokenization_spaces=False, added_tokens_decoder={
	100000: AddedToken("<｜begin▁of▁sentence｜>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	100001: AddedToken("<｜end▁of▁sentence｜>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	100002: AddedToken("ø", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False),
	100003: AddedToken("ö", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False),
	100004: AddedToken("ú", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False),
	100005: AddedToken("ÿ", rstrip=False, lstrip=False, single_word=False, normali

### 2.3 数据格式化
Lora 训练的数据是需要经过格式化、编码之后再输入给模型进行训练的，将数据编码成多维向量。

In [5]:
def process_func(example):
    MAX_LENGTH = 384    # Llama分词器会将一个中文字切分为多个token，因此需要放开一些最大长度，保证数据的完整性
    input_ids, attention_mask, labels = [], [], []
    instruction = tokenizer(f"User: {example['instruction']+example['input']}\n\n", add_special_tokens=False)  # add_special_tokens 不在开头加 special_tokens
    response = tokenizer(f"Assistant: {example['output']}<｜end▁of▁sentence｜>", add_special_tokens=False)
    input_ids = instruction["input_ids"] + response["input_ids"] + [tokenizer.pad_token_id]
    attention_mask = instruction["attention_mask"] + response["attention_mask"] + [1]  # 因为eos token咱们也是要关注的所以 补充为1
    labels = [-100] * len(instruction["input_ids"]) + response["input_ids"] + [tokenizer.pad_token_id]  
    if len(input_ids) > MAX_LENGTH:  # 做一个截断
        input_ids = input_ids[:MAX_LENGTH]
        attention_mask = attention_mask[:MAX_LENGTH]
        labels = labels[:MAX_LENGTH]
    return {
        "input_ids": input_ids,
        "attention_mask": attention_mask,
        "labels": labels
    }
tokenized_id = ds.map(process_func, remove_columns=ds.column_names)
tokenized_id

Map:   0%|          | 0/2976 [00:00<?, ? examples/s]

Map: 100%|██████████| 2976/2976 [00:01<00:00, 2743.76 examples/s]


Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 2976
})

In [30]:
token_example = tokenized_id[0]['input_ids']
labels_example = tokenized_id[0]['labels']
print("Tokenized Example Input IDs:", token_example)
print("Labels Example:", labels_example)

Tokenized Example Input IDs: [5726, 25, 207, 96866, 9629, 6193, 30014, 28432, 19304, 71744, 13458, 5871, 31880, 12196, 537, 34028, 6193, 79961, 30014, 19017, 6193, 12630, 7842, 33363, 30014, 11, 47296, 15190, 185, 185, 77398, 25, 207, 65766, 337, 12630, 7842, 19304, 3895, 2133, 930, 27715, 40449, 19304, 6373, 35988, 1415, 9951, 19304, 50675, 10645, 60013, 337, 56743, 1620, 26127, 2000, 6373, 27529, 2337, 224, 2084, 227, 19304, 50675, 25062, 88759, 27168, 1620, 57253, 398, 6373, 8629, 3411, 14353, 3757, 19304, 12234, 1801, 91544, 7309, 19304, 2419, 589, 110, 1363, 12933, 15409, 5394, 4142, 21824, 398, 16541, 17057, 14496, 37529, 20100, 19304, 42297, 15717, 12630, 7842, 33363, 14353, 19304, 11423, 2220, 5088, 2160, 100001, 100001]
Labels Example: [-100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, -100, 77398, 25, 207, 65766, 337, 12630, 7842, 19304, 3895, 2133, 930,

(111, 111)

In [6]:
input_example = tokenizer.decode(tokenized_id[0]['input_ids'])
output_example = tokenizer.decode(list(filter(lambda x: x != -100, tokenized_id[1]["labels"])))
print("Input Example:", input_example)
print("Output Example:", output_example)

Input Example: User: 你现在是一个送祝福大师，帮我针对不同人和事情、节日送对应的祝福我想送赵老师生日祝福,严肃风格

Assistant: 尊敬的赵老师，值此生辰之际，愿岁月如诗，为您带来无尽的喜悦与美好；愿时光荏苒，为您留下珍贵的回忆与感悟。愿您快快乐乐，事业更上一层楼，教诲之恩桃李满天下。在这充满敬意的时刻，恭祝赵老师生日快乐，幸福安康！<｜end▁of▁sentence｜><｜end▁of▁sentence｜>
Output Example: Assistant: 赵老师，值此春节佳节之际，恭祝您福寿安康，万事如意。在过去的一年里，您的辛勤耕耘为后辈树立了榜样，新春到来，愿您的生活如诗如画，工作更上一层楼，继续以您的智慧和热忱，引领我们前行。岁月静好，愿您享受每一个温馨时刻，幸福安康，喜悦无忧。<｜end▁of▁sentence｜><｜end▁of▁sentence｜>


# 4.创建模型
模型以半精度形式加载，如果你的显卡比较新的话，可以用torch.bfolat形式加载。对于自定义的模型一定要指定trust_remote_code参数为True

In [7]:
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "7" 

model_raw = AutoModelForCausalLM.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/', trust_remote_code=True, torch_dtype=torch.half, device_map="auto")
model_raw.generation_config = GenerationConfig.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/')
model_raw.generation_config.pad_token_id = model_raw.generation_config.eos_token_id
model_raw

Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.30s/it]


LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(102400, 4096)
    (layers): ModuleList(
      (0-29): 30 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear(in_features=4096, out_features=4096, bias=False)
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
        (post_attention_layernorm): LlamaRMSNorm((4096,), eps=1e-06)
      )
    )
    (norm): LlamaRMSNorm((4096,), eps=1e-06)
    (rotary_

In [8]:
# 开启梯度检查点时，要执行该方法
model_raw.enable_input_require_grads()
# 查看模型的dtype
model_raw.dtype

torch.float16

# 5. 定义LoraConfig
LoraConfig这个类中可以设置很多参数，具体细分可以看pert源码

- `task_type`：模型类型
- `target_modules`：需要训练的模型层的名字，主要就是`attention`部分的层，不同的模型对应的层的名字不同。
- `r`：`lora`的秩，控制低秩分解的维度
- `lora_alpha`：`Lora alaph`，控制LoRA权重的缩放强度
- `lora_dropout`：`Lora`的dropout，防止过拟合
- `inference_mode`：推理模式，控制是否为推理

In [9]:
from peft import LoraConfig, TaskType, get_peft_model

config = LoraConfig(
    task_type=TaskType.CAUSAL_LM, 
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    inference_mode=False, # 训练模式
    r=8, # Lora 秩
    lora_alpha=32, # Lora alaph，具体作用参见 Lora 原理
    lora_dropout=0.1# Dropout 比例
)
config

LoraConfig(task_type=<TaskType.CAUSAL_LM: 'CAUSAL_LM'>, peft_type=<PeftType.LORA: 'LORA'>, auto_mapping=None, base_model_name_or_path=None, revision=None, inference_mode=False, r=8, target_modules={'up_proj', 'v_proj', 'q_proj', 'gate_proj', 'down_proj', 'k_proj', 'o_proj'}, exclude_modules=None, lora_alpha=32, lora_dropout=0.1, fan_in_fan_out=False, bias='none', use_rslora=False, modules_to_save=None, init_lora_weights=True, layers_to_transform=None, layers_pattern=None, rank_pattern={}, alpha_pattern={}, megatron_config=None, megatron_core='megatron.core', trainable_token_indices=None, loftq_config={}, eva_config=None, corda_config=None, use_dora=False, layer_replication=None, runtime_config=LoraRuntimeConfig(ephemeral_gpu_offload=False), lora_bias=False)

In [10]:
model = get_peft_model(model_raw, config)
print(model)
parameters = model.print_trainable_parameters()

PeftModelForCausalLM(
  (base_model): LoraModel(
    (model): LlamaForCausalLM(
      (model): LlamaModel(
        (embed_tokens): Embedding(102400, 4096)
        (layers): ModuleList(
          (0-29): 30 x LlamaDecoderLayer(
            (self_attn): LlamaAttention(
              (q_proj): lora.Linear(
                (base_layer): Linear(in_features=4096, out_features=4096, bias=False)
                (lora_dropout): ModuleDict(
                  (default): Dropout(p=0.1, inplace=False)
                )
                (lora_A): ModuleDict(
                  (default): Linear(in_features=4096, out_features=8, bias=False)
                )
                (lora_B): ModuleDict(
                  (default): Linear(in_features=8, out_features=4096, bias=False)
                )
                (lora_embedding_A): ParameterDict()
                (lora_embedding_B): ParameterDict()
                (lora_magnitude_vector): ModuleDict()
              )
              (k_proj): lora.Linear(
 

# 6. 配置训练参数
TrainingArguments是Hugging Face Transformers库中用于配置模型训练过程的核心类，它包含了训练过程中的各种超参数和设置。

###  核心参数解释
- `output_dir`: 模型和训练结果保存的目录
- `learning_rate`: 学习率，控制模型参数更新的步长
- `per_device_train_batch_size`: 每个设备的训练批次大小
- `num_train_epochs`: 训练的总轮数
- `weight_decay`: 权重衰减，用于防止过拟合
- `logging_steps`: 日志记录的步数间隔
- `save_steps`: 模型保存的步数间隔
- `gradient_checkpointing`: 是否启用梯度检查点，减少内存使用

In [11]:
args = TrainingArguments(
    output_dir="./output/DeepSeek",
    per_device_train_batch_size=8,
    gradient_accumulation_steps=2,
    logging_steps=10,
    num_train_epochs=3,
    save_steps=100,
    learning_rate=1e-4,
    save_on_each_node=True,
    gradient_checkpointing=True
)

In [12]:
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_id,
    data_collator=DataCollatorForSeq2Seq(tokenizer=tokenizer, padding=True),
)

No label_names provided for model class `PeftModelForCausalLM`. Since `PeftModel` hides base models input arguments, if label_names is not given, label_names can't be set automatically within `Trainer`. Note that empty label_names list will be used instead.


In [13]:
trainer.train()

`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


Step,Training Loss
10,2.26
20,1.7651
30,1.6549
40,1.532
50,1.4115
60,1.3378
70,1.3276
80,1.2638
90,1.2886
100,1.258


TrainOutput(global_step=558, training_loss=1.0860317428479485, metrics={'train_runtime': 527.8951, 'train_samples_per_second': 16.912, 'train_steps_per_second': 1.057, 'total_flos': 4.116561919082496e+16, 'train_loss': 1.0860317428479485, 'epoch': 3.0})

In [34]:
from peft import PeftModel

base_model = AutoModelForCausalLM.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/')
lora_model = PeftModel.from_pretrained(base_model, "./output/DeepSeek/checkpoint-558/")
merged = lora_model.merge_and_unload()
merged.save_pretrained("./output/DeepSeek-wish")

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.06s/it]


### 结果测试

In [14]:
text = "祝姐姐生日快乐, 小红书风格"
inputs = tokenizer(f"User: {text}\n\n", return_tensors="pt")
outputs = model.generate(**inputs.to(model.device), max_new_tokens=100)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)




User: 祝姐姐生日快乐, 小红书风格

 愿岁月静好，笑靥如花🌸，幸福满溢，快乐无边🎉，姐，生日快乐呀！


### 原始模型

In [15]:
# 原始模型
deepseek_model = AutoModelForCausalLM.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/', trust_remote_code=True, torch_dtype=torch.half, device_map="auto")
deepseek_model.generation_config = GenerationConfig.from_pretrained('./deepseek-ai/deepseek-llm-7b-chat/')
deepseek_model.generation_config.pad_token_id = deepseek_model.generation_config.eos_token_id

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.41s/it]


In [27]:
text = "祝姐姐生日快乐, 小红书风格"
inputs = tokenizer(f"User: {text}\n\n", return_tensors="pt")
outputs = deepseek_model.generate(**inputs.to(deepseek_model.device), max_new_tokens=512)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)

User: 祝姐姐生日快乐, 小红书风格

🎉🎂🎁🎈🎁🎂🎊🎈🎂🎉

我亲爱的姐姐，今天是你特别的一天，你的生日到了！在这个特别的日子里，我想对你说：祝你生日快乐！🎉🎂🎁🎈🎉

记得小时候，你总是会给我买好吃的糖果和玩具，还有那件我最喜欢的小红裙，让我感觉自己是世界上最幸福的小公主。你总是那么温柔、体贴，让我感到安心和温暖。👸🏻👸🏼👸🏽👸🏾👸🏿

现在，我也想给你送上一份小红书风格的生日祝福，希望你能感受到我的爱和祝福。💕

祝你每天都有好心情，身体健康，事业有成，家庭幸福，爱情甜蜜。🌹

最后，再次祝你生日快乐！🎉🎂🎁🎈🎉
