# 4.5 peft简介

## peft

**PEFT**（Parameter-Efficient Fine-Tuning，参数高效微调）是一种优化技术，旨在以最小的参数更新实现对大规模预训练模型（如 GPT、BERT 等）的微调。PEFT 技术通过减少微调所需的参数量，显著降低了存储和计算开销，同时保留模型的性能，特别适合资源受限的场景和领域特定任务的定制化。

---

### **1. 核心思想**
传统的微调方式需要更新整个预训练模型的所有参数，PEFT 技术通过只调整少量的参数（如特定层或额外添加的小型模块）实现微调目标，大幅减少了训练开销和存储需求。

---

### **2. 常见的 PEFT 方法**

#### **（1）Adapter 模型**
- 在每一层 Transformer 的输出中插入小型适配器模块，仅训练适配器模块的参数。
- 原始模型参数保持冻结不变。
- 优点：适配器模块参数量小，能适应不同任务。

示例方法：
- **AdapterFusion**
- **MAD-X**

---

#### **（2）Prefix Tuning**
- 在 Transformer 的输入前添加一组可学习的前缀向量，这些前缀与模型的注意力机制交互。
- 只调整前缀向量的参数，而不更新原始模型。
- 优点：对生成任务效果显著，参数量进一步减少。

---

#### **（3）LoRA（Low-Rank Adaptation）**
- 将预训练模型中的部分权重分解为两个低秩矩阵，仅调整这些低秩矩阵的参数。
- 原始权重保持冻结状态。
- 优点：参数量极小，计算高效。
  
---

#### **（4）Prompt Tuning**
- 在输入文本中添加可学习的提示（Prompt）。
- 适合 NLP 任务中的文本生成、分类等。
- 优点：实现简单，易于集成到现有框架。

---

### **3. PEFT 的优势**

1. **显著减少参数更新量**：
   - 微调传统的大模型（如 GPT-3）需要更新数百亿参数，而 PEFT 仅需更新百万级别甚至更少的参数。

2. **高效存储**：
   - 每个任务的微调结果只需存储少量额外参数，而不是整个模型。

3. **适用多任务**：
   - 同一预训练模型可以通过不同的 PEFT 模块适配多个任务，无需重新训练。

4. **降低计算开销**：
   - 训练所需的内存和计算显著减少，适合资源有限的环境。

---

### **4. 应用场景**

1. **领域特定任务**：
   - 医疗、法律、金融等领域微调预训练模型。

2. **多任务学习**：
   - 适配多个任务，复用同一模型的预训练权重。

3. **资源受限场景**：
   - 移动设备、边缘设备上的模型部署。

---

### **5. Hugging Face PEFT 库**

Hugging Face 提供了专门的 PEFT 库，支持多种参数高效微调技术：
- **安装**：
  ```bash
  pip install peft
  ```
- **使用 LoRA 微调示例**：
  ```python
  from transformers import AutoModelForCausalLM, AutoTokenizer
  from peft import LoraConfig, get_peft_model, TaskType

  # 加载模型和分词器
  model_name = "gpt2"
  model = AutoModelForCausalLM.from_pretrained(model_name)
  tokenizer = AutoTokenizer.from_pretrained(model_name)

  # 配置 LoRA
  lora_config = LoraConfig(
      task_type=TaskType.CAUSAL_LM,
      r=8,
      lora_alpha=32,
      target_modules=["q_proj", "v_proj"],
      lora_dropout=0.1,
      bias="none"
  )

  # 使用 LoRA 微调模型
  model = get_peft_model(model, lora_config)
  model.print_trainable_parameters()

  # 微调代码...
  ```

---

### **6. PEFT 的局限性**
1. **特定任务限制**：
   - 在一些复杂任务中，PEFT 方法可能不如全量微调效果好。

2. **需要设计合适的模块**：
   - 不同任务需要选择和设计合适的 PEFT 技术。

3. **与模型架构相关**：
   - PEFT 技术可能需要对模型架构进行一定程度的修改。

---

### **7. 小结**
PEFT 是一个极具潜力的技术，特别适合在有限资源下对大模型进行微调。它在许多领域和任务中已显示出良好的效果，例如 LoRA 和 Adapter 模型已经成为高效微调的主流方法。

如果您需要实现高效微调，可以结合 Hugging Face 的 PEFT 库快速上手。

## GPT2使用peft样例

In [1]:
import subprocess
import os
# 设置环境变量, autodl一般区域
result = subprocess.run('bash -c "source /etc/network_turbo && env | grep proxy"', shell=True, capture_output=True, text=True)
output = result.stdout
for line in output.splitlines():
    if '=' in line:
        var, value = line.split('=', 1)
        os.environ[var] = value

如果您不确定模型中有哪些模块可以微调，可以打印模型结构：

In [2]:
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained("gpt2")

# 打印所有模块名称
for name, module in model.named_modules():
    print(name)

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]


transformer
transformer.wte
transformer.wpe
transformer.drop
transformer.h
transformer.h.0
transformer.h.0.ln_1
transformer.h.0.attn
transformer.h.0.attn.c_attn
transformer.h.0.attn.c_proj
transformer.h.0.attn.attn_dropout
transformer.h.0.attn.resid_dropout
transformer.h.0.ln_2
transformer.h.0.mlp
transformer.h.0.mlp.c_fc
transformer.h.0.mlp.c_proj
transformer.h.0.mlp.act
transformer.h.0.mlp.dropout
transformer.h.1
transformer.h.1.ln_1
transformer.h.1.attn
transformer.h.1.attn.c_attn
transformer.h.1.attn.c_proj
transformer.h.1.attn.attn_dropout
transformer.h.1.attn.resid_dropout
transformer.h.1.ln_2
transformer.h.1.mlp
transformer.h.1.mlp.c_fc
transformer.h.1.mlp.c_proj
transformer.h.1.mlp.act
transformer.h.1.mlp.dropout
transformer.h.2
transformer.h.2.ln_1
transformer.h.2.attn
transformer.h.2.attn.c_attn
transformer.h.2.attn.c_proj
transformer.h.2.attn.attn_dropout
transformer.h.2.attn.resid_dropout
transformer.h.2.ln_2
transformer.h.2.mlp
transformer.h.2.mlp.c_fc
transformer.h.2.mlp

在选择 `target_modules` 时，通常会根据模块的名称选择模型的特定部分，通常使用列表中最后一个点 `.` 后的字段名或整个路径名（如果需要更精确）。以下是对这些模块的详细分析和选择建议：

---

### **1. 分析模块结构**

从列表中可以看出，GPT-2 的模块层次分为以下几类：

1. **Embedding 层**：
   - `transformer.wte`：词嵌入层（Word Token Embeddings）。
   - `transformer.wpe`：位置嵌入层（Position Embeddings）。

2. **Transformer 编码器层**：
   - 每层编号为 `transformer.h.<层号>`（共 12 层）。
   - 每层中包含：
     - **层归一化**：
       - `transformer.h.<层号>.ln_1`：第一层归一化。
       - `transformer.h.<层号>.ln_2`：第二层归一化。
     - **自注意力模块**：
       - `transformer.h.<层号>.attn.c_attn`：注意力模块的 Query、Key 和 Value 投影。
       - `transformer.h.<层号>.attn.c_proj`：注意力的输出投影。
       - `transformer.h.<层号>.attn.attn_dropout`：注意力的 Dropout。
       - `transformer.h.<层号>.attn.resid_dropout`：残差的 Dropout。
     - **前馈网络模块（MLP）**：
       - `transformer.h.<层号>.mlp.c_fc`：MLP 的第一层全连接。
       - `transformer.h.<层号>.mlp.c_proj`：MLP 的第二层全连接（输出投影）。
       - `transformer.h.<层号>.mlp.act`：激活函数（如 GELU）。
       - `transformer.h.<层号>.mlp.dropout`：MLP 的 Dropout。

3. **最终层**：
   - `transformer.ln_f`：最终层归一化（LayerNorm）。
   - `lm_head`：语言建模头，用于生成预测的 token 分布。

---

### **2. 如何选择 `target_modules`**

#### **（1）常见目标模块**
- `transformer.h.<层号>.attn.c_attn`：对自注意力模块的 Query、Key 和 Value 投影层微调。
- `transformer.h.<层号>.attn.c_proj`：对注意力输出的投影层微调。
- `transformer.h.<层号>.mlp.c_fc`：对前馈网络的输入全连接层微调。
- `transformer.h.<层号>.mlp.c_proj`：对前馈网络的输出投影层微调。

#### **（2）推荐设置**
- **文本生成任务**：
  ```python
  target_modules = ["transformer.h.*.attn.c_attn", "transformer.h.*.attn.c_proj"]
  ```
  解释：
  - `*.attn.c_attn`：调整 Query、Key、Value 的生成。
  - `*.attn.c_proj`：调整注意力输出。

- **文本分类任务**：
  ```python
  target_modules = ["transformer.h.*.attn.c_attn"]
  ```
  解释：
  - 微调自注意力模块最重要的部分即可。

- **特定任务需要更细粒度控制**：
  - 仅微调某几层：
    ```python
    target_modules = ["transformer.h.0.attn.c_attn", "transformer.h.0.mlp.c_fc"]
    ```

#### **（3）通配符选择**
使用 `*` 通配符可以指定所有层的某些模块：
- `transformer.h.*.attn.c_attn`：所有层的 Query、Key 和 Value 投影。
- `transformer.h.*.mlp.*`：所有层的 MLP 模块。

---

### **3. 示例：指定多个模块**

```python
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,
    lora_alpha=32,
    target_modules=[
        "transformer.h.*.attn.c_attn",
        "transformer.h.*.mlp.c_fc"
    ],
    lora_dropout=0.1,
    bias="none"
)
```

- 这表示对所有层的 `attn.c_attn` 和 `mlp.c_fc` 模块进行 LoRA 微调。

---

### **4. 小提示：如何确定适合的模块**

1. **任务相关性**：
   - 文本生成：优先选择自注意力模块（如 `c_attn`）。
   - 文本分类：通常需要全局语义表示，选择 `attn.c_attn` 或 `mlp.c_fc`。

2. **性能与资源平衡**：
   - 如果显存有限，可以只微调部分层。例如，仅选择浅层和深层的模块：
     ```python
     target_modules = ["transformer.h.0.attn.c_attn", "transformer.h.11.attn.c_attn"]
     ```

3. **打印模块名称以调试**：
   - 确保选择的 `target_modules` 在模型中实际存在：
     ```python
     for name, _ in model.named_modules():
         if "c_attn" in name:
             print(name)
     ```

---

### **建议**
- 一般情况下，`c_attn` 和 `c_proj` 是首选模块。
- 使用 `transformer.h.*` 通配符可以轻松指定多层。
- 根据任务需求和资源限制灵活调整目标模块，以实现最佳性能和效率。

## LoraConfig具体配置

以下是对 `LoraConfig` 配置的更详细解释，特别是如何设置微调哪些参数、冻结哪些参数，以及一般如何选择这些设置：

---

### **1. `LoraConfig` 参数解析**

```python
lora_config = LoraConfig(
    task_type=TaskType.SEQ_CLS,  # 序列分类任务
    r=8,                         # 降低矩阵秩
    lora_alpha=32,               # LoRA 的 alpha 超参数
    target_modules=["c_attn"],   # GPT-2 中的自注意力模块
    lora_dropout=0.1,            # dropout 概率
    bias="none",                 # 是否微调偏置参数
)
```

#### **（1）`task_type`**
- 定义任务类型，用于指导 PEFT 的具体行为。
- **常见选项**：
  - `TaskType.CAUSAL_LM`：自回归语言建模（如 GPT 系列模型）。
  - `TaskType.SEQ_CLS`：序列分类（如情感分析）。
  - `TaskType.TOKEN_CLS`：标注任务（如命名实体识别）。
  - `TaskType.SEQ_2_SEQ_LM`：序列到序列任务（如翻译、摘要）。

**当前设置**：
- `TaskType.SEQ_CLS` 表示目标是文本分类任务。

---

#### **（2）`r`**
- 表示 LoRA 的 **秩**（rank），是降低矩阵秩的核心参数。
- LoRA 通过将模型的权重分解为两个低秩矩阵（`A` 和 `B`），只更新这两个矩阵。
- `r` 的值越大，微调能力越强，但需要的额外参数也越多。
- **典型范围**：`4` 至 `64`，大多数任务中 `8` 或 `16` 是常用值。

**当前设置**：
- `r=8` 表示使用低秩分解，并微调 8 维的参数矩阵。

---

#### **（3）`lora_alpha`**
- 是 LoRA 的一个缩放因子，用于调节两个低秩矩阵的更新速率。
- **公式**：实际更新 = LoRA 输出 × `lora_alpha / r`
- **典型范围**：`16` 至 `128`，较大任务中可以选择更高的值。

**当前设置**：
- `lora_alpha=32`，表示适中幅度的更新速率。

---

#### **（4）`target_modules`**
- 指定要应用 LoRA 微调的模块。
- **常见选择**：
  - 对 Transformer 模型中的 **注意力模块**（如 `query`、`key`、`value`）进行微调，因为这些模块对任务性能影响较大。
  - 对 GPT-2，通常选择 `c_attn`（GPT-2 中负责自注意力机制的组合模块）。

**当前设置**：
- `target_modules=["c_attn"]` 表示只对 GPT-2 的自注意力模块 `c_attn` 应用 LoRA。

---

#### **（5）`lora_dropout`**
- 表示 LoRA 层的 dropout 概率，用于防止过拟合。
- **典型范围**：`0.0` 至 `0.1`，视任务复杂性而定。

**当前设置**：
- `lora_dropout=0.1`，表示有 10% 的概率随机丢弃 LoRA 层的输出。

---

#### **（6）`bias`**
- 决定是否微调偏置参数。
- **选项**：
  - `"none"`：不微调任何偏置。
  - `"all"`：微调所有偏置。
  - `"lora_only"`：只微调 LoRA 层的偏置。

**当前设置**：
- `bias="none"`，表示所有偏置参数保持冻结。

---

### **5. 总结建议**
- **微调的参数**：优先选择模型中注意力相关模块。
- **冻结的参数**：大部分参数默认冻结以节省显存。
- **配置选择**：根据任务复杂性调整 `r` 和 `target_modules`。
- **推荐起点**：
  - 文本分类：`target_modules=["c_attn"]`, `r=8`, `lora_dropout=0.1`。
  - 文本生成：`target_modules=["q_proj", "v_proj"]`, `r=16`, `lora_dropout=0.1`。

通过这些设置，LoRA 可以在参数量极小的情况下实现高效微调，适合各种任务场景。

In [1]:
import subprocess
import os
# 设置环境变量, autodl一般区域
result = subprocess.run('bash -c "source /etc/network_turbo && env | grep proxy"', shell=True, capture_output=True, text=True)
output = result.stdout
for line in output.splitlines():
    if '=' in line:
        var, value = line.split('=', 1)
        os.environ[var] = value

In [7]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model, TaskType
from datasets import load_dataset
from sklearn.metrics import accuracy_score, precision_recall_fscore_support
from transformers import DataCollatorWithPadding

# **1. 加载模型和分词器**
model_name = "dnagpt/dna_gpt2_v0"  # 基础模型
num_labels = 2       # 二分类任务
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels)
tokenizer = AutoTokenizer.from_pretrained(model_name)

tokenizer.pad_token = tokenizer.eos_token
model.config.pad_token_id = tokenizer.pad_token_id


# **2. 定义数据集**
# 示例数据集：dna_promoter_300
dataset = load_dataset("dnagpt/dna_promoter_300")['train'].train_test_split(test_size=0.1)

# **3. 数据预处理**
def preprocess_function(examples):
    examples['label'] = [int(item) for item in examples['label']]
    return tokenizer(
        examples["sequence"], truncation=True, padding="max_length", max_length=128
    )

tokenized_datasets = dataset.map(preprocess_function, batched=True)
#tokenized_datasets = tokenized_datasets.rename_column("label", "labels")  # Hugging Face Trainer 要求标签列名为 'labels'

# 4. 创建一个数据收集器，用于动态填充和遮蔽
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# **4. 划分数据集**
train_dataset = tokenized_datasets["train"]
test_dataset = tokenized_datasets["test"]

# **5. 配置 LoRA**
lora_config = LoraConfig(
    task_type=TaskType.SEQ_CLS,  # 序列分类任务
    r=8,                         # 降低矩阵秩
    lora_alpha=32,               # LoRA 的 alpha 超参数
    target_modules=["c_attn"],   # GPT-2 中的自注意力模块
    lora_dropout=0.1,            # dropout 概率
    bias="none",                 # 是否微调偏置参数
)

# 使用 LoRA 包装模型
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 打印可训练的参数信息

Some weights of GPT2ForSequenceClassification were not initialized from the model checkpoint at dnagpt/dna_gpt2_v0 and are newly initialized: ['score.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Map:   0%|          | 0/5920 [00:00<?, ? examples/s]

trainable params: 296,448 || all params: 109,180,416 || trainable%: 0.2715




In [8]:
# **6. 计算指标**
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    preds = predictions.argmax(axis=-1)
    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="binary")
    acc = accuracy_score(labels, preds)
    return {"accuracy": acc, "precision": precision, "recall": recall, "f1": f1}

# **7. 定义训练参数**
training_args = TrainingArguments(
    output_dir="./gpt2_lora_text_classification",  # 模型保存路径
    evaluation_strategy="epoch",                 # 每个 epoch 评估一次
    save_strategy="epoch",                       # 每个 epoch 保存一次
    learning_rate=2e-5,                          # 学习率
    per_device_train_batch_size=8,               # 每设备的批量大小
    per_device_eval_batch_size=8,                # 每设备评估的批量大小
    num_train_epochs=10,                          # 训练轮数
    weight_decay=0.01,                           # 权重衰减
    logging_dir="./logs",                        # 日志路径
    fp16=True,                                   # 启用混合精度训练
    save_total_limit=2,                          # 保留最多两个检查点
    load_best_model_at_end=True,                 # 加载最佳模型
    metric_for_best_model="accuracy",            # 根据准确率选择最佳模型
    greater_is_better=True,
)

# **8. 定义 Trainer**
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

# **9. 开始训练**
trainer.train()

# **10. 保存模型**
model.save_pretrained("./gpt2_lora_text_classification")
tokenizer.save_pretrained("./gpt2_lora_text_classification")

print("训练完成，模型已保存至 ./gpt2_lora_text_classification")

  trainer = Trainer(


Epoch,Training Loss,Validation Loss,Accuracy,Precision,Recall,F1
1,0.2997,0.325549,0.897635,0.908117,0.885483,0.896658
2,0.304,0.290004,0.904899,0.889069,0.925901,0.907111
3,0.3101,0.289658,0.90625,0.892138,0.924891,0.908219


训练完成，模型已保存至 ./gpt2_lora_text_classification


In [None]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from peft import PeftModel

# 加载分词器
model_path = "./gpt2_lora_text_classification"
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 加载微调后的 PEFT 模型
base_model = AutoModelForSequenceClassification.from_pretrained("gpt2", num_labels=2)
model = PeftModel.from_pretrained(base_model, model_path)

In [None]:
import torch

def predict(texts, model, tokenizer):
    """
    使用微调后的 PEFT 模型进行推理。
    
    Args:
        texts (list of str): 待分类的文本列表。
        model (PeftModel): 微调后的模型。
        tokenizer (AutoTokenizer): 分词器。
    
    Returns:
        list of dict: 每个文本的预测结果，包括 logits 和预测的类别标签。
    """
    # 对输入文本进行分词和编码
    inputs = tokenizer(
        texts,
        padding=True,
        truncation=True,
        max_length=512,
        return_tensors="pt"
    )
    
    # 将输入数据移动到模型的设备上（CPU/GPU）
    inputs = {key: value.to(model.device) for key, value in inputs.items()}
    
    # 模型推理
    model.eval()
    with torch.no_grad():
        outputs = model(**inputs)
    
    # 获取 logits 并计算预测类别
    logits = outputs.logits
    probs = torch.nn.functional.softmax(logits, dim=-1)
    predictions = torch.argmax(probs, dim=-1)
    
    # 返回每个文本的预测结果
    results = [
        {"text": text, "logits": logit.tolist(), "predicted_class": int(pred)}
        for text, logit, pred in zip(texts, logits, predictions)
    ]
    return results


In [None]:
Text: This movie was fantastic! I loved every part of it.
Predicted Class: 1
Logits: [-2.345, 3.567]

Text: The plot was terrible and the acting was worse.
Predicted Class: 0
Logits: [4.123, -1.234]
