# 微调（Fine-Tuning）

---

## 一、微调是什么？

> 别人在大数据集上训练好了一个模型，拿过来，改一改最后一层，在自己的小数据集上接着训练。

**为什么这样做？**

- 你自己的数据通常很少（比如5万张、100类）
- 从零训练一个好模型需要海量数据（ImageNet有120万张）
- 别人训练好的模型已经学会了"看图片"的能力，你只需要在此基础上微调

---

## 二、神经网络的两部分

把任何一个分类网络想成两块：

```
图片 → [特征提取（很多层）] → [分类器（最后一层全连接）] → 预测结果
```

| 部分 | 作用 | 微调时怎么处理 |
|:--|:--|:--|
| 特征提取（前面所有层） | 把像素变成有意义的特征 | **从预训练模型复制过来**（不是随机初始化） |
| 分类器（最后一层FC） | 根据特征判断类别 | **随机初始化**（因为你的类别和ImageNet不同） |

**核心想法：** 特征提取的能力是通用的（边缘、纹理、形状……），换个数据集也能用。但分类器是跟类别绑定的，必须重新来。

---

## 三、微调 vs 从零训练

| | 微调 | 从零训练 |
|:--|:--|:--|
| 特征提取层初始化 | 用预训练权重 | 随机 |
| 最后一层初始化 | 随机（类别数不同） | 随机 |
| 学习率 | 小（已经接近最优了） | 正常大小 |
| 训练轮数 | 少（1~5个epoch） | 多（几十上百个epoch） |
| 最终精度（热狗数据集） | **~94%** | ~84% |

**就改了一个地方：初始化用预训练权重而不是随机，精度差了10个点。**

---

## 四、代码实现（逐行解释）

### 第1步：数据准备

```python
# 这里的 normalize 必须和 ImageNet 预训练时用的一样
# 因为预训练模型"习惯"了这种输入分布
normalize = transforms.Normalize(
    mean=[0.485, 0.456, 0.406],   # ImageNet 三个通道的均值
    std=[0.229, 0.224, 0.225]     # ImageNet 三个通道的标准差
)
```

> **为什么测试也要 normalize？** 不是为了增广，而是预训练模型训练时输入就是 normalize 过的。你喂原始数据进去，它"看不懂"。

```python
train_transform = transforms.Compose([
    transforms.RandomResizedCrop(224),     # ImageNet模型要求224×224
    transforms.RandomHorizontalFlip(),
    transforms.ToTensor(),
    normalize,                              # 和预训练保持一致
])

test_transform = transforms.Compose([
    transforms.Resize(256),        # 短边缩放到256，长边等比例跟着变
    transforms.CenterCrop(224),    # 从中心裁出224×224
    transforms.ToTensor(),
    normalize,
])

train_dataset = datasets.ImageFolder('data/hotdog/train', transform=train_transform)
test_dataset  = datasets.ImageFolder('data/hotdog/test',  transform=test_transform)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader  = DataLoader(test_dataset,  batch_size=64)
```

---

### 第2步：加载预训练模型并修改最后一层

```python
from torchvision import models
import torch.nn as nn

# pretrained=True：不仅下载模型结构，还下载在ImageNet上训练好的权重
pretrained_net = models.resnet18(pretrained=True)
```

> **`pretrained=True` vs `pretrained=False`：**
> - `True`：权重是ImageNet上训练好的（微调用这个）
> - `False`：权重是随机初始化的（从零训练用这个）

```python
# 看一下最后一层长什么样
print(pretrained_net.fc)
# Linear(in_features=512, out_features=1000, bias=True)
# 输入512维特征，输出1000类（ImageNet的1000个类别）
```

```python
# 我们的任务只有2类（热狗 / 不是热狗），所以要替换最后一层
pretrained_net.fc = nn.Linear(512, 2)

# 只对新的最后一层做随机初始化
nn.init.xavier_uniform_(pretrained_net.fc.weight)
```

> **`nn.Linear(512, 2)`：** 创建一个新的全连接层，输入512维，输出2类。这一层的权重是随机的，前面所有层的权重还是ImageNet预训练的。

> **`nn.init.xavier_uniform_()`：** 一种比较好的随机初始化方法，比默认的随机效果好一点。`_` 结尾表示原地修改。

**执行完这两行后，模型的状态：**
```
前面所有层 → ImageNet预训练权重（已经很好了）
最后一层FC → 随机初始化（需要重新学）
```

---

### 第3步：设置不同的学习率

**关键技巧：** 前面的层已经很好了，用小学习率微调；最后一层是随机的，用大学习率快速学。

```python
# 把参数分成两组
params_1x = [p for name, p in pretrained_net.named_parameters()
             if 'fc' not in name]   # 不包含'fc'的 = 前面所有层

optimizer = torch.optim.SGD([
    {'params': params_1x, 'lr': 5e-5},              # 前面的层：小学习率
    {'params': pretrained_net.fc.parameters(), 'lr': 5e-4},  # 最后一层：10倍学习率
], momentum=0.9, weight_decay=0.001)
```

> **语法解释：**
> - `named_parameters()`：返回 `(参数名, 参数值)` 的迭代器
> - `'fc' not in name`：名字里不包含 `'fc'` 的参数 = 除最后一层外的所有参数
> - SGD 的参数列表可以传**字典列表**，每组参数用不同的学习率

---

### 第4步：训练（和之前完全一样）

```python
loss_fn = nn.CrossEntropyLoss()
num_epochs = 5   # 微调只需要很少的epoch

for epoch in range(num_epochs):
    pretrained_net.train()
    for X, y in train_loader:
        output = pretrained_net(X)
        loss = loss_fn(output, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
```

**训练代码和从零训练一模一样，区别全在前面的初始化和学习率设置上。**

---

## 五、效果对比

| | 微调（pretrained=True） | 从零训练（pretrained=False） |
|:--|:--|:--|
| epoch 1 精度 | 已经很高了 | 还在慢慢爬 |
| epoch 5 精度 | **~94%** | ~84% |
| 是否还需要更多epoch | 不需要，1-2个就够了 | 还在涨，但很慢 |

---

## 六、整体流程总结

```
微调三步：
  1. 加载预训练模型        pretrained=True
  2. 替换最后一层          fc = nn.Linear(512, 你的类别数)
  3. 分组设学习率          前面的层用小学习率，最后一层用大学习率

其余（数据加载、训练循环、loss计算）和从零训练完全相同。
```

---

## 七、实际建议

**几乎所有情况下，都应该从微调开始，而不是从零训练。**

- 数据少 → 微调效果远好于从零训练
- 数据多 → 微调至少不会更差，而且收敛更快
- 从零训练大模型是大公司/学术界的事，个人和应用层面用微调就够了