## 加载数据：Hello, CIFAR-10!

我们先从最常见的计算机视觉入门数据集之一开始：CIFAR-10。它包含 60000 张 32×32 的彩色小图片，分属于 10 个类别（飞机、汽车、猫、狗……）。

来看第一段代码：

In [None]:
import torch
import torchvision
import torch.nn as nn
from torch.utils.data import DataLoader
import torch.optim as optim
import os

train_data = torchvision.datasets.CIFAR10(root='../data/cifar-10-batches-py', train=True, transform=torchvision.transforms.ToTensor(),
                                          download=False)
test_data = torchvision.datasets.CIFAR10(root='../data/cifar-10-batches-py', train=False, transform=torchvision.transforms.ToTensor(),
                                         download=False)

逐行拆解一下：

import torch, import torchvision, import torch.nn as nn：
导入 PyTorch 核心库、计算机视觉工具包 torchvision，以及神经网络模块 torch.nn。

torchvision.datasets.CIFAR10(...)：
download=True会在路径下没有数据集的时候去尝试下载。我们需要提前下载数据集放到指定路径下。

train=True：加载训练集。

train=False：加载测试集。

transform=torchvision.transforms.ToTensor()：把 PIL 图片转换成 PyTorch 的 Tensor，并把像素归一化到 [0, 1]。

DataLoader(...)：
DataLoader 帮你自动按批次（batch）打包数据、打乱顺序等。

batch_size=64 表示每次训练从数据集中取 64 张图片组成一个 batch。

最后我们打印出训练集和测试集的长度，验证数据加载是否成功。

In [None]:
from torch.utils.data import DataLoader
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
print("训练集的长度:{}".format(len(train_data)))
print("测试集的长度:{}".format(len(test_data)))

## 搭建一个简单的卷积神经网络

既然有了数据，我们需要一个模型来“看图识物”。下面是函数定义：

nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding)：卷积层，用于提取特征。

    in_channels：输入的通道数（对于彩色图像是3）。

    out_channels：输出的通道数。

    kernel_size：卷积核的大小。

    stride：步长，决定每次卷积滑动的步幅。

    padding：填充，确保输入和输出的空间维度一致。

nn.MaxPool2d(kernel_size)：最大池化层，用于下采样，减少特征图的空间大小。

    kernel_size：池化窗口的大小，通常是 2x2 或 3x3。

nn.Flatten()：展平层，将多维的特征图展平成一维，以便输入到全连接层。

nn.Linear(in_features, out_features)：全连接层，输入与输出都是一维向量。

    in_features：输入的特征数量。

    out_features：输出的特征数量。

# Your Turn！


In [None]:
import torch
import torch.nn as nn

class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()

        # 使用 nn.Sequential 按顺序堆叠层
        self.model = nn.Sequential(
            # TODO 1: 第一层卷积层（输入3通道，输出32通道，卷积核5x5，步长1，padding2）

            # TODO 2: 第一层最大池化层（池化窗口大小2x2）

            # TODO 3: 第二层卷积层（输入32通道，输出32通道，卷积核5x5）

            # TODO 4: 第二层最大池化层（池化窗口大小2x2）

            # TODO 5: 第三层卷积层（输入32通道，输出64通道，卷积核5x5）

            # TODO 6: 第三层最大池化层（池化窗口大小2x2）

            # TODO 7: 展平层，将多维的特征图展平成一维

            # TODO 8: 第一个全连接层（输入64*4*4，输出64）
            
            # TODO 9: 第二个全连接层（输入64，输出10）
        )

    def forward(self, x):
        # 前向传播通过 `self.model` 进行
        return self.model(x)

# 测试模型结构
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = Model().to(device)
print(model)

这里发生了什么？

class Model(nn.Module)：
在 PyTorch 中，所有神经网络模型都应该继承自 nn.Module。

forward 函数：
定义前向传播的计算逻辑。在这里，我们直接把输入 x 丢进 self.model 里。

device = torch.device('cpu') 和 model.to(device)：
把模型放到指定的设备上。现在用的是 CPU，如果你有 GPU，也可以改成 'cuda'。

## 损失函数和优化器：告诉模型“哪里错了”

有了模型，还需要告诉它 “预测错了要怎么惩罚”，以及 “如何更新自己”。

| 损失函数                 | 适用场景            
| ------------------------ | --------------- 
| `nn.CrossEntropyLoss`    | 多分类问题           
| `nn.MSELoss`             | 回归问题           
| `nn.BCELoss`             | 二分类问题（概率值输入）    
| `nn.BCEWithLogitsLoss`   | 二分类问题（logits输入） 
| `nn.NLLLoss`             | 多分类问题（log概率）    
| `nn.SmoothL1Loss`        | 回归问题（鲁棒性强）      
| `nn.KLDivLoss`           | 概率分布相似性（VAE等）   
| `nn.CosineEmbeddingLoss` | 相似度学习（度量学习）     
| `nn.MarginRankingLoss`   | 排序问题            
| `nn.HingeEmbeddingLoss`  | 支持向量机（SVM）训练    


In [None]:
# 损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

nn.CrossEntropyLoss()：
这是分类问题最常用的损失函数之一。它会比较模型输出的类别分布和真实标签之间的差异，差异越大，损失越高。

你也可以尝试换用其他损失函数

optim.SGD(...)：
使用随机梯度下降（Stochastic Gradient Descent）来更新参数。

model.parameters()：告诉优化器要更新哪些参数（就是模型里的卷积核和权重）。

lr=0.01：学习率，控制每次参数更新的步伐大小。

## 训练循环：让模型一轮一轮变聪明

核心训练逻辑在下面这段代码中：

In [None]:
%matplotlib inline

In [None]:
import os
import torch
import matplotlib.pyplot as plt
from IPython.display import clear_output

num_epochs = 30
losses = []
accuracies = []

save_dir = "../data/models/CIFAR"
os.makedirs(save_dir, exist_ok=True)

for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    correct_predictions = 0
    total_samples = 0
    
    for inputs, labels in train_dataloader:
        inputs, labels = inputs.to(device), labels.to(device)

        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, labels)

        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        _, predicted = torch.max(outputs, 1)
        correct_predictions += (predicted == labels).sum().item()
        total_samples += labels.size(0)

    avg_loss = running_loss / len(train_dataloader)
    accuracy = 100 * correct_predictions / total_samples

    losses.append(avg_loss)
    accuracies.append(accuracy)

    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}, Accuracy: {accuracy:.2f}%")

    # 保存模型
    model_save_path = os.path.join(save_dir, f"model_epoch_{epoch+1}.pth")
    torch.save(model.state_dict(), model_save_path)
    print(f"模型已保存为 {model_save_path}")

    # ===== 关键：在 Jupyter 中动态更新图像 =====
    clear_output(wait=True)     # 清空上一轮的输出（包括图像和文字）
    plt.figure(figsize=(12, 5))

    # Loss 曲线
    plt.subplot(1, 2, 1)
    plt.plot(range(1, len(losses)+1), losses)
    plt.title("Training Loss")
    plt.xlabel("Epoch")
    plt.ylabel("Loss")

    # Accuracy 曲线
    plt.subplot(1, 2, 2)
    plt.plot(range(1, len(accuracies)+1), accuracies)
    plt.title("Training Accuracy")
    plt.xlabel("Epoch")
    plt.ylabel("Accuracy (%)")

    plt.tight_layout()
    plt.show()
    # ===== 关键结束 =====


一层一层看：

for epoch in range(num_epochs):：
一共训练 30 轮（epoch）。一轮就是完整地扫一遍训练集。

model.train()：
把模型设置成训练模式。有些层（如 Dropout、BatchNorm）在训练和测试时行为不同，这个调用可以确保它们处于“训练状态”。

for inputs, labels in train_dataloader:：
从 DataLoader 中一批一批取出图片和对应的标签。

optimizer.zero_grad()：
在每次反向传播前，先把上一次累积的梯度清零。

前向传播：

outputs = model(inputs)
loss = criterion(outputs, labels)


outputs 的形状通常是 [batch_size, 10]，每一行是对 10 个类别的预测。

criterion 会比较预测和标签，返回一个标量损失。

反向传播 & 参数更新：

loss.backward()
optimizer.step()


loss.backward()：自动求出每个参数的梯度。

optimizer.step()：根据梯度更新参数，让模型在下一次预测时稍微聪明一点。

统计指标：

running_loss += loss.item()：记录这一轮的总损失。

torch.max(outputs, 1)：找出每行中概率最大的那个类别，作为模型的预测结果。

(predicted == labels).sum().item()：计算这一批中有多少预测正确。

最后计算平均损失 avg_loss 和准确率 accuracy 并打印出来。

## 保存模型：留住训练成果

训练完一轮，我们希望把模型的状态保存下来，这样以后可以直接加载使用，而不必每次都从头再训一遍。

model.state_dict()：
只保存模型中的参数（权重和偏置），而不是整个类定义。

torch.save(...)：
把这些参数写入到 .pth 文件中。
文件名里加上 epoch，可以方便地在不同训练阶段保存多个版本，例如 model_epoch_1.pth、model_epoch_10.pth。

## 使用训练好的模型做预测

训练和保存都搞定了，接下来我们想看看：模型能不能正确识别一张从未见过的测试图片？

我们重新定义同样结构的模型（加载参数时结构必须一致）：

In [None]:
import torchvision
from torch import nn
import torch
from PIL import Image
import random

# 定义模型
class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        # 使用 nn.Sequential 按顺序堆叠层
        self.model = nn.Sequential(
            # 这里复用你之前定义并训练的模型
        )
    def forward(self, x):
        x = self.model(x)
        return x

# 定义CIFAR-10类别
CIFAR10_CLASSES = [
    'airplane', 'automobile', 'bird', 'cat', 'deer', 
    'dog', 'frog', 'horse', 'ship', 'truck'
]

# 加载CIFAR-10测试集
transform = torchvision.transforms.Compose([
    torchvision.transforms.Resize((32, 32)),
    torchvision.transforms.ToTensor()
])



这里我们做了两件事：

再次使用 torchvision.datasets.CIFAR10 加载测试集；

利用 transform 确保图片大小为 32×32，并转换为 Tensor。

## 随机选一张图来看看

我们从测试集中随机选一张图片，展示它，并让模型来猜一猜：

In [None]:
test_data = torchvision.datasets.CIFAR10(root='../data/cifar-10-batches-py', train=False, transform=transform, download=True)
test_dataloader = torch.utils.data.DataLoader(test_data, batch_size=1, shuffle=True)

# 随机选取一张测试集中的图片
random_idx = random.randint(0, len(test_data) - 1)  # 随机索引
image, label = test_data[random_idx]  # 获取该索引的图片和标签

# 将 Tensor 转换回 PIL Image 以便显示
to_pil = torchvision.transforms.ToPILImage()
image_pil = to_pil(image)
# 调整图片尺寸
image_pil = image_pil.resize((256, 256))  # 调整图片大小，(512, 512) 是示例，可以根据需要修改

# 显示调整后的图片
image_pil.show()




## 加载模型参数并进行推理

最后，加载我们之前保存的模型权重，并对刚才选出的那张图片进行分类：

In [None]:
# 加载模型
model = Model()  # 先初始化模型
model.load_state_dict(torch.load('../data/models/CIFAR/model_epoch_5.pth'))  # 加载模型参数

# 调整图片形状
image = image.unsqueeze(0)  # 增加一个批次维度

# 设置模型为评估模式
model.eval()

# 不计算梯度
with torch.no_grad():
    # 如果使用GPU，确保模型和输入都在同一个设备上
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)
    image = image.to(device)
    
    # 前向推理
    output = model(image)

# 输出预测结果
predicted_class = output.argmax(1).item()  # 获取预测类别的索引
print(f"实际标签: {CIFAR10_CLASSES[label]}")
print(f"预测类别: {CIFAR10_CLASSES[predicted_class]}")  # 输出预测的类别名称

## 轮到你动手了！

现在你已经看到一个完整的 PyTorch 视觉项目从 数据加载 → 模型定义 → 训练与保存 → 加载模型做推理 的完整流程。接下来你可以尝试：

#### 1.修改网络结构（例如增加卷积层、增加通道数）看看准确率会不会提高；

#### 2.调整 num_epochs 或者 learning rate，感受训练曲线的变化；

#### 3.在推理阶段多随机几张图片，观察模型容易搞混哪些类别。