# 🧩 torch.nn 速查表

---

## 🔹 容器
- `nn.Module` → 基类
- `nn.Sequential` → 顺序容器（按顺序堆叠层）

- `nn.ModuleDict` → 模块字典（key-value 存储子模块）

---

## 🔹 常见层
| 层名称 | 主要参数 | 作用 | 使用场景推荐 |
|--------|----------|------|--------------|
| `nn.Linear(in_features, out_features, bias=True)` | `in_features`: 输入维度<br>`out_features`: 输出维度<br>`bias`: 是否加偏置 | 全连接层（线性变换） | 用于 MLP、分类器最后一层、特征映射 |
| `nn.Conv1d(in_c, out_c, kernel_size, stride=1, padding=0)` | `in_c`: 输入通道数<br>`out_c`: 输出通道数<br>`kernel_size`: 卷积核大小<br>`stride`: 步长<br>`padding`: 填充 | 一维卷积 | 常用于文本/时间序列特征提取 |
| `nn.Conv2d(in_c, out_c, kernel_size, stride=1, padding=0)` | 同上 | 二维卷积 | 常用于图像特征提取 (CNN) |
| `nn.Conv3d(in_c, out_c, kernel_size, stride=1, padding=0)` | 同上 | 三维卷积 | 视频、医学图像 (MRI/CT) |
| `nn.ConvTranspose1d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv1d | 反卷积 (转置卷积) | 常用于生成模型、序列解码 |
| `nn.ConvTranspose2d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv2d | 二维转置卷积 | 图像上采样 (GAN/Segmentation) |
| `nn.ConvTranspose3d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv3d | 三维转置卷积 | 视频/3D 重建 |
| `nn.RNN(input_size, hidden_size, num_layers=1, batch_first=True)` | `input_size`: 输入特征维度<br>`hidden_size`: 隐藏层大小<br>`num_layers`: 堆叠层数 | 循环神经网络 | 处理短序列，简单 NLP/时间序列 |
| `nn.LSTM(input_size, hidden_size, num_layers=1, batch_first=True)` | 同 RNN，内部有 `cell state` | 长短期记忆网络 | NLP 序列建模，长依赖任务 |
| `nn.GRU(input_size, hidden_size, num_layers=1, batch_first=True)` | 同 RNN，简化版 LSTM | 门控循环单元 | NLP，推荐比 RNN 更优先 |
| `nn.BatchNorm1d(num_features)` | `num_features`: 通道数 | 一维批归一化 | 序列/表格特征 |
| `nn.BatchNorm2d(num_features)` | `num_features`: 通道数 | 二维批归一化 | CNN 图像卷积输出 |
| `nn.BatchNorm3d(num_features)` | `num_features`: 通道数 | 三维批归一化 | 视频、3D 图像 |
| `nn.LayerNorm(normalized_shape)` | `normalized_shape`: 要归一化的维度 | 层归一化 | NLP Transformer，RNN，稳定训练 |
| `nn.GroupNorm(num_groups, num_channels)` | `num_groups`: 分组数<br>`num_channels`: 总通道数 | 分组归一化 | 适合小 batch 的图像任务 |
| `nn.InstanceNorm(num_features)` | `num_features`: 通道数 | 实例归一化 | 风格迁移，图像生成 |
| `nn.Dropout(p=0.5)` | `p`: 丢弃概率 | 随机丢弃神经元 | 全连接层防过拟合 |
| `nn.Dropout2d(p=0.5)` | `p`: 丢弃概率 | 丢弃整张 feature map | CNN 模型防过拟合 |
| `nn.Dropout3d(p=0.5)` | `p`: 丢弃概率 | 丢弃 3D 特征块 | 视频/3D CNN |
| `nn.Embedding(num_embeddings, embedding_dim)` | `num_embeddings`: 词表大小<br>`embedding_dim`: 向量维度 | 嵌入层（索引 → 向量） | NLP 词向量，ID 特征编码 |


---

## 🔹 1️⃣激活函数
| 激活函数             | 数学公式                                      | 输出范围       | 特点           | 优点                            | 缺点              | 常用场景            |
| ---------------- | ----------------------------------------- | ---------- | ------------ | ----------------------------- | --------------- | --------------- |
| **ReLU**         | $f(x) = \max(0, x)$                       | \[0, ∞)    | 稀疏激活，简单高效    | 收敛快，梯度传递好                     | 负值死区（Dead ReLU） | CNN、全连接网络       |
| **LeakyReLU**    | $f(x) = x$ if $x>0$, $\alpha x$ if $x<=0$ | (-∞, ∞)    | 改进 ReLU 死区问题 | 避免梯度消失                        | 需调 α 参数         | CNN、深层网络        |
| **PReLU**        | 类似 LeakyReLU，但 α 可训练                      | (-∞, ∞)    | 自适应负区间       | 自动学习最优负斜率                     | 增加参数            | CNN、ResNet 等    |
| **ELU**          | $x$ if $x>0$, $\alpha(e^x-1)$ if $x<=0$   | (-α, ∞)    | 平滑，负值收敛      | 减少偏移，梯度流好                     | 稍慢，需调 α         | 深层网络            |
| **SiLU / Swish** | $x \cdot sigmoid(x)$                      | (-∞, ∞)    | 平滑，可微        | 收敛稳定，Transformer、EfficientNet | 计算略慢            | CNN、Transformer |
| **GELU**         | $x \cdot Φ(x)$                            | (-∞, ∞)    | 平滑，概率保留      | Transformer/NLP 高效            | 计算稍慢            | BERT, GPT, ViT  |
| **Sigmoid**      | $1 / (1+e^{-x})$                          | (0, 1)     | 非线性，平滑       | 输出概率，易解释                      | 梯度消失，饱和慢        | 二分类输出层          |
| **Tanh**         | $(e^x - e^{-x}) / (e^x + e^{-x})$         | (-1, 1)    | 平滑，对称        | 归一化输入                         | 梯度消失            | RNN, 中间层非线性     |
| **Softmax**      | $\sigma(x_i) = e^{x_i}/\sum e^{x_j}$      | (0,1), Σ=1 | 多分类概率输出      | 输出可直接概率化                      | 只用于最后分类层        | 多分类任务输出层        |

---
## 2️⃣ 激活函数选择指南
### (1) 隐藏层激活函数
| 场景                      | 推荐函数                            | 原因                     |
| ----------------------- | ------------------------------- | ---------------------- |
| CNN 卷积层                 | ReLU / LeakyReLU / PReLU / GELU | 简单高效，梯度流好              |
| 深层网络                    | ELU / GELU / SiLU               | 平滑，可缓解梯度消失，训练稳定        |
| RNN / LSTM 中间层          | Tanh / ReLU                     | 保持输入均值居中，稳定训练          |
| Transformer / Attention | GELU / SiLU                     | 平滑激活，训练稳定，NLP/ViT 经典选择 |

### (2) 输出层激活函数
| 任务类型  | 推荐函数               | 原因          |
| ----- | ------------------ | ----------- |
| 二分类   | Sigmoid            | 输出概率 (0\~1) |
| 多分类   | Softmax            | 输出类别概率，互斥   |
| 回归    | None / ReLU / Tanh | 根据目标范围调整    |
| 多标签分类 | Sigmoid            | 每个标签独立概率    |

---
### 3️⃣ 选择建议

1、默认选择

- 隐藏层：ReLU（简单高效）

- Transformer / NLP：GELU

- 输出层：根据任务类型选择 Sigmoid / Softmax

2、考虑梯度消失问题

- 如果网络深层或负值可能过多 → 使用 LeakyReLU, ELU, GELU

3、计算效率 vs 平滑性

- CNN、移动端可优先 ReLU

- NLP / Transformer 更注重训练稳定性 → GELU / SiLU

4、实验验证

- 对新模型，最好尝试两三种激活函数对比收敛速度和最终性能


---

### 📌 **解释**：
- **隐藏层推荐**：  
  - 默认 → `ReLU`  
  - 想避免“神经元死亡” → `LeakyReLU` / `ELU`  
  - NLP / Transformer 系列 → `GELU` / `SiLU`  
  - 特殊情况（自归一化网络） → `SELU`  

- **输出层推荐**：  
  - 二分类 → `Sigmoid`  
  - 多分类 → `Softmax`（一般直接用 `nn.CrossEntropyLoss()`，内部会处理）  
  - 多分类 + 需要 log 概率 → `LogSoftmax` + `NLLLoss`  
  - 回归 → **不加激活函数**（线性输出），如果要限制范围，可以用 `Tanh`  

---
![激活函数输出值示意图](激活函数输出值示意图.png)

---

## 🔹 损失函数
| 损失函数 | 解释 |
|----------|------|
| `nn.MSELoss()` | **均方误差（MSE）**，常用于回归。 |
| `nn.L1Loss()` | **平均绝对误差（MAE）**，比 MSE 对异常值更鲁棒|
| `nn.CrossEntropyLoss()` | **交叉熵损失**，多分类常用，内部包含 `LogSoftmax + NLLLoss`，输入应为 logits（未过 softmax 的值）。 |
| `nn.NLLLoss()` | **负对数似然损失**，输入必须是 log softmax 概率，通常和 `nn.LogSoftmax` 搭配使用。 |
| `nn.BCELoss()` | **二分类交叉熵损失**，输入必须是 [0,1] 概率（通常先过 sigmoid）。 |
| `nn.BCEWithLogitsLoss()` | **带 Logits 的二分类交叉熵损失**，内部集成 sigmoid，更稳定，推荐替代 `BCELoss`。 |
| `nn.HingeEmbeddingLoss()` | **合页嵌入损失**，用于相似度学习，衡量样本对是否相似（+1）或不相似（-1）。 |
| `nn.MarginRankingLoss()` | **排序边界损失**，用于排序任务，约束：\(\max(0, -y \cdot (x1 - x2) + margin)\)。 |
| `nn.TripletMarginLoss()` | **三元组损失**，常用于人脸识别/度量学习，约束：\( d(anchor, positive) + margin < d(anchor, negative)\)。 |
| `nn.KLDivLoss()` | **KL 散度损失**，度量两个概率分布差异，常用于知识蒸馏、概率建模。 |



---

## 🔹 池化
- `nn.MaxPool1d/2d/3d`
- `nn.AvgPool1d/2d/3d`
- `nn.AdaptiveAvgPool2d`
- `nn.AdaptiveMaxPool2d`


# 1. 容器（Containers）

## 🔹 1. nn.Module 概念

nn.Module = 神经网络组件的基类。

可以表示 单个层（如线性层、卷积层），也可以表示 整个网络（由很多子层组合）。

所有 torch.nn 的层和损失函数，都是 nn.Module 的子类。

---

## 🔹 2. nn.Module 的核心方法 & 属性
| 方法/属性                          | 作用                          |
| ------------------------------ | --------------------------- |
| `__init__()`                   | 构造函数，用于定义层和参数               |
| `forward(input)`               | 前向传播逻辑，定义输入如何计算输出           |
| `.parameters()`                | 返回所有需要梯度的参数（`nn.Parameter`） |
| `.named_parameters()`          | 带名字的参数迭代器                   |
| `.children()`                  | 迭代直接子模块                     |
| `.modules()`                   | 递归迭代所有子模块（包含自身）             |
| `.state_dict()`                | 返回模型参数字典（用于保存/加载）           |
| `.load_state_dict(state_dict)` | 加载参数字典                      |
| `.to(device)`                  | 把模型转移到 CPU/GPU              |
| `.train()`                     | 切换到训练模式（启用 Dropout/BN）      |
| `.eval()`                      | 切换到评估模式（关闭 Dropout/BN）      |

### ⚠️ 注意：

必须实现 __init__() 和 forward()

不要手动调用 forward()，而是用 model(input)，内部会自动调用 forward


---

## 🔹 3. nn.Module 工作流程

1、定义层（在 __init__ 中）：把需要的层定义成成员变量（如 self.fc1 = nn.Linear(...)）

2、定义计算逻辑（在 forward 中）：输入如何流过这些层，返回输出

3、实例化模型并调用：\
model = MyNet() \
output = model(x)（内部会自动调用 forward）

---

## 🔹 4. 示例代码

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 自定义网络
class MyNet(nn.Module):
    # 构造各个层
    def __init__(self):
        super(MyNet, self).__init__()  # 继承 nn.Module
        self.fc1 = nn.Linear(10, 20)   # 第一层，全连接
        self.fc2 = nn.Linear(20, 1)    # 第二层，全连接

    # 计算过程
    def forward(self, x):
        x = F.relu(self.fc1(x))   # 经过第一层 + ReLU
        x = torch.sigmoid(self.fc2(x)) # 经过第二层 + Sigmoid
        return x

# 使用模型
model = MyNet()
x = torch.randn(5, 10)    # batch_size=5, 输入特征=10
output = model(x)
print(output.shape)       # [5, 1]

# 查看参数
for name, param in model.named_parameters():
    print(name, param.shape)

"""
输出：
fc1.weight torch.Size([20, 10])
fc1.bias   torch.Size([20])
fc2.weight torch.Size([1, 20])
fc2.bias   torch.Size([1])
"""

## 🔹 5. 常见坑

1、不要手动调用 forward

- `y = model(x)   # 正确` 
- `y = model.forward(x)  # ❌ 不推荐  → 直接调用 forward 会绕过 hooks 等机制。`

2、parameters() 只返回需要梯度的参数,如果你有一些 buffer（比如统计量），可以用 register_buffer。

3、训练 / 评估模式要切换

model.train()  # 启用 dropout, BN \
model.eval()   # 关闭 dropout, BN


4、保存/加载参数要用 state_dict()

torch.save(model.state_dict(), "model.pth")\
model.load_state_dict(torch.load("model.pth"))

---

## ✅ 总结：
nn.Module 就像 乐高积木的基类 —— 你定义的每个积木（层/网络）都要继承它，把层在 __init__ 里搭好，把计算过程写在 forward 里，然后 PyTorch 会帮你自动处理参数管理、梯度计算、保存加载等。

# 🔹完整示例：MNIST 分类
### 1、MLP形式

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader, random_split

# 1. 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为Tensor
    transforms.Normalize((0.5,), (0.5,))  # 标准化到 [-1, 1]
])

# 2. 下载 MNIST 数据集
train_dataset = datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root="./data", train=False, download=True, transform=transform)

# 拆分训练集和验证集
train_size = int(0.8 * len(train_dataset))
val_size = len(train_dataset) - train_size
train_dataset, val_dataset = random_split(train_dataset, [train_size, val_size])

# DataLoader
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=64, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)

# 3. 定义模型
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = nn.Linear(28*28, 256)
        self.fc2 = nn.Linear(256, 128)
        self.fc3 = nn.Linear(128, 10)
        
    def forward(self, x):
        x = x.view(-1, 28*28)  # 展平
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)  # 最后一层不用激活，交给CrossEntropyLoss
        return x

model = SimpleNN()

# 4. 定义损失函数 & 优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 5. 训练 + 验证过程
def train(model, train_loader, val_loader, criterion, optimizer, epochs=5):
    for epoch in range(epochs):
        model.train()
        running_loss = 0.0
        correct, total = 0, 0

        # ----训练----
        for images, labels in train_loader:
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            running_loss += loss.item()
            _, predicted = torch.max(outputs, 1)
            correct += (predicted == labels).sum().item()
            total += labels.size(0)

        train_acc = 100 * correct / total
        train_loss = running_loss / len(train_loader)

        # ----验证----
        model.eval()
        val_loss, val_correct, val_total = 0.0, 0, 0
        with torch.no_grad():
            for images, labels in val_loader:
                outputs = model(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                _, predicted = torch.max(outputs, 1)
                val_correct += (predicted == labels).sum().item()
                val_total += labels.size(0)

        val_acc = 100 * val_correct / val_total
        val_loss /= len(val_loader)

        print(f"Epoch [{epoch+1}/{epochs}] "
              f"Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.2f}% | "
              f"Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.2f}%")

# 训练模型
train(model, train_loader, val_loader, criterion, optimizer, epochs=5)

# 6. 测试过程
def test(model, test_loader):
    model.eval()
    correct, total = 0, 0
    with torch.no_grad():
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            correct += (predicted == labels).sum().item()
            total += labels.size(0)

    print(f"Test Accuracy: {100 * correct / total:.2f}%")

# 测试模型
test(model, test_loader)


### 2、CNN卷积格式

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader, random_split

# 1. 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))  # 标准化到 [-1,1]
])

# 2. 下载 MNIST 数据集
train_dataset = datasets.MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root="./data", train=False, download=True, transform=transform)

# 拆分训练集和验证集
train_size = int(0.8 * len(train_dataset))
val_size = len(train_dataset) - train_size
train_dataset, val_dataset = random_split(train_dataset, [train_size, val_size])

# DataLoader
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=64, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)

# 3. 定义 CNN 模型
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        # 卷积层：输入 1x28x28
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)  # 输出 32x28x28
        self.pool = nn.MaxPool2d(2, 2)                           # 输出 32x14x14
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1) # 输出 64x14x14 -> pool -> 64x7x7

        # 全连接层
        self.fc1 = nn.Linear(64*7*7, 128)   # 经过2次的 pool
        self.fc2 = nn.Linear(128, 10)       # 输出10个类别
        
        # 展平层
        self.flatten = nn.Flatten()

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))  # conv1 + relu + pool
        x = self.pool(F.relu(self.conv2(x)))  # conv2 + relu + pool
        x = self.flatten(x)                   # 展平
        x = F.relu(self.fc1(x))               # 
        x = self.fc2(x)
        return x

model = CNN()

# 4. 定义损失函数 & 优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 5. 训练 + 验证过程
def train(model, train_loader, val_loader, criterion, optimizer, epochs=5):
    for epoch in range(epochs):
        model.train()
        running_loss = 0.0
        correct, total = 0, 0

        # ----训练----
        for images, labels in train_loader:
            optimizer.zero_grad()      # 清零梯度
            outputs = model(images)    # 前向传播（预测） 
            loss = criterion(outputs, labels)  # 计算损失
            loss.backward()            # 反向传播计算梯度
            optimizer.step()           # 优化器根据梯度更新权重

            running_loss += loss.item() # 将 PyTorch 中的张量转换为 Python 的标量数值
            
            # 沿着维度1（类别维度）寻找最大值， predicted是最大值的索引，也就是预测的类别编号
            _, predicted = torch.max(outputs, 1)
            correct += (predicted == labels).sum().item()  # 预测正确的个数
            total += labels.size(0)  # 通过计算每个batch的大小，得到总数

        train_acc = 100 * correct / total
        train_loss = running_loss / len(train_loader)

        # ----验证----
        model.eval()
        val_loss, val_correct, val_total = 0.0, 0, 0
        with torch.no_grad():
            for images, labels in val_loader:
                outputs = model(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                _, predicted = torch.max(outputs, 1)
                val_correct += (predicted == labels).sum().item()
                val_total += labels.size(0)

        val_acc = 100 * val_correct / val_total
        val_loss /= len(val_loader)

        print(f"Epoch [{epoch+1}/{epochs}] "
              f"Train Loss: {train_loss:.4f}, Train Acc: {train_acc:.2f}% | "
              f"Val Loss: {val_loss:.4f}, Val Acc: {val_acc:.2f}%")

# 训练模型
train(model, train_loader, val_loader, criterion, optimizer, epochs=5)

# 6. 测试过程
def test(model, test_loader):
    model.eval()
    correct, total = 0, 0
    with torch.no_grad():
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            correct += (predicted == labels).sum().item()
            total += labels.size(0)

    print(f"Test Accuracy: {100 * correct / total:.2f}%")

# 测试模型
test(model, test_loader)


### 🔎 涵盖内容

神经网络层：nn.Linear

激活函数：nn.ReLU

正则化：nn.Dropout

损失函数：nn.CrossEntropyLoss（内部包含 LogSoftmax + NLLLoss）

评估指标：准确率（Accuracy）

# nn.Sequential。

## 核心概念：nn.Sequential 是什么？
`nn.Sequential` 是一个有序的容器 (Ordered Container)。你可以把它想象成一条**`“神经网络流水线”`**。你将一系列的神经网络层（如卷积层、激活函数、线性层等）按照你希望数据流动的顺序，一个个地放入这个容器中。

当你将数据输入到这个 `Sequential` 容器时，数据会自动地、严格地按照你添加的顺序，依次流过每一个层，前一层的输出就是后一层的输入。

它本身也是一个 `nn.Module`，这意味着你可以将一个 `Sequential` 容器作为一个单独的“层”，嵌套在另一个更复杂的自定义模型中。

---
## 为什么需要 nn.Sequential？
对于许多神经网络结构，尤其是那些“直上直下”、没有分支或跳跃连接的简单网络（如多层感知机 MLP、VGG网络中的卷积块），`nn.Sequential` 可以极大地简化代码。

对比一下你就明白了：

不使用 `nn.Sequential` 的写法 
- 你需要：

    - 1.在` __init__ `中分别定义每一个层。

    - 2.在` forward `方法中，手动地、一步步地调用每一个层，将数据“接力”下去。

In [None]:
import torch.nn as nn

class MyMLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer1 = nn.Linear(784, 256)
        self.relu1 = nn.ReLU()
        self.layer2 = nn.Linear(256, 128)
        self.relu2 = nn.ReLU()
        self.layer3 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.layer1(x)
        x = self.relu1(x)
        x = self.layer2(x)
        x = self.relu2(x)
        x = self.layer3(x)
        return x

model_custom = MyMLP()
print(model_custom)

### 使用 nn.Sequential 的写法
你只需要将所有层按顺序放入 `nn.Sequential` 容器即可，PyTorch 会自动为你处理 `forward` 的逻辑。

In [None]:
import torch.nn as nn

model_sequential = nn.Sequential(
    nn.Linear(784, 256),
    nn.ReLU(),
    nn.Linear(256, 128),
    nn.ReLU(),
    nn.Linear(128, 10)
)

print(model_sequential)

- 优点显而易见：代码更简洁、更紧凑、可读性更高，减少了样板代码。

---

## 创建 nn.Sequential 的三种方式
### 1. 直接传入模块作为参数
这是最常用、最直接的方式。

In [None]:
model = nn.Sequential(
    nn.Conv2d(1, 20, 5),
    nn.ReLU(),
    nn.Conv2d(20, 64, 5),
    nn.ReLU()
)

---
### 2. 使用有序字典 (collections.OrderedDict)
这种方式的好处是，你可以为容器中的每一个模块自定义一个名字。这在后续访问特定层或调试时非常有用。

In [None]:
from collections import OrderedDict
import torch.nn as nn

model = nn.Sequential(OrderedDict([
    ('conv1', nn.Conv2d(1, 20, 5)),
    ('relu1', nn.ReLU()),
    ('conv2', nn.Conv2d(20, 64, 5)),
    ('relu2', nn.ReLU())
]))

print(model)

输出会带有你定义的名字：
Sequential(
  (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  (relu1): ReLU()
  (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  (relu2): ReLU()
)

### 3. 使用 add_module() 方法
你可以先创建一个空的 `Sequential` 容器，然后动态地向其中添加模块。这在模型结构需要通过循环等编程方式生成时非常方便。

In [None]:
model = nn.Sequential()
model.add_module('conv1', nn.Conv2d(1, 20, 5))
model.add_module('relu1', nn.ReLU())
model.add_module('conv2', nn.Conv2d(20, 64, 5))
model.add_module('relu2', nn.ReLU())

---

## 如何访问子模块
从 `nn.Sequential` 容器中访问特定的层也很简单。

In [None]:
# 假设 model 是用上面 OrderedDict 创建的
# 1. 通过索引访问 (所有创建方式都支持)
first_layer = model[0]       # 获取第一个 Conv2d
first_relu = model[1]      # 获取第一个 ReLU
print(first_layer)

# 2. 通过自定义的名称访问 (仅限使用 OrderedDict 或 add_module 创建时)
conv1_layer = model.conv1    # 使用点记法
# 或者
conv2_layer = model['conv2'] # 使用字典键记法

print(conv2_layer)

---

## `nn.Sequential` 的局限性（何时不该用它）
`nn.Sequential` 虽然方便，但它只适用于**“`一条路走到黑`”的线性结构。如果你的模型结构包含以下任何一种情况，就不能**单独使用 `nn.Sequential`：

 -  1、`多输入或多输出`: `Sequential` 只能处理单输入、单输出的流程。

 -  2、`跳跃/残差连接` (`Skip`/`Residual Connections`): 像 `ResNet` 中那样，需要将前面层的输入 x 与后面层的输出相加。

 -  3、`分支结构`: 数据流需要分叉，经过不同的处理后再合并。

### 示例：一个 `nn.Sequential` 无法实现的残差块

In [None]:
class ResidualBlock(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        # self.main_path 可以是 Sequential，因为它内部是线性的
        self.main_path = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1),
            nn.ReLU()
        )
        self.conv_skip = nn.Conv2d(in_channels, out_channels, kernel_size=1)

    def forward(self, x):
        # 数据在主路径上流动
        main_output = self.main_path(x)
        
        # 数据在跳跃连接路径上流动
        skip_output = self.conv_skip(x)
        
        # 两条路径的结果需要相加，这是 nn.Sequential 无法自动处理的
        return main_output + skip_output

在这个例子中，`forward` 函数中包含了 `main_output` + `skip_output` 这样的非线性操作，因此必须自定义 `nn.Module`。不过，你可以看到 `Sequential` 依然可以用来`构建其中线性的部分`（如 `self.main_path`），这体现了它的组合性。

---

## 总结
 - `nn.Sequential` 是一个用于快速搭建`线性层叠`模型的便捷容器。

 - 它通过自动处理 `forward` 传递，极大地简化了代码。

 - 你可以使用`有序字典`或 `add_module` 为层命名，方便后续访问和调试。

 - 当模型涉及跳跃连接、分支、多输入/输出等复杂结构时，你必须回归到继承 `nn.Module` 并手动编写 `forward` 方法的传统方式。

 - 即使在复杂的模型中，`nn.Sequential` 依然是构建模型局部线性块的绝佳工具。