# 🔹 2. 神经网络构建模块

## 2.1、层 (Layers)

nn.Linear：全连接层

nn.Conv1d / nn.Conv2d / nn.Conv3d：卷积层

nn.RNN / nn.LSTM / nn.GRU：循环神经网络层

nn.Embedding：嵌入层（常用于 NLP）

nn.BatchNorm1d / nn.BatchNorm2d：批归一化层

nn.Dropout：Dropout 层

## 2.2、激活函数 (Activations)

nn.ReLU, nn.Sigmoid, nn.Tanh, nn.Softmax, nn.LeakyReLU, nn.GELU 等

## 2.3、损失函数 (Losses)

nn.CrossEntropyLoss：分类任务

nn.MSELoss：回归任务

nn.BCELoss / nn.BCEWithLogitsLoss：二分类任务

nn.HingeEmbeddingLoss, nn.MarginRankingLoss 等特殊损失

# 🧩 torch.nn 速查表

---

## 🔹 容器
- `nn.Module` → 基类
- `nn.Sequential` → 顺序容器（按顺序堆叠层）
- `nn.ModuleList` → 模块列表（可以迭代，不是顺序执行）
- `nn.ModuleDict` → 模块字典（key-value 存储子模块）

---

## 🔹 常见层
| 层名称 | 主要参数 | 作用 | 使用场景推荐 |
|--------|----------|------|--------------|
| `nn.Linear(in_features, out_features, bias=True)` | `in_features`: 输入维度<br>`out_features`: 输出维度<br>`bias`: 是否加偏置 | 全连接层（线性变换） | 用于 MLP、分类器最后一层、特征映射 |
| `nn.Conv1d(in_c, out_c, kernel_size, stride=1, padding=0)` | `in_c`: 输入通道数<br>`out_c`: 输出通道数<br>`kernel_size`: 卷积核大小<br>`stride`: 步长<br>`padding`: 填充 | 一维卷积 | 常用于文本/时间序列特征提取 |
| `nn.Conv2d(in_c, out_c, kernel_size, stride=1, padding=0)` | 同上 | 二维卷积 | 常用于图像特征提取 (CNN) |
| `nn.Conv3d(in_c, out_c, kernel_size, stride=1, padding=0)` | 同上 | 三维卷积 | 视频、医学图像 (MRI/CT) |
| `nn.ConvTranspose1d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv1d | 反卷积 (转置卷积) | 常用于生成模型、序列解码 |
| `nn.ConvTranspose2d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv2d | 二维转置卷积 | 图像上采样 (GAN/Segmentation) |
| `nn.ConvTranspose3d(in_c, out_c, kernel_size, stride=1, padding=0)` | 参数同 Conv3d | 三维转置卷积 | 视频/3D 重建 |
| `nn.RNN(input_size, hidden_size, num_layers=1, batch_first=True)` | `input_size`: 输入特征维度<br>`hidden_size`: 隐藏层大小<br>`num_layers`: 堆叠层数 | 循环神经网络 | 处理短序列，简单 NLP/时间序列 |
| `nn.LSTM(input_size, hidden_size, num_layers=1, batch_first=True)` | 同 RNN，内部有 `cell state` | 长短期记忆网络 | NLP 序列建模，长依赖任务 |
| `nn.GRU(input_size, hidden_size, num_layers=1, batch_first=True)` | 同 RNN，简化版 LSTM | 门控循环单元 | NLP，推荐比 RNN 更优先 |
| `nn.BatchNorm1d(num_features)` | `num_features`: 通道数 | 一维批归一化 | 序列/表格特征 |
| `nn.BatchNorm2d(num_features)` | `num_features`: 通道数 | 二维批归一化 | CNN 图像卷积输出 |
| `nn.BatchNorm3d(num_features)` | `num_features`: 通道数 | 三维批归一化 | 视频、3D 图像 |
| `nn.LayerNorm(normalized_shape)` | `normalized_shape`: 要归一化的维度 | 层归一化 | NLP Transformer，RNN，稳定训练 |
| `nn.GroupNorm(num_groups, num_channels)` | `num_groups`: 分组数<br>`num_channels`: 总通道数 | 分组归一化 | 适合小 batch 的图像任务 |
| `nn.InstanceNorm(num_features)` | `num_features`: 通道数 | 实例归一化 | 风格迁移，图像生成 |
| `nn.Dropout(p=0.5)` | `p`: 丢弃概率 | 随机丢弃神经元 | 全连接层防过拟合 |
| `nn.Dropout2d(p=0.5)` | `p`: 丢弃概率 | 丢弃整张 feature map | CNN 模型防过拟合 |
| `nn.Dropout3d(p=0.5)` | `p`: 丢弃概率 | 丢弃 3D 特征块 | 视频/3D CNN |
| `nn.Embedding(num_embeddings, embedding_dim)` | `num_embeddings`: 词表大小<br>`embedding_dim`: 向量维度 | 嵌入层（索引 → 向量） | NLP 词向量，ID 特征编码 |


---

## 🔹 激活函数
| 激活函数 | 解释 | 使用场景推荐 |
|----------|------|--------------|
| `nn.ReLU()` | **修正线性单元**：\(f(x)=\max(0, x)\)。计算简单，梯度稳定。输出范围[0,+∞) | 深度神经网络的默认激活函数，CNN、MLP 常用。 |
| `nn.Sigmoid()` | **S 型函数**：\(f(x)=\frac{1}{1+e^{-x}}\)，输出范围 (0,1)。 | 二分类任务（输出概率），但易梯度消失，隐藏层少用。 |
| `nn.Tanh()` | **双曲正切函数**：\(f(x)=\tanh(x)\)，输出范围 (-1,1)。 | 比 Sigmoid 更对称，早期 RNN 常用，但已逐渐被 ReLU/变体替代。 |
| `nn.Softmax(dim)` | 将输入转为概率分布：\(f(x_i)=\frac{e^{x_i}}{\sum_j e^{x_j}}\)。 | 多分类输出层常用（配合 CrossEntropyLoss 时不要手动加）。 |
| `nn.LogSoftmax(dim)` | Softmax 后再取 log，数值更稳定。 | 搭配 `nn.NLLLoss()` 使用。 |
| `nn.LeakyReLU()` | ReLU 改进版：负区间保留小斜率（默认 0.01）。 | 解决 ReLU “神经元死亡”问题。 |
| `nn.ELU()` | Exponential Linear Unit：负区间使用指数函数平滑过渡。 | 在深层网络中比 ReLU 更鲁棒，但计算比 ReLU 慢。 |
| `nn.SELU()` | Scaled ELU，自带缩放因子。 | 适合 **自归一化网络（Self-Normalizing NN）**，需配合 `nn.AlphaDropout`。 |
| `nn.GELU()` | Gaussian Error Linear Unit，结合 Sigmoid 和 ReLU 特性，平滑。 | Transformer（BERT、GPT 等）常用，效果优于 ReLU。 |
| `nn.SiLU()` | Sigmoid Linear Unit，又称 Swish：\(x \cdot \sigma(x)\)。 | 在深度学习模型（尤其 CNN）中表现良好，部分替代 ReLU。 |

###  🔹 激活函数选择指南

A[选择激活函数] --> B{位置在哪里?}

B --> C[隐藏层] \
B --> D[输出层]

%% 隐藏层\
C --> C1{任务复杂度?}  \
C1 --> C2[一般任务 → ReLU]\
C1 --> C3[深层网络/避免死神经元 → LeakyReLU / ELU]\
C1 --> C4[Transformer / NLP / 高级模型 → GELU / SiLU]\
C1 --> C5[需要自归一化 → SELU (+ AlphaDropout)]

%% 输出层\
D --> D1{任务类型?}\
D1 --> D2[二分类 → Sigmoid]\
D1 --> D3[多分类 → Softmax]\
D1 --> D4[需要 log 概率 → LogSoftmax]\
D1 --> D5[回归任务 → 无激活 / Tanh (范围限制)]


---

### 📌 **解释**：
- **隐藏层推荐**：  
  - 默认 → `ReLU`  
  - 想避免“神经元死亡” → `LeakyReLU` / `ELU`  
  - NLP / Transformer 系列 → `GELU` / `SiLU`  
  - 特殊情况（自归一化网络） → `SELU`  

- **输出层推荐**：  
  - 二分类 → `Sigmoid`  
  - 多分类 → `Softmax`（一般直接用 `nn.CrossEntropyLoss()`，内部会处理）  
  - 多分类 + 需要 log 概率 → `LogSoftmax` + `NLLLoss`  
  - 回归 → **不加激活函数**（线性输出），如果要限制范围，可以用 `Tanh`  

---
![激活函数输出示意图](激活函数输出值示意图.png)

---

## 🔹 损失函数
| 损失函数 | 解释 |
|----------|------|
| `nn.MSELoss()` | **均方误差（MSE）**，常用于回归。 |
| `nn.L1Loss()` | **平均绝对误差（MAE）**，比 MSE 对异常值更鲁棒|
| `nn.CrossEntropyLoss()` | **交叉熵损失**，多分类常用，内部包含 `LogSoftmax + NLLLoss`，输入应为 logits（未过 softmax 的值）。 |
| `nn.NLLLoss()` | **负对数似然损失**，输入必须是 log softmax 概率，通常和 `nn.LogSoftmax` 搭配使用。 |
| `nn.BCELoss()` | **二分类交叉熵损失**，输入必须是 [0,1] 概率（通常先过 sigmoid）。 |
| `nn.BCEWithLogitsLoss()` | **带 Logits 的二分类交叉熵损失**，内部集成 sigmoid，更稳定，推荐替代 `BCELoss`。 |
| `nn.HingeEmbeddingLoss()` | **合页嵌入损失**，用于相似度学习，衡量样本对是否相似（+1）或不相似（-1）。 |
| `nn.MarginRankingLoss()` | **排序边界损失**，用于排序任务，约束：\(\max(0, -y \cdot (x1 - x2) + margin)\)。 |
| `nn.TripletMarginLoss()` | **三元组损失**，常用于人脸识别/度量学习，约束：\( d(anchor, positive) + margin < d(anchor, negative)\)。 |
| `nn.KLDivLoss()` | **KL 散度损失**，度量两个概率分布差异，常用于知识蒸馏、概率建模。 |



---

## 🔹 池化
- `nn.MaxPool1d/2d/3d`
- `nn.AvgPool1d/2d/3d`
- `nn.AdaptiveAvgPool2d`
- `nn.AdaptiveMaxPool2d`


# 1. 容器（Containers）

## 🔹 1. nn.Module 概念

nn.Module = 神经网络组件的基类。

可以表示 单个层（如线性层、卷积层），也可以表示 整个网络（由很多子层组合）。

所有 torch.nn 的层和损失函数，都是 nn.Module 的子类。

---

## 🔹 2. nn.Module 的核心方法 & 属性
| 方法/属性                          | 作用                          |
| ------------------------------ | --------------------------- |
| `__init__()`                   | 构造函数，用于定义层和参数               |
| `forward(input)`               | 前向传播逻辑，定义输入如何计算输出           |
| `.parameters()`                | 返回所有需要梯度的参数（`nn.Parameter`） |
| `.named_parameters()`          | 带名字的参数迭代器                   |
| `.children()`                  | 迭代直接子模块                     |
| `.modules()`                   | 递归迭代所有子模块（包含自身）             |
| `.state_dict()`                | 返回模型参数字典（用于保存/加载）           |
| `.load_state_dict(state_dict)` | 加载参数字典                      |
| `.to(device)`                  | 把模型转移到 CPU/GPU              |
| `.train()`                     | 切换到训练模式（启用 Dropout/BN）      |
| `.eval()`                      | 切换到评估模式（关闭 Dropout/BN）      |

### ⚠️ 注意：

必须实现 __init__() 和 forward()

不要手动调用 forward()，而是用 model(input)，内部会自动调用 forward


---

## 🔹 3. nn.Module 工作流程

1、定义层（在 __init__ 中）：把需要的层定义成成员变量（如 self.fc1 = nn.Linear(...)）

2、定义计算逻辑（在 forward 中）：输入如何流过这些层，返回输出

3、实例化模型并调用：\
model = MyNet() \
output = model(x)（内部会自动调用 forward）

---

## 🔹 4. 示例代码

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 自定义网络
class MyNet(nn.Module):
    # 构造各个层
    def __init__(self):
        super(MyNet, self).__init__()  # 继承 nn.Module
        self.fc1 = nn.Linear(10, 20)   # 第一层，全连接
        self.fc2 = nn.Linear(20, 1)    # 第二层，全连接

    # 计算过程
    def forward(self, x):
        x = F.relu(self.fc1(x))   # 经过第一层 + ReLU
        x = torch.sigmoid(self.fc2(x)) # 经过第二层 + Sigmoid
        return x

# 使用模型
model = MyNet()
x = torch.randn(5, 10)    # batch_size=5, 输入特征=10
output = model(x)
print(output.shape)       # [5, 1]

# 查看参数
for name, param in model.named_parameters():
    print(name, param.shape)

"""
输出：
fc1.weight torch.Size([20, 10])
fc1.bias   torch.Size([20])
fc2.weight torch.Size([1, 20])
fc2.bias   torch.Size([1])
"""

## 🔹 5. 常见坑

1、不要手动调用 forward

- `y = model(x)   # 正确` 
- `y = model.forward(x)  # ❌ 不推荐  → 直接调用 forward 会绕过 hooks 等机制。`

2、parameters() 只返回需要梯度的参数,如果你有一些 buffer（比如统计量），可以用 register_buffer。

3、训练 / 评估模式要切换

model.train()  # 启用 dropout, BN \
model.eval()   # 关闭 dropout, BN


4、保存/加载参数要用 state_dict()

torch.save(model.state_dict(), "model.pth")\
model.load_state_dict(torch.load("model.pth"))

---

## ✅ 总结：
nn.Module 就像 乐高积木的基类 —— 你定义的每个积木（层/网络）都要继承它，把层在 __init__ 里搭好，把计算过程写在 forward 里，然后 PyTorch 会帮你自动处理参数管理、梯度计算、保存加载等。

# 🔹完整示例：MNIST 分类

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

# 1. 数据预处理
transform = transforms.Compose([
    transforms.ToTensor(),                # 转换为 Tensor
    transforms.Normalize((0.5,), (0.5,))  # 标准化到 [-1,1]
])


train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset  = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# 用 DataLoader，它负责高效迭代已划分好的数据，不涉及划分逻辑，为数据集提供批量加载和迭代的功能
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader  = DataLoader(test_dataset, batch_size=1000, shuffle=False)


# 2. 定义网络结构
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(28*28, 256)   # 输入层 → 隐藏层1
        self.fc2 = nn.Linear(256, 128)     # 隐藏层1 → 隐藏层2
        self.fc3 = nn.Linear(128, 10)      # 隐藏层2 → 输出层

        self.relu = nn.ReLU()              # 激活函数
        self.dropout = nn.Dropout(0.5)     # Dropout 防止过拟合

    def forward(self, x):
        x = x.view(-1, 28*28)              # 展平
        x = self.relu(self.fc1(x))         # 全连接 + ReLU
        x = self.dropout(x)                # Dropout
        x = self.relu(self.fc2(x))         # 全连接 + ReLU
        x = self.fc3(x)                    # 输出层（未做Softmax）
        return x                           # 交叉熵内部会做LogSoftmax


# 3. 初始化模型、损失函数、优化器
model = Net()
criterion = nn.CrossEntropyLoss()          # 分类任务常用
optimizer = optim.Adam(model.parameters(), lr=0.001)


# 4. 训练函数
def train(model, loader, optimizer, criterion, device="cpu"):
    model.train()
    total_loss, correct = 0, 0
    for data, target in loader:
        data, target = data.to(device), target.to(device)

        optimizer.zero_grad()
        output = model(data)

        loss = criterion(output, target)   # 计算损失
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
        pred = output.argmax(dim=1)        # 预测类别
        correct += (pred == target).sum().item()

    acc = correct / len(loader.dataset)
    return total_loss / len(loader), acc


# 5. 测试函数
def evaluate(model, loader, criterion, device="cpu"):
    model.eval()
    total_loss, correct = 0, 0
    with torch.no_grad():
        for data, target in loader:
            data, target = data.to(device), target.to(device)
            output = model(data)

            loss = criterion(output, target)
            total_loss += loss.item()
            pred = output.argmax(dim=1)
            correct += (pred == target).sum().item()

    acc = correct / len(loader.dataset)
    return total_loss / len(loader), acc


# 6. 训练 + 测试循环
for epoch in range(1, 6):  # 训练 5 轮
    train_loss, train_acc = train(model, train_loader, optimizer, criterion)
    test_loss, test_acc = evaluate(model, test_loader, criterion)
    print(f"Epoch {epoch}: Train Loss={train_loss:.4f}, Train Acc={train_acc:.4f}, "
          f"Test Loss={test_loss:.4f}, Test Acc={test_acc:.4f}")


### 🔎 涵盖内容

神经网络层：nn.Linear

激活函数：nn.ReLU

正则化：nn.Dropout

损失函数：nn.CrossEntropyLoss（内部包含 LogSoftmax + NLLLoss）

评估指标：准确率（Accuracy）