输入层 → [卷积层 → 激活 → 池化]×N → 全连接层 → 输出层
         ↓                     ↓
      BatchNorm / Dropout    Softmax / Sigmoid
           ↓                     ↓
        损失函数 → 反向传播 → 优化器更新参数

池化在所有神经网络都有吗？
不是，池化层主要用于卷积神经网络（CNN）中，以减少特征图的尺寸和计算量，同时保留重要的空间信息。在某些网络架构中，可能会省略池化层，或者使用其他技术（如步幅卷积）来实现类似的效果。
除了cnn，还有哪些网络会用到池化层？

除了卷积神经网络（CNN），池化层还可以在以下类型的网络中使用：
1. **循环神经网络（RNN）**：在某些变体中，池化层可以用于处理序列数据，以提取重要的时间步特征。
2. **图神经网络（GNN）**：在处理图结构数据时，池化操作可以用于聚合节点特征。
3. **自注意力网络**：在某些自注意力机制中，池化可以用于减少特征维度。

## 神经网络的完整结构组成（系统视角）

| 层级 | 组成部分 | 说明 |
|------|-----------|------|
| **1️⃣ 基本单元层** | **神经元 (Neuron)** | 模拟生物神经元的计算单元，接收输入、加权求和、加偏置、通过激活函数输出。 |
|  | **激活函数 (Activation Function)** | 引入非线性，使网络能拟合复杂函数（如 Sigmoid、ReLU、Tanh、Softmax）。 |
| **2️⃣ 网络结构层** | **全连接层 (Fully Connected Layer / Dense)** | 每个神经元与前一层所有输出相连，用于高维特征融合。 |
|  | **卷积层 (Convolutional Layer)** | 通过卷积核提取局部特征，常用于图像任务。 |
|  | **池化层 (Pooling Layer)** | 降维、保留主要特征（如 Max Pooling、Average Pooling）。 |
|  | **归一化层 (Normalization Layer)** | 稳定训练、加速收敛（如 BatchNorm、LayerNorm）。 |
|  | **Dropout 层 (Regularization)** | 随机丢弃部分神经元，防止过拟合。 |
| **3️⃣ 模型输出层** | **输出层 (Output Layer)** | 将网络输出映射为预测结果，如分类概率或回归值。 |
| **4️⃣ 学习机制层** | **损失函数 (Loss Function)** | 衡量预测与真实标签之间的差异（如 MSE、CrossEntropy）。 |
|  | **优化器 (Optimizer)** | 更新网络参数以最小化损失（如 SGD、Adam、RMSProp）。 |
| **5️⃣ 训练与传播机制** | **前向传播 (Forward Propagation)** | 输入 → 加权求和 → 激活 → 输出。 |
|  | **反向传播 (Backpropagation)** | 计算梯度并通过链式法则更新权重。 |
|  | **梯度下降 (Gradient Descent)** | 基于梯度方向调整参数，最小化损失。 |
| **6️⃣ 数据与正则化机制** | **输入层 (Input Layer)** | 接收原始数据。 |
|  | **数据预处理 / 增广 (Preprocessing / Augmentation)** | 提高泛化能力。 |
|  | **正则化 (Regularization)** | 包括 L1/L2 权重衰减、Early Stopping 等。 |
| **7️⃣ 训练控制与性能模块** | **学习率调度 (Scheduler)** | 动态调整学习率。 |
|  | **评估指标 (Metrics)** | 如 Accuracy、Precision、Recall、IoU 等。 |
|  | **模型保存 / 检查点 (Checkpoint)** | 保存最优模型参数。 |


## 感知机

感知机（Perceptron）是机器学习中的一种基本的线性分类模型，由Frank Rosenblatt在1958年提出。它是神经网络的最简单形式，主要用于二分类任务。

感知机的基本思想是通过对输入特征进行加权求和，然后通过一个激活函数（通常是阶跃函数）来决定输出类别。具体来说，感知机的工作流程如下：
1. **输入特征**  
   感知机接收一个输入向量  
   $$
   \mathbf{x} = [x_1, x_2, \ldots, x_n]
   $$
   其中每个 \(x_i\) 是输入的一个特征。

2. **权重与偏置**  
   每个输入特征对应一个权重  
   $$
   \mathbf{w} = [w_1, w_2, \ldots, w_n]
   $$
   同时设有一个偏置项 \(b\)。

3. **加权求和**  
   计算输入特征的加权和：  
   $$
   z = \mathbf{w} \cdot \mathbf{x} + b = \sum_{i=1}^{n} w_i x_i + b
   $$

4. **激活函数**  
   将 \(z\) 输入到激活函数（通常为阶跃函数）：  
   $$
   f(z) =
   \begin{cases}
   1, & \text{若 } z \ge 0 \\
   0, & \text{若 } z < 0
   \end{cases}
   $$

5. **输出类别**  
   根据激活函数的结果，感知机将输入样本分类为 **类别 1** 或 **类别 0**。

## 神经元

神经元（Neuron）是神经网络中的基本计算单元，模拟生物神经元的工作方式。每个神经元接收多个输入信号，通过加权求和和激活函数处理后，输出一个信号。神经元的工作流程与感知机类似，但通常使用更复杂的激活函数，如ReLU、Sigmoid或Tanh。
$$ 
 y_i = (w_{i1}x_1 + w_{i2}x_2 + ... + w_{in}x_n + b_i) * \delta
$$
$\delta$为激活函数。

1. **输入信号**  
   神经元接收一个输入向量  
   $$
   \mathbf{x} = [x_1, x_2, \ldots, x_n]
   $$
    其中每个 \(x_i\) 是输入的一个信号。
2. **权重与偏置**  
   每个输入信号对应一个权重  
   $$
   \mathbf{w} = [w_1, w_2, \ldots, w_n]
   $$
   同时设有一个偏置项 \(b\)。   
3. **加权求和**  
   计算输入信号的加权和：  
   $$
   z = \mathbf{w} \cdot \mathbf{x} + b = \sum_{i=1}^{n} w_i x_i + b
   $$
4. **激活函数**
    将 \(z\) 输入到激活函数（如ReLU、Sigmoid等）：  
    - ReLU（Rectified Linear Unit）:  
    $$
    f(z) = \max(0, z)
    $$
    - Sigmoid:  
    $$
    f(z) = \frac{1}{1 + e^{-z}}
    $$
    - Tanh:  
    $$
    f(z) = \tanh(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}
    $$
    - softmax（用于多分类任务）:  
    $$
    f(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}
    $$

5. **输出信号**  
   根据激活函数的结果，神经元输出一个信号，传递给下一层神经元或作为最终输出。


表格对比这几个激活函数的用途和使用情况
| 激活函数 | 公式 | 用途 | 特点 |
| --- | --- | --- | --- |
| ReLU | \(f(z) = \max(0, z)\) | 常用于隐藏层 | 计算简单，收敛快，但可能导致“神经元死亡”问题 |
| Sigmoid | \(f(z) = \frac{1}{1 + e^{-z}}\) | 常用于二分类输出层 | 输出范围在0到1之间，适合概率输出，但易饱和 |
| Tanh | \(f(z) = \frac{e^{z} - e^{-z}}{e^{z} + e^{-z}}\) | 常用于隐藏层 | 输出范围在-1到1之间，中心化效果好，但易饱和 |
| softmax | \(f(z_i) = \frac{e^{z_i}}{\sum_{j} e^{z_j}}\) | 常用于多分类输出层 | 输出为概率分布，适合多分类任务 |


In [None]:
import torch
import torch.nn as nn

# Softmax 经过 Softmax 之后，原始的输出 y 是不是转换成一组概率，并且概率的和为 1 呢。原始 y 中最大的 y 具有最大的概率。
y = torch.randn(2)
print(y)

m = nn.Softmax(dim=0)
output = m(y)
print(output)

# Tanh Tanh 会把输入映射到 -1 到 1 之间。
tanh = nn.Tanh()
output = tanh(y)
print(output)

# ReLU ReLU 会把小于 0 的值都变成 0，大于 0 的值保持不变。
relu = nn.ReLU()
output = relu(y)
print(output)

# Sigmoid Sigmoid 会把输入映射到 0 到 1 之间。 为什么合不是1呢？
# 因为 Sigmoid 的输出是一个个独立的值，并不是一组概率分布。
sigmoid = nn.Sigmoid()
output = sigmoid(y)
print(output)

tensor([-1.4559,  0.3468])
tensor([0.1415, 0.8585])
tensor([-0.8968,  0.3335])
tensor([0.0000, 0.3468])
tensor([0.1891, 0.5858])


全局平均池化（下面的图）用“求平均”代替了“粗暴地拍扁”，使得网络不再依赖于固定的输入尺寸，变得更加灵活和高效。 这也是为什么现代很多优秀的网络结构（如 ResNet, Inception）都采用了这种设计

![image1.png](mdfiles/image1.png)

## 卷积神经网络

基于ImageNet比赛中表现优异的卷积神经网络架构：

### VGG
证明了随着模型深度的增加，模型效果也会越来越好。
使用较小的 3x3 的卷积，代替了 AlexNet 中的 11x11、7x7 以及 5x5 的大卷积核。


### GoogLeNet
GoogLeNet 的核心是 Inception 模块，通过并行使用不同大小的卷积核（1x1、3x3、5x5）和池化层，捕捉多尺度特征。

作者为了降低网络的计算成本，将上述的 Inception 模块做了一步改进，在 3x3、5x5 之前与 pooling 之后添加了 1x1 卷积用来降维

为什么1x1卷积可以降维？
1x1卷积通过在每个像素位置上应用一个线性变换，将输入通道数映射到较少的输出通道数，从而实现降维。

![image2.png](mdfiles/image2.png)

https://blog.csdn.net/sscc_learning/article/details/79863922



In [None]:
# 1x1卷积的作用1： 减少数据量
import torch
import torch.nn as nn

# 输入特征图假设为 256 个通道，尺寸 28×28
x = torch.randn(1, 256, 28, 28)

# 方法1：直接 3×3 卷积到 128通道
conv_direct = nn.Conv2d(256, 128, kernel_size=3, padding=1)
params_direct = sum(p.numel() for p in conv_direct.parameters())

# 方法2：先 1×1 降维到 64通道，再 3×3 到128通道
conv_reduce = nn.Sequential(
    nn.Conv2d(256, 64, kernel_size=1),     # 降维
    nn.Conv2d(64, 128, kernel_size=3, padding=1)
)
params_reduce = sum(p.numel() for p in conv_reduce.parameters())

print(f"直接3×3卷积参数量: {params_direct/1e6:.3f} M")
print(f"1×1降维后卷积参数量: {params_reduce/1e6:.3f} M")


直接3×3卷积参数量: 0.295 M
1×1降维后卷积参数量: 0.090 M


In [None]:
# 1x1卷积的作用2： 数据融合 / 主动升维和降维
# 降维常用于 减少计算量、压缩模型大小，提升推理速度，
# 升维常用于 增加通道数、恢复特征维度、增强表达能力，
import torch
import torch.nn as nn

# 模拟 1 张 RGB 图像，大小 4×4
x = torch.tensor([[[[1., 2., 3., 4.],
                    [5., 6., 7., 8.],
                    [9.,10.,11.,12.],
                    [13.,14.,15.,16.]],
                   [[10.,10.,10.,10.],
                    [10.,10.,10.,10.],
                    [10.,10.,10.,10.],
                    [10.,10.,10.,10.]],
                   [[0.,1.,0.,1.],
                    [1.,0.,1.,0.],
                    [0.,1.,0.,1.],
                    [1.,0.,1.,0.]]]])  # shape (1,3,4,4)

# 1×1卷积: 输入3通道 → 输出2通道
conv = nn.Conv2d(3, 2, kernel_size=1, bias=False)

# 手动设置权重来直观展示融合
print(conv.weight) # 随机的初始权重
with torch.no_grad():
    conv.weight[:] = torch.tensor([
        [[[1]], [[0.5]], [[0]]],     # 通道融合方式1
        [[[0]], [[1]], [[1]]]        # 通道融合方式2
    ])

y = conv(x)
print("输出形状:", y.shape)
print("输出第1通道（融合R和G）:\n", y[0,0])
print("输出第2通道（融合G和B）:\n", y[0,1])



Parameter containing:
tensor([[[[-0.5361]],

         [[-0.0301]],

         [[-0.2692]]],


        [[[ 0.2869]],

         [[ 0.4891]],

         [[-0.2847]]]], requires_grad=True)
输出形状: torch.Size([1, 2, 4, 4])
输出第1通道（融合R和G）:
 tensor([[ 6.,  7.,  8.,  9.],
        [10., 11., 12., 13.],
        [14., 15., 16., 17.],
        [18., 19., 20., 21.]], grad_fn=<SelectBackward0>)
输出第2通道（融合G和B）:
 tensor([[10., 11., 10., 11.],
        [11., 10., 11., 10.],
        [10., 11., 10., 11.],
        [11., 10., 11., 10.]], grad_fn=<SelectBackward0>)


### ResNet
ResNet 通过引入残差连接（skip connections），解决了深层网络训练中的梯度消失问题，使得网络可以更深，同时保持良好的性能。

如何引入的残差连接？
在 ResNet 中，残差连接通过将输入直接添加到输出的方式引入。具体来说，假设某一层的输入为 \(x\)，经过一系列卷积和激活操作后得到输出 \(F(x)\)，ResNet 会将输入 \(x\) 与输出 \(F(x)\) 相加，形成最终的输出：
$$
y = F(x) + x
$$

18 层、34 层、50 层、101 层与 152 层的 ResNet。101 层的与 152 层的残差神经网络效果最好，但是受硬件设备以及推断时间的限制，50 层的残差神经网络在实际项目中更为常用。

网络退化问题

随着网络深度的不断增加，网络的整体性能也会提升。如果只是单纯的增加网络，就会引起以下两个问题：第一，模型容易过拟合；第二，产生梯度消失、梯度爆炸的问题。

上两个问题被规避之后，简单的堆叠卷积层，依然不能获得很好的效果。

作者做了这样的一个实验。通过搭建一个普通的 20 层卷积神经网络与一个 56 层的卷积神经网络，在 CIFAR-10 数据集上进行了验证。无论训练集误差还是测试集误差，56 层的网络均高于 20 层的网络

假设 20 层是一个最优的网络，通过加深到 56 层之后，理论上后面的 36 层是可以通过学习到一个恒等映射的，也就是说理论上不会学习到一个比 26 层还差的网络。

所以，作者猜测网络不能很容易地学习到恒等映射 (恒等映射就是 f(x)=x)

通过简单堆叠卷积层似乎很难学会到恒等映射

深度残差学习的框架

![image3.png](mdfiles/image3.png)

shortcut connection 的机制来完成的。在残差神经网络中 shortcut connection 就是恒等变换，就是上图中带有 x identity 的那条曲线，包含 shortcut connection 的几层网络我们称之为残差块。
最后作者发现，通过残差块，就可以训练出更深、更加优秀的卷积神经网络了。为什么呢？

因为残差块通过引入 shortcut connection，使得网络更容易学习到恒等映射，从而缓解了深层网络中的梯度消失问题。

恒等映射的好处是什么呢？

恒等映射的好处在于它使得网络更容易优化，尤其是在深层网络中。通过学习恒等映射，网络可以更轻松地传递梯度，从而缓解梯度消失问题。这意味着即使在非常深的网络中，前面的层也能获得有效的梯度信息，从而进行有效的更新。

具体来说，假设某一层的输入为 \(x\)，经过一系列卷积和激活操作后得到输出 \(F(x)\)，ResNet 会将输入 \(x\) 与输出 \(F(x)\) 相加，形成最终的输出：
$$
y = F(x) + x
$$
这样的结构被称为“残差块”（Residual Block），它允许网络学习到输入与输出之间的残差（Residual），从而更容易地学习到恒等映射。

