CNN 是计算机视觉任务中的核心技术

# 理论讲解

![image.png](attachment:image.png)

三个类别的输出概率：Donald（0.2）、Goofy（0.1）和Tweety（0.7），这表明网络认为输入图像最有可能是 Tweety。

- **输入层（Input Layer）**：接收原始的二维图像数据。

- **卷积层（Convolution）**：使用卷积核（Kernel）在输入上滑动，进行特征提取，生成特征图（Feature Maps）。

- **池化（Pooling）**：通过对特征图进行下采样，减少数据量，降低计算复杂度，同时保留重要特征。常见的池化方法有最大池化（Max Pooling）和平均池化（Average Pooling）。

- **特征提取（Feature Extraction）**：通过多个卷积层和池化层来提取图像的高级特征。

- **展平层（Flatten Layer）**：将二维特征图转换为一维向量，以便输入到全连接层。

- **全连接层（Fully Connected Layer）**：类似于传统的神经网络，对特征进行进一步的处理和分类。

- **分类层（Classification）**：输出最终的分类结果，通常使用 softmax 函数。

- **概率分布（Probabilistic Distribution）**：输出各个类别的概率分布，表示图像属于各个类别的可能性。

## 基本结构

1. **输入层（Input Layer）**

神经网络的输入层接收原始数据作为输入。对于图像识别任务，一个常见的输入是一张图片。对于彩色图像，这个图片通常被展平成一个一维向量，每个像素的值都被展平成一个数值。例如，对于一个 32x32 的彩色图像（RGB，3 通道），输入层的大小将会是 32x32x3 = 3072。

2. **卷积层(converlutional layer)**

用卷积核提取局部特征，如边缘、纹理等。
```math
y[i, j] = \sum_{m} \sum_{n} x[i + m, j + n] \cdot k[m, n] + b
```
- **x**: 输入图像。

- **k**: 卷积核（权重矩阵）。

- **b**: 偏置。

应用一组可学习的滤波器（或卷积核）在输入图像上进行卷积操作，以提取局部特征。

每个滤波器在输入图像上滑动，生成一个特征图（Feature Map），表示滤波器在不同位置的激活。

卷积层可以有多个滤波器，每个滤波器生成一个特征图，所有特征图组成一个特征图集合。

3. **激活函数（Activation Function）**

激活函数是深度学习中非常重要的组成部分。最常用的激活函数是 **ReLU**（Rectified Linear Unit），它的计算公式为 `max(x, 0)`。ReLU 函数的公式为 `f(x) = max(0, x)`，即当 `x > 0` 时输出 `x`，否则输出 `0`。

4. **池化层（Pooling Layer）**

- 用于降低特征图维度的操作，减少计算量和参数量，同时保留重要信息的特征。
- 常见的池化操作有最大池化（Max Pooling）和平均池化（Average Pooling）。
- 最大池化选择区域内的最大值，而平均池化计算区域内的平均值。

5. **归一化层（Normalization Layer，归一）**

- 常见，局部响应归一化（Local Response Normalization, LRN）或批归一化（Batch Normalization）。
- 这些算法用于加速训练过程，提高网络的泛化能力。

6. **全连接层（Fully Connected Layer）**

- 在 CNN 的末端，将前面的特征图拉伸成一维向量（Flatten），使用全连接层进行分类或回归。
- 全连接层将特征图中的每个节点与下一层的所有节点相连，执行线性变换并进行激活函数的处理。

7. **输出层（Output Layer）**

根据任务的不同，输出层可以有不同的形式。

对于分类任务，输出层使用 Softmax 函数将输出转换为概率分布。输出层有多少个神经元，就代表有多少个类别。

8. **损失函数（Loss Function）**

用于衡量模型预测值与真实值之间的误差。

常见的损失函数有交叉熵损失（Cross-Entropy Loss）用于分类任务；均方误差（Mean Squared Error, MSE）用于回归任务。

9. **优化器（Optimizer）**

用于调整模型参数以最小化损失函数的值。常见的优化器有随机梯度下降（SGD）、Adam、RMSprop等。

10. **正则化（Regularization，平滑）**

包括 Dropout、L1/L2 正则化等技术，用于防止模型过拟合。

这些方法可以避免模型对数据的过度拟合，以提高模型的泛化能力。

CNN 的深层和复杂性使得正则化在防止过拟合方面尤为重要。