这个notebook用于记录学习李沐的深度学习v2版本的课程的内容：https://www.bilibili.com/video/BV1idQfYcEKy/?spm_id_from=333.337.search-card.all.click&vd_source=09ebd7d1281120ec3897ad77a3a39af0

# 课程介绍

## 课程内容：
![alt text](image-1.png)

## 课程收获
![alt text](image.png)

# 第一课：深度学习介绍
![alt text](image-2.png)

![alt text](image-3.png)

**卷积层（Convolutional Layer）**和**池化层（Pooling Layer）**是卷积神经网络（CNN）中的两个核心组件，但它们的作用和计算方式有所不同。以下是它们的详细比较：

### 1. **目的不同**

- **卷积层：** 提取特征，学习输入数据中的空间特征（如边缘、纹理、形状）。  
- **池化层：** 降低特征图的维度，减少参数量，防止过拟合，同时增强模型对微小平移和扭曲的鲁棒性。  

---

### 2. **计算方式不同**

- **卷积层：** 使用卷积核（权重矩阵）在输入特征图上滑动，计算加权和（卷积操作），并通过激活函数（如ReLU）得到特征映射。  
  - **公式：**  
    \[
    (I * K)(x, y) = \sum_m \sum_n I(x+m, y+n) \cdot K(m, n)
    \]  
  - **输出特征图：** 多个卷积核提取不同特征，输出多个特征图。  

- **池化层：** 直接对局部区域进行下采样操作，如最大池化（Max Pooling）或平均池化（Average Pooling）。  
  - **最大池化：** 取窗口内的最大值。  
  - **平均池化：** 取窗口内的平均值。  
  - **公式（最大池化）：**  
    \[
    P(x, y) = \max(I(x:x+p, y:y+q))
    \]  
  - **输出特征图：** 相比输入特征图分辨率降低，深度保持不变。  

---

### 3. **权重和参数**

- **卷积层：** 有可学习的参数（卷积核权重和偏置）。  
- **池化层：** 无可学习参数，只进行固定操作（最大值或平均值提取）。  

---

### 4. **输出特征图大小**

- **卷积层：**  
  - 受**填充（padding）**和**步长（stride）**影响。  
  - 输出特征图大小：  
    \[
    O = \frac{(W - F + 2P)}{S} + 1
    \]  
    - \(W\)：输入宽度  
    - \(F\)：卷积核大小  
    - \(P\)：填充  
    - \(S\)：步长  

- **池化层：**  
  - 仅受**窗口大小**和**步长**影响。  
  - 特征图大小减少或不变（取决于步长和窗口大小）。  

---

### 5. **特征提取能力**

- **卷积层：**  
  - 提取局部特征，如边缘、纹理和复杂模式。  
  - 卷积核可以学习数据特征，因此具有较强表达能力。  

- **池化层：**  
  - 仅进行降采样，不提取特征。  
  - 具有平移不变性，可以保留主要特征同时减少噪声。  

---

### 6. **常见使用方式**

- **卷积层：** 通常用于特征提取，堆叠多个卷积层逐步提取低级到高级特征。  
- **池化层：** 通常用于特征降维，插入在卷积层之间，用于减小特征图尺寸和计算量。  

---

### **示例：图像输入卷积和池化的对比**  

假设输入为 \(4 \times 4\) 的图像：  

- **卷积层（3x3核，步长1，填充0）：**  
  - 输出大小：\(2 \times 2\)  
  - 特征提取：每个区域乘以卷积核后求和。  

- **池化层（2x2窗口，步长2）：**  
  - 输出大小：\(2 \times 2\)  
  - 特征提取：每个区域取最大值（或平均值）。  

---

### **总结**

- 卷积层用于**特征提取**，具有可学习的权重。  
- 池化层用于**特征降维**，没有可学习参数。  
- 卷积层提取特征并保持输入大小（通过填充），池化层缩小特征图以降低计算量。  
- 两者常结合使用：多个卷积层提取特征，池化层在中间减少尺寸。  

如果你有具体的模型或代码想分析或优化，我可以进一步帮助！

**Max Pooling** 和 **Average Pooling** 都是池化（Pooling）操作的一种，常用于卷积神经网络（CNN）中进行特征图的降维和特征提取，但它们在具体计算和作用效果上有一些区别。  

---

### **1. 基本概念**

- **Max Pooling：**  
  - 从池化窗口中提取**最大值**。  
  - 直观上相当于提取窗口内**最显著特征**，保留激活值最高的像素。  
  - 公式：  
    \[
    P_{max}(x, y) = \max(I(x:x+p, y:y+q))
    \]  
  - **常用配置：**  
    - 窗口大小：\(2 \times 2\) 或 \(3 \times 3\)  
    - 步长：通常与窗口大小一致  

---

- **Average Pooling：**  
  - 从池化窗口中计算**平均值**。  
  - 直观上相当于提取窗口内**整体特征的均值**，对噪声较为鲁棒。  
  - 公式：  
    \[
    P_{avg}(x, y) = \frac{1}{pq} \sum_{i=0}^{p-1} \sum_{j=0}^{q-1} I(x+i, y+j)
    \]  
  - **常用配置：**  
    - 窗口大小：\(2 \times 2\) 或 \(3 \times 3\)  
    - 步长：通常与窗口大小一致  

---

### **2. 特征提取能力**

- **Max Pooling：**  
  - 强调**显著特征**，即特征响应最强的部分。  
  - 在处理具有**稀疏特征**的图像时效果较好，如物体边缘和局部强信号。  
  - 可以减少**背景噪声**对特征提取的干扰。  

- **Average Pooling：**  
  - 强调**整体特征**，保留池化窗口中所有像素的平均信息。  
  - 在**特征均匀分布**时效果较好，能够平滑特征图。  
  - 容易受到**噪声**影响，因为噪声值会参与平均计算。  

---

### **3. 适用场景**  

| 特点                     | Max Pooling                   | Average Pooling            |
|--------------------------|--------------------------------|----------------------------|
| 主要作用                 | 提取显著特征，保留最大响应       | 平滑特征图，减少噪声       |
| 适合特征                 | 稀疏特征、边缘、局部强响应       | 平滑特征、背景强烈干扰     |
| 应用场景                 | 物体检测、分类、边缘提取         | 图像降噪、特征平滑         |
| 对噪声的敏感性           | 较低                            | 较高                       |
| 深度网络常用             | CNN 中常用，尤其在 ResNet 等网络 | 较少使用，曾用于早期网络   |

---

### **4. 实际案例分析**  

- **物体检测任务：**  
  - 由于物体检测往往依赖于边缘特征和显著特征，**Max Pooling** 更加常用。  
  - 例如：YOLO、Faster R-CNN 等模型大多采用 Max Pooling。  

- **图像分割任务：**  
  - 由于图像分割需要提取每个像素的详细信息，有时**Average Pooling**能更好保留特征细节。  
  - 例如：在一些分割网络中，使用平均池化可以平滑输出特征图。  

- **自然图像分类：**  
  - 由于自然图像特征多样且不均匀，**Max Pooling** 更能捕捉显著特征。  
  - 例如：VGG、ResNet、Inception 等常用 Max Pooling。  

---

### **5. 性能对比示例**  

假设输入特征图为：  
\[
\begin{bmatrix} 
1 & 3 & 2 & 4 \\
5 & 6 & 7 & 8 \\
9 & 10 & 11 & 12 \\
13 & 14 & 15 & 16 
\end{bmatrix}
\]  

#### **Max Pooling (2x2, stride 2)**  
\[
\begin{bmatrix} 
6 & 8 \\
14 & 16 
\end{bmatrix}
\]  
- 取每个 \(2 \times 2\) 区域中的最大值。  

#### **Average Pooling (2x2, stride 2)**  
\[
\begin{bmatrix} 
3.75 & 7.75 \\
11.75 & 15.75 
\end{bmatrix}
\]  
- 取每个 \(2 \times 2\) 区域中的平均值。  

---

### **6. 如何选择？**

- **Max Pooling** 更加适合**提取局部显著特征**，是大多数卷积神经网络的默认选择。  
- **Average Pooling** 更加适合**平滑特征**和减少噪声，适用于特征分布较均匀的数据。  
- 在**深度学习中，Max Pooling**通常效果更好，尤其是在物体分类和检测任务中。  
- 在某些特定任务（如人脸识别、语音信号处理）中，**Average Pooling**有时表现优异。  

如果有具体模型或数据需要分析，可以告诉我，我可以帮助做进一步对比和实验！