In [1]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Pooling

mitigating the sensitivity of convolutional layers to location and of spatially downsampling representations

在深度学习中，**池化层**（Pooling Layer）的主要作用并不是直接用于识别边缘信息，而是用于对特征图进行下采样，提取更高层次的特征，同时降低数据维度和计算复杂度。以下是池化层的主要功能和作用：

---

### **1. 主要作用**

1. **降低特征图的尺寸**  
   - 池化通过下采样操作减少特征图的大小，从而减小计算成本。
   - 例如，一个 $4 \times 4$ 的特征图经过 $2 \times 2 $的最大池化会变成 $ 2 \times 2 $，减少了 75% 的数据。

2. **提取更具鲁棒性的特征**  
   - 池化会保留局部最重要的信息（如最大值或平均值），对位置的微小变化具有不变性。这对图像中的轻微平移、旋转或缩放特别有用。

3. **控制过拟合**  
   - 通过减少网络的参数量和数据冗余，池化可以在一定程度上缓解过拟合问题。

4. **增强特征的平移不变性**  
   - 池化层会忽略特征的具体位置，更关注特征的存在，从而提高网络对输入数据轻微平移的鲁棒性。

---

### **2. 是否与边缘信息有关？**
池化层本身**不直接识别边缘信息**，但会对由卷积层提取的边缘、纹理或其他特征进行处理。池化层的作用是汇总局部区域的信息，从而提高网络对边缘信息或其他特征的综合能力。

具体来说：
- **边缘信息**通常由卷积层提取。卷积核可以检测图像的边缘、角点、纹理等基本特征。
- **池化层**对卷积提取的特征进行下采样，使这些特征在空间上更加紧凑。

---



### **3. 池化层的常见类型**
1. **最大池化（Max Pooling）**  
   - 选择池化窗口中的最大值。  
   - 更适合提取具有显著性特征的信息，如边缘或强响应特征。

   示例：  
   输入：
   $$
   \begin{bmatrix}
   1 & 3 & 2 & 4 \\
   5 & 6 & 7 & 8 \\
   9 & 2 & 1 & 0 \\
   3 & 4 & 5 & 6
   \end{bmatrix}
   $$
   使用 $ 2 \times 2 $ 窗口最大池化：
   输出：
   $$
   \begin{bmatrix}
   6 & 8 \\
   9 & 6
   \end{bmatrix}
   $$

2. **平均池化（Average Pooling）**  
   - 计算池化窗口中所有值的平均值。
   - 更适合平滑特征图，减少噪声。

3. **全局池化（Global Pooling）**  
   - 直接对整个特征图执行池化，生成一个单一值。
   - 通常用于分类任务中的最后一层，如全局平均池化（GAP）。

---



### **4. 池化层和卷积层的区别**
| **池化层**                              | **卷积层**                              |
|-----------------------------------------|------------------------------------------|
| 汇总局部区域的信息                      | 提取局部特征（如边缘、纹理）             |
| 通常不包含可学习的参数                  | 包含可学习的权重参数                     |
| 提高特征图的平移不变性                  | 检测特定模式或特征                       |
| 常用于下采样，减少数据量                | 用于生成特征图                          |

---



### **5. 边缘信息的识别**
边缘信息的识别一般由卷积核完成。例如：
- 使用 Sobel 卷积核可检测水平或垂直边缘。
- 自定义卷积核可学习到更复杂的边缘模式。

池化层仅对卷积层提取的这些边缘信息进行汇总和下采样，使其更紧凑。

---



### **总结**
池化层的主要作用是下采样特征图，减少计算复杂度，增强平移不变性和鲁棒性。**边缘信息的提取不是池化层的工作，而是卷积层的职责**。两者协同作用，共同构成深度学习中的特征提取模块。

In [2]:
!pip install d2l==1.0.3

Collecting d2l==1.0.3
  Downloading d2l-1.0.3-py3-none-any.whl.metadata (556 bytes)
Collecting jupyter==1.0.0 (from d2l==1.0.3)
  Downloading jupyter-1.0.0-py2.py3-none-any.whl.metadata (995 bytes)
Collecting numpy==1.23.5 (from d2l==1.0.3)
  Downloading numpy-1.23.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.3 kB)
Collecting matplotlib==3.7.2 (from d2l==1.0.3)
  Downloading matplotlib-3.7.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Collecting matplotlib-inline==0.1.6 (from d2l==1.0.3)
  Downloading matplotlib_inline-0.1.6-py3-none-any.whl.metadata (2.8 kB)
Collecting requests==2.31.0 (from d2l==1.0.3)
  Downloading requests-2.31.0-py3-none-any.whl.metadata (4.6 kB)
Collecting pandas==2.0.3 (from d2l==1.0.3)
  Downloading pandas-2.0.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
Collecting scipy==1.10.1 (from d2l==1.0.3)
  Downloading scipy-1.10.1-cp310-cp310-manylinux_2_17_x86_

In [3]:
import torch
from torch import nn
from d2l import torch as d2l

![image](https://d2l.ai/_images/pooling.svg)

In [4]:
def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = torch.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i, j] = X[i: i + p_h, j: j + p_w].max()
            elif mode == 'avg':
                Y[i, j] = X[i: i + p_h, j: j + p_w].mean()
    return Y

In [5]:
X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
X, pool2d(X, (2, 2))

(tensor([[0., 1., 2.],
         [3., 4., 5.],
         [6., 7., 8.]]),
 tensor([[4., 5.],
         [7., 8.]]))

In [6]:
pool2d(X, (2, 2), 'avg')

tensor([[2., 3.],
        [5., 6.]])

In [7]:
X = torch.arange(16, dtype=torch.float32).reshape((1, 1, 4, 4))
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]]]])

In [8]:
pool2d = nn.MaxPool2d(3)  # 池化窗口大小为3x3，默认为stride = 3, padding = 0
# Pooling has no model parameters, hence it needs no initialization
pool2d(X)

tensor([[[[10.]]]])

In [9]:
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

In [10]:
pool2d = nn.MaxPool2d((2, 3), stride=(2, 3), padding=(0, 1))
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

In [11]:
X = torch.cat((X, X + 1), 1)  # 拼接后为双通道
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])

In [12]:
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]],

         [[ 6.,  8.],
          [14., 16.]]]])