In [2]:
#6.5.1. 最大池化层和平均池化层
#在下面的代码中的 pool2d 函数，实现了池化层的正向传播。 
#此功能类似于 6.2节 中的 corr2d 函数。 
#然而，这里我们没有卷积核，输出为输入中每个区域的最大值或平均值。
!pip install d2l
import torch
from torch import nn
from d2l import torch as d2l

def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = torch.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i, j] = X[i:i + p_h, j:j + p_w].max()
            elif mode == 'avg':
                Y[i, j] = X[i:i + p_h, j:j + p_w].mean()
    return Y

Collecting d2l
[?25l  Downloading https://files.pythonhosted.org/packages/f4/e9/89f71389acf3cc4231d7e51839a9f093ea0078d93c44988f8ade9f6d44e5/d2l-0.16.4-py3-none-any.whl (77kB)
[K     |████▎                           | 10kB 13.5MB/s eta 0:00:01[K     |████████▌                       | 20kB 17.5MB/s eta 0:00:01[K     |████████████▊                   | 30kB 10.3MB/s eta 0:00:01[K     |█████████████████               | 40kB 8.4MB/s eta 0:00:01[K     |█████████████████████▏          | 51kB 5.3MB/s eta 0:00:01[K     |█████████████████████████▍      | 61kB 5.6MB/s eta 0:00:01[K     |█████████████████████████████▋  | 71kB 5.9MB/s eta 0:00:01[K     |████████████████████████████████| 81kB 3.9MB/s 
Installing collected packages: d2l
Successfully installed d2l-0.16.4


In [3]:
#我们可以构建 图6.5.1 中的输入张量 X，验证二维最大池化层的输出。
X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
pool2d(X, (2, 2))

tensor([[4., 5.],
        [7., 8.]])

In [4]:
#此外，我们还可以验证平均池化层。
pool2d(X, (2, 2), 'avg')

tensor([[2., 3.],
        [5., 6.]])

In [5]:
#6.5.2. 填充和步幅
#与卷积层一样，池化层也可以改变输出形状。
#和以前一样，我们可以通过填充和步幅以获得所需的输出形状。 
#下面，我们用深度学习框架中内置的二维最大池化层，来演示池化层中填充和步幅的使用。 
#我们首先构造了一个输入张量 X，它有四个维度，其中样本数和通道数都是 1。
X = torch.arange(16, dtype=torch.float32).reshape((1, 1, 4, 4))
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]]]])

In [6]:
#默认情况下，深度学习框架中的步幅与池化窗口的大小相同。 
#因此，如果我们使用形状为 (3, 3) 的池化窗口，那么默认情况下，我们得到的步幅形状为 (3, 3)。
pool2d = nn.MaxPool2d(3)
pool2d(X)

tensor([[[[10.]]]])

In [7]:
#填充和步幅可以手动设定。
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

In [8]:
#当然，我们可以设定一个任意大小的矩形池化窗口，并分别设定填充和步幅的高度和宽度。
pool2d = nn.MaxPool2d((2, 3), padding=(1, 1), stride=(2, 3))
pool2d(X)

tensor([[[[ 1.,  3.],
          [ 9., 11.],
          [13., 15.]]]])

In [9]:
#6.5.3. 多个通道
#在处理多通道输入数据时，池化层在每个输入通道上单独运算，而不是像卷积层一样在通道上对输入进行汇总。 
#这意味着池化层的输出通道数与输入通道数相同。
#下面，我们将在通道维度上连结张量 X 和 X + 1，以构建具有 2 个通道的输入。
X = torch.cat((X, X + 1), 1)
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])

In [10]:
#如下所示，池化后输出通道的数量仍然是 2。
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]],

         [[ 6.,  8.],
          [14., 16.]]]])