In [11]:
import torch
from torch import nn

In [12]:
# We define a helper function to calculate convolutions. It initializes the
# convolutional layer weights and performs corresponding dimensionality
# elevations and reductions on the input and output
# 定义一个辅助函数来计算卷积。它初始化卷积层权重，并执行输入和输出
def comp_conv2d(conv2d, X):
    # (1, 1) indicates that batch size and the number of channels are both 1
    # 在 PyTorch 中，卷积层（如 nn.Conv2d）期望输入张量的形状为 (batch_size, in_channels, height, width)
    X = X.reshape((1, 1) + X.shape) # 这里的加法实际上是拼接，得到了 (1, 1, 8, 8)
    # print(X.shape)
    Y = conv2d(X)
    # Strip the first two dimensions: examples and channels
    # 返回卷积结果 Y 的形状，去掉前两个维度
    return Y.reshape(Y.shape[2:])

# 1 row and column is padded on either side, so a total of 2 rows or columns
# are added
conv2d = nn.LazyConv2d(1, kernel_size=3, padding=1) # 输出通道数为 1，卷积核大小为 3*3，填充为 1
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [13]:
# We use a convolution kernel with height 5 and width 3. The padding on either
# side of the height and width are 2 and 1, respectively
conv2d = nn.LazyConv2d(1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [14]:
conv2d = nn.LazyConv2d(1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

In [15]:
conv2d = nn.LazyConv2d(1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

In [None]:
""" Exercise
1. 略
2. 在音频处理中，步幅为 2 相当于每隔一个样本点进行采样，相当于降采样率一半。
3. 镜像填充可以在边缘处复制像素值。例如，对于一维数据 `[1, 2, 3, 4, 5]`，在两侧各加一层镜像填充后变为 `[1, 1, 2, 3, 4, 5, 5]`
4. 大于 1 的步幅可以减少计算量和内存消耗，特别是在处理大型输入时，有助于加速模型训练过程。
5. 大于 1 的步幅可以增加感受野，使得模型能够捕捉更大范围的空间关系，有助于提高模型的泛化能力。
6. 步幅是在卷积运算过程中控制卷积核在输入特征图上滑动的距离。它可以是一个整数值，表示每次滑动的像素距离。
    步幅对应于卷积层的步进大小，影响输出特征图的分辨率。
    当需要降低输出分辨率或减少计算量时，使用大于 1 的步幅会很有用。
"""