In [1]:
import torch
from torch import nn
from d2l import torch as d2l

计算 2 维互相关运算

In [7]:
def corr2d(X, K):
    K_h, K_w = K.shape # 卷积核高宽
    X_h, X_w = X.shape # 输入图像高宽
    Y = torch.zeros(X_h - K_h + 1, X_w - K_w + 1) # 输出
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + K_h, j:j + K_w] * K).sum() # i:i + K_h 其实就是取从 i 开始的 K_h 个元素
    return Y

In [31]:
X = torch.arange(9).reshape(3, 3)
K = torch.ones(2, 2)
X, K, corr2d(X, K)

(tensor([[0, 1, 2],
         [3, 4, 5],
         [6, 7, 8]]),
 tensor([[1., 1.],
         [1., 1.]]),
 tensor([[ 8., 12.],
         [20., 24.]]))

实现二维卷积层

In [9]:
class Conv2D(nn.Module):
    def __init__(self, kernal_size):
        super().__init__()
        self.weight = nn.Parameter(torch.rand(kernal_size))
        self.bias = nn.Parameter(torch.zeros(1))

    def forward(self, X):
        return corr2d(X, self.weight) + self.bias

卷积层的简单应用：检测图像不同颜色的边缘，如下 X 的边缘在 1 和 0 变换处

In [33]:
X = torch.ones(6, 8)
X[:, 2:6] = 0
X

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])

如下 Kernal，当左右像素无变化时，就是 0，左右有变化的时候，就不为 0，不为 0 的部分就是颜色变化的边界

In [36]:
K = torch.tensor([[1.0, -1.0]]) # 格式要对应
Y = corr2d(X, K)
Y

tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

输入`X, Y` 学习得出 `K` 

In [37]:
conv2d = nn.Conv2d(1, 1, kernel_size=(1, 2), bias=False) # 1，1 是输入和输出通道数（黑白照片通道数是 1 ）

X = X.reshape((1, 1, 6, 8)) # 批量大小，通道数，高，宽 
Y = Y.reshape((1, 1, 6, 7)) # 可以自己写

for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y)**2 # loss
    conv2d.zero_grad() #为什么
    l.sum().backward()
    conv2d.weight.data[:] -= 3e-2 * conv2d.weight.grad # weight.grad 就是 l 对 weight 求导的结果 , lr = 0.03
    if (i + 1) % 2 == 0:
        print(f'batch {i+1}, loss {l.sum():.3f}')

batch 2, loss 4.930
batch 4, loss 1.612
batch 6, loss 0.592
batch 8, loss 0.231
batch 10, loss 0.093


最终学习的权重（Kernal）

In [41]:
conv2d.weight.data.reshape(1, 2)

tensor([[ 1.0245, -0.9620]])