In [1]:
from mxnet import autograd, nd
from mxnet.gluon import nn

In [2]:
# 二维互相关（cross-correlation）运算
def corr2d(X, K):
    h, w = K.shape
    Y = nd.zeros((X.shape[0]-h+1,X.shape[1]-w+1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i: i+h, j: j+w]*K).sum()
    return Y

In [3]:
X = nd.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
K = nd.array([[0, 1], [2, 3]])
corr2d(X, K)


[[ 19.  25.]
 [ 37.  43.]]
<NDArray 2x2 @cpu(0)>

In [4]:
# 二维卷积层

class Conv2D(nn.Block):
    def __init__(self, kernel_size, **kwargs):
        super(Conv2D, self).__init__(**kwargs)
        self.weight = self.params.get('weight', shape=kernel_size)
        self.bias = self.params.get('bias', shape=(1,))

    def forward(self, x):
        return corr2d(x, self.weight.data()) + self.bias.data()

In [5]:
# 图像中物体边缘检测

# 首先我们构造一张 6×8 的图像（即高和宽分别为6像素和8像素的图像）。它中间4列为黑（0），其余为白（1）。
X = nd.ones((6, 8))
X[:, 2:6] = 0
X
# 然后我们构造一个高和宽分别为1和2的卷积核K。
# 当它与输入做互相关运算时，如果横向相邻元素相同，输出为0；否则输出为非0。
K = nd.array([[1, -1]])

In [6]:
Y = corr2d(X, K)
Y
#可以看到将从白到黑的边缘和从黑到白的边缘分别检测成了1和-1。其余部分的输出全是0。
#由此可见，卷积层可通过重复使用卷积核有效地表征局部空间。


[[ 0.  1.  0.  0.  0. -1.  0.]
 [ 0.  1.  0.  0.  0. -1.  0.]
 [ 0.  1.  0.  0.  0. -1.  0.]
 [ 0.  1.  0.  0.  0. -1.  0.]
 [ 0.  1.  0.  0.  0. -1.  0.]
 [ 0.  1.  0.  0.  0. -1.  0.]]
<NDArray 6x7 @cpu(0)>

In [7]:
# 使用物体边缘检测中的输入数据X和输出数据Y来学习我们构造的核数组K
# 首先构造一个卷积层，将其卷积核初始化成随机数组
# 然后在每次迭代中，使用平方误差来比较Y和卷积层的输出
# 最后计算梯度来更新权重

conv2d = nn.Conv2D(1, kernel_size=(1, 2))
conv2d.initialize()

# 二维卷积层使用4维输入输出，格式为(样本, 通道, 高, 宽)
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))

for i in range(10):
    with autograd.record():
        Y_hat = conv2d(X)
        l = (Y_hat - Y) ** 2
    l.backward()
# 3e-2表示学习率为0.03
    conv2d.weight.data()[:] -= 3e-2 * conv2d.weight.grad()
    if (i+1)%2 == 0:
        print('batch %d, loss %.3f' % (i+1, l.sum().asscalar()))
conv2d.weight.data().reshape((1, 2))
# 由此可见，学到的核数组与我们之前定义的核数组K较接近
# 另：互相关运算和卷积运算（https://zhuanlan.zhihu.com/p/33194385 见评论区）

batch 2, loss 4.949
batch 4, loss 0.831
batch 6, loss 0.140
batch 8, loss 0.024
batch 10, loss 0.004



[[ 0.98949999 -0.98737049]]
<NDArray 1x2 @cpu(0)>