## 畳み込み演算

In [2]:
from mxnet import autograd,np,npx
from mxnet.gluon import nn
npx.set_np()

In [29]:
def corr2d(X,K):
    h,w=K.shape
    Y=np.zeros((X.shape[0]-h+1,X.shape[1]-w+1))
    #畳み込み後の出力：Y
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j]=(X[i:i+h,j:j+w]*K).sum()
    return Y

In [152]:
X = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
K = np.array([[0, 1], [2, 3]])
corr2d(X, K)

array([[19., 25.],
       [37., 43.]])

## 畳み込み層（クラス）

In [31]:
class Conv2D(nn.Block):
    def __init__(self,kernel_size,**kwargs):
        super(Conv2D,self).__init__(**kwargs)
        self.weight = self.params.get('weight',shape=kernel_size)
        self.bias = self.params.get('bias',shape=(1,))
    def forward(self, x): 
corr2d(x, self.weight.data()) + self.bias.data()

## エッジ検出の例

In [32]:
#6×8ピクセルの画像を作り，真ん中（２～６列目を0（黒），
#それ以外を1（白））とした
X = np.ones((6, 8))
X[:, 2:6] = 0
X

array([[1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.]])

In [33]:
#高さ1,幅2のカーネルKを作成
#（水平方向のエッジを検出するフィルタ）
#白→黒は1，黒→白は-1を検出
K = np.array([[1, -1]])

In [34]:
#水平方向のエッジが検出されている
Y = corr2d(X, K)
Y

array([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

In [35]:
#垂直方向へのエッジは検出されない
corr2d(X.T, K)

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

## カーネルの学習

In [89]:
#1出力，(1,2)のカーネルをもつ畳み込み層
conv2d = nn.Conv2D(1,kernel_size=(1,2))
conv2d.initialize()

In [90]:
#二次元畳み込み層は４次元入力，
#４次元出力（データ番号（バッチ内の），チャネル，高さ，幅）をもつ
#
X=X.reshape(1,1,6,8)
Y=Y.reshape(1,1,6,7)

In [91]:
for i in range(10):
    with autograd.record():
        Y_hat=conv2d(X)
        Loss=(Y_hat-Y)**2
    Loss.backward()
    conv2d.weight.data()[:] -= 3e-2*conv2d.weight.grad()
    if(i+2)%2 == 0:
        print('batch %d, loss %.3f' % (i + 1, Loss.sum()))

batch 1, loss 12.559
batch 3, loss 2.118
batch 5, loss 0.360
batch 7, loss 0.062
batch 9, loss 0.011


In [54]:
conv2d.weight.data().reshape(1, 2)

array([[ 0.9895   , -0.9873705]])

## padding

In [93]:
from mxnet import np, npx
from mxnet.gluon import nn
npx.set_np()

In [110]:
def comp_conv2d(conv2d,X):
    conv2d.initialize()
    X = X.reshape((1,1)+X.shape)
    Y = conv2d(X)
    
    return Y.reshape(Y.shape[2:])

In [111]:
conv2d = nn.Conv2D(1,kernel_size=3,padding=1)
X = np.random.uniform(size=(8,8))
comp_conv2d(conv2d,X).shape

(8, 8)

In [113]:
#カーネルサイズが違い例
#パディングする数を変更することで入出力次元数を揃えられる
conv2d = nn.Conv2D(1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

(8, 8)

## ストライド

- ダウンサンプリングとかをして画像の解像度を下げる
- データの次元性を効果的に調整するために使用できる

In [115]:
conv2d = nn.Conv2D(1, kernel_size=3, padding=1, strides=2)
comp_conv2d(conv2d, X).shape

(4, 4)

In [116]:
conv2d = nn.Conv2D(1, kernel_size=(3, 5), padding=(0, 1), strides=(3, 4))
comp_conv2d(conv2d, X).shape

(2, 2)

## 多チャンネルカーネル（RGBが画像とか）

In [125]:
import d2l
from mxnet import np, npx
npx.set_np()

In [144]:
def corr2d_multi_in(X,K):
    #各チャネルごとに畳み込みをし，その結果をチャネル間で総和をとる
    return sum(d2l.corr2d(x,k) for x,k in zip(X,K))

In [172]:
X = np.array([[[0, 1, 2], [3, 4, 5], [6, 7, 8]],
              [[1, 2, 3], [4, 5, 6], [7, 8, 9]]])
K = np.array([[[0, 1], [2, 3]], [[1, 2], [3, 4]]])
print(K.shape)

corr2d_multi_in(X, K)

(2, 2, 2)


array([[ 56.,  72.],
       [104., 120.]])

In [168]:
def corr2d_multi_in_out(X,K):
    return np.stack([corr2d_multi_in(X, k) for k in K])

In [174]:
K = np.array([[[0, 1], [2, 3]], [[1, 2], [3, 4]]])
K = np.stack((K, K + 1, K + 2))
K.shape

(3, 2, 2, 2)

In [171]:
K.shape

(3, 2, 2, 2)

In [176]:
corr2d_multi_in_out(X, K)

array([[[ 56.,  72.],
        [104., 120.]],

       [[ 76., 100.],
        [148., 172.]],

       [[ 96., 128.],
        [192., 224.]]])

In [177]:
def corr2d_multi_in_out_1x1(X, K):
    c_i, h, w = X.shape
    c_o = K.shape[0]
    X = X.reshape(c_i, h * w)
    K = K.reshape(c_o, c_i)
    Y = np.dot(K, X)  # Matrix multiplication in the fully connected layer
    return Y.reshape(c_o, h, w)

In [178]:
X = np.random.uniform(size=(3, 3, 3))
K = np.random.uniform(size=(2, 3, 1, 1))

Y1 = corr2d_multi_in_out_1x1(X, K)
Y2 = corr2d_multi_in_out(X, K)

np.abs(Y1 - Y2).sum() < 1e-6

array(True)

## プーリング

- 畳み込み層の位置に対する過剰な感度を緩和する

In [179]:

from mxnet import np, npx
from mxnet.gluon import nn
npx.set_np()

In [187]:
def pool2d(X,pool_size,mode='max'):
    p_h,p_w=pool_size
    Y = np.zeros((X.shape[0]-p_h+1,X.shape[1]-p_w+1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if(mode=='max'):
                Y[i,j]=np.max(X[i:i+p_h,j:j+p_w])
            elif(mode=='avg'):
                Y[i,j]=np.mean(X[i:i+p_h,j:j+p_w])
    return Y

In [188]:
X = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
pool2d(X, (2, 2))

array([[4., 5.],
       [7., 8.]])

In [189]:
pool2d(X, (2, 2), 'avg')

array([[2., 3.],
       [5., 6.]])

In [199]:
## プーリングのストライド，パディング
# ストライドを1より大きくすることで解像度を下げることができる

X = np.arange(16).reshape(1, 1, 4, 4)
X

array([[[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.]]]])

In [195]:
pool2d = nn.MaxPool2D(3)
#ここでは(3×3)のプーリングウィンドウでストライドは3
#何も指定しない場合のストライドはプーリングウィンドウ（3,3）と同じ
# プーリング層にはパラメータがないので，初期化はいらない
pool2d(X)

array([[[[10.]]]])

In [193]:
# ストライド，パディングを指定して大きさを不変に調整
pool2d = nn.MaxPool2D(3, padding=1, strides=2)
pool2d(X)

array([[[[ 5.,  7.],
         [13., 15.]]]])

In [194]:
# 均一でなくてもできる
pool2d = nn.MaxPool2D((2, 3), padding=(1, 2), strides=(2, 3))
pool2d(X)

array([[[[ 0.,  3.],
         [ 8., 11.],
         [12., 15.]]]])

In [197]:
X = np.concatenate((X, X + 1), axis=1)
X

array([[[[ 0.,  1.,  2.,  3.],
         [ 4.,  5.,  6.,  7.],
         [ 8.,  9., 10., 11.],
         [12., 13., 14., 15.]],

        [[ 1.,  2.,  3.,  4.],
         [ 5.,  6.,  7.,  8.],
         [ 9., 10., 11., 12.],
         [13., 14., 15., 16.]]]])

In [200]:
#プーリング層の出力チャネル数は入力チャネル数と同じ
pool2d = nn.MaxPool2D(3, padding=1, strides=2)
pool2d(X)

array([[[[ 5.,  7.],
         [13., 15.]]]])