#  畳み込み演算(Convolution)の実装

畳み込み演算(Convolution)は画像に対して一定のスライド幅ごとにカーネル(フィルター)を適用していく処理である.  
カーネルを$\boldsymbol{W} \in \mathbb{R}^{H_k \times H_w}$, 画像を$\boldsymbol{X} \in \mathbb{R}^{H_i \times W_i}$, 畳み込み演算を$\boldsymbol{W} \circledast \boldsymbol{X}$で表した時, 出力値$\boldsymbol{O}$の${(i,j)}$番目の値は以下のように表すことができる.
なお,${H_k}$と${W_k}$はカーネルの高さと幅を,同じように${H_i}$と${W_i}$は画像の高さと幅を表す.

$$
\boldsymbol{O}_{i,j} = (\boldsymbol{W} \circledast \boldsymbol{X})_{i, j} = \sum^{H_k - 1}_{u=0} \sum^{W_k - 1}_{v=0} X_{i + u, j + v} K_{u, v}
$$

ここで, 行列のすべての要素を足し合わせる演算を$\sum^{N}_{i=0} \sum^{L}_{j=0} Z_{i,j} =: sum(\boldsymbol{Z})$と定義すると, 畳み込み処理は$O_{i, j} = sum(\boldsymbol{X}_{[i: i + H_k], [j: j + W_k]} \odot \boldsymbol{K}) \quad (\odot は要素積)$で表すことができる.  
以下は畳み込み演算のありうる実装のうちのひとつ.

In [2]:
import numpy as np

In [3]:
# height and width of image
H_i, W_i = 3, 3
X = np.arange(H_i * W_i).reshape(H_i, W_i).astype(np.float32)
# height and width of kernel
H_k, W_k = 2, 2
K = np.arange(H_k * W_k).reshape(H_k, W_k).astype(np.float32)
print(X)
print(K)

[[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
[[0. 1.]
 [2. 3.]]


In [4]:
O_h = H_i - H_k + 1
O_w = W_i - W_k + 1

O = []
for i in range(O_h):
    t = []
    for j in range(O_w):
        m = X[i:i+H_k, j:j+W_k]
        e = np.sum(m * K)
        t.append(float(e))
    O.append(t)
O

[[19.0, 25.0], [37.0, 43.0]]

今回参考にしたのは  
Kevin P. Murphy 確率的機械学習:入門編 II: 非線形モデル