In [1]:
import numpy as np

In [14]:
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """
    Parameters
    ----------
    input_data : (データ数, チャンネル, 高さ, 幅)の4次元配列からなる入力データ
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド
    pad : パディング

    Returns
    -------
    col : 2次元配列
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h) // stride + 1
    out_w = (W + 2*pad - filter_w) // stride + 1

    # データ数pad=(0, 0), チャンネルpad=(0, 0), 高さpad=(pad, pad), 幅pad=(pad, pad)
    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))
    print("img:", img.shape)
    print("col:", col.shape)

    for y in range(filter_h):
        y_max = y + stride * out_h
        for x in range(filter_w):
            x_max = x + stride * out_w
            # N、C、out_h、out_wはそのままで
            # x ~ x_max, y ~ y_maxの範囲の要素をcolに代入する
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    print("col.transpose:", col.transpose(0, 4, 5, 1, 2, 3).shape)
    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N * out_h * out_w, -1)
    # 次元数が３以上であるときcol.transpose()で次元の並び替えができる。
    # reshpe()の引数に-1を与えると、残りの次元から形状が推測される。
    # col.shape = (N * out_h * out_w, C * filter_h, filter_w)
    return col

In [15]:
x1 = np.random.rand(1, 3, 7, 7)
col1 = im2col(x1, 5, 5, stride=1, pad=0)
print(col1.shape)

img: (1, 3, 7, 7)
col: (1, 3, 5, 5, 3, 3)
col.transpose: (1, 3, 3, 3, 5, 5)
(9, 75)
