# im2colとcol2imの実装

In [1]:
import numpy as np

## パディングの練習

In [2]:
print("1次元")
input_data = np.random.randn(2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("2次元")
input_data = np.random.randn(2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (0, 0)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("2次元")
input_data = np.random.randn(2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("3次元")
input_data = np.random.randn(2,2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (pad, pad), (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

1次元
input_data=
[-0.99  1.23]
pad_data=
[ 0.   -0.99  1.23  0.  ]

2次元
input_data=
[[0.09 1.48]
 [1.74 0.3 ]]
pad_data=
[[0.   0.  ]
 [0.09 1.48]
 [1.74 0.3 ]
 [0.   0.  ]]

2次元
input_data=
[[ 0.35  0.68]
 [-1.09  1.19]]
pad_data=
[[ 0.    0.    0.    0.  ]
 [ 0.    0.35  0.68  0.  ]
 [ 0.   -1.09  1.19  0.  ]
 [ 0.    0.    0.    0.  ]]

3次元
input_data=
[[[-0.05 -1.29]
  [ 1.41 -0.54]]

 [[-0.1   0.45]
  [-0.21  1.15]]]
pad_data=
[[[ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.   -0.05 -1.29  0.  ]
  [ 0.    1.41 -0.54  0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.   -0.1   0.45  0.  ]
  [ 0.   -0.21  1.15  0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]]]



## im2colの実装

### [演習]
* 以下のim2col関数を完成させましょう

In [3]:
# ヒント
print("5//2 = ", 5//2)
print()

input_data = np.random.randn(1,2,2,2).round(2)
print("input_data=\n",input_data)
pad = 2
print()
print("パディング=")
print(np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant'))
print()
print("軸の入れ替え")
input_data.transpose(0, 1,3,2)

5//2 =  2

input_data=
 [[[[-1.67  0.15]
   [ 0.61 -1.74]]

  [[ 1.19 -1.17]
   [-0.49 -0.12]]]]

パディング=
[[[[ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.   -1.67  0.15  0.    0.  ]
   [ 0.    0.    0.61 -1.74  0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]]

  [[ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    1.19 -1.17  0.    0.  ]
   [ 0.    0.   -0.49 -0.12  0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]]]]

軸の入れ替え


array([[[[-1.67,  0.61],
         [ 0.15, -1.74]],

        [[ 1.19, -0.49],
         [-1.17, -0.12]]]])

In [None]:
def im2col(input_data, filter_h, filter_w, stride=1, pad=0, constant_values=0):
    """
    input_data : (データ数, チャンネル数, 高さ, 幅)の4次元配列からなる入力データ. 画像データの形式を想定している
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド数
    pad : パディングサイズ
    constant_values : パディング処理で埋める際の値
    return : 2次元配列
    """
    
    # 入力画像(元画像)のデータ数, チャンネル数, 高さ, 幅を取得する
    N, C, H, W = input_data.shape 
    
    # 出力(畳み込みまたはプーリングの演算後)の形状を計算する
    out_h =        # 出力画像の高さ(端数は切り捨てる)
    out_w =       # 出力画像の幅(端数は切り捨てる)

    # パディング処理
    img = np.pad(input_data,                   , 'constant',
                             constant_values=constant_values) # pad=1以上の場合、周囲を0で埋める
    
    # 配列の初期化
    col = np.zeros((N, C,     ,     , out_h, out_w)) 

    # 配列を並び替える(フィルター内のある1要素に対応する画像中の画素を取り出してcolに代入する)
    for y in range(   ):
        """
        フィルターの高さ方向のループ
        """
        y_max = y + stride*out_h
        
        for x in range(   ):
            """
            フィルターの幅方向のループ
            """
            x_max = x + stride*out_w
            
            # imgから値を取り出し、colに入れる
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]
            # y:y_max:strideの意味  :  yからy_maxまでの場所をstride刻みで指定している
            # x:x_max:stride の意味  :  xからx_maxまでの場所をstride刻みで指定している

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1) # 軸を入れ替えて、2次元配列(行列)に変換する
    return col

In [None]:
# データ数が1の場合の確認
np.random.seed(1234)
x1 = np.random.randn(1,3,3,3)
print("x1=",x1.round(2))
print()
print("パディングなし")
col1 = im2col(x1, 2, 2, stride=1, pad=0)
print("col1=",col1.round(2))
print()
print("パディングあり")
col1_p = im2col(x1, 2, 2, stride=1, pad=1)
print("col1_p=",col1_p.round(2))

In [None]:
# データ数が5の場合の確認
np.random.seed(1234)
x5 = np.random.randn(5,3,3,3)
print("x5=",x5.round(2))
print()
print("パディングなし")
col5 = im2col(x5, 2, 2, stride=1, pad=0)
print("col5=",col5.round(2))
print()
print("パディングあり")
col5_p = im2col(x5, 2, 2, stride=1, pad=1)
print("col5_p=",col5_p.round(2))

## col2imの実装

### [演習]
* 以下のcol2im関数を完成させましょう

In [None]:
def col2im(col, input_shape, filter_h, filter_w, stride=1, pad=0, is_backward=False):
    """
    Parameters
    ----------
    col : 2次元配列
    input_shape : 入力データの形状（例：(10, 1, 28, 28)）
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド数
    pad : パディングサイズ
    return : (データ数, チャンネル数, 高さ, 幅)の配列
    -------
    """
    
    # 入力画像(元画像)のデータ数, チャンネル数, 高さ, 幅を取得する
    N, C, H, W = input_shape
    
    # 出力(畳み込みまたはプーリングの演算後)の形状を計算する
    out_h =            # 出力画像の高さ(端数は切り捨てる)
    out_w =          # 出力画像の幅(端数は切り捨てる)
    
    # 配列の形を変えて、軸を入れ替える
    col = col.reshape(N, out_h, out_w, C, filter_h, filter_w).transpose(0, 3, 4, 5, 1, 2)

    # 配列の初期化
    img = np.zeros((   ,    , H + 2*pad + stride - 1, W + 2*pad + stride - 1))  # pad分を大きくとる. stride分も大きくとる
    
    # 配列を並び替える
    for y in range(   ):
        """
        フィルターの高さ方向のループ
        """        
        y_max = y + stride*out_h
        
        for x in range(    ):
            """
            フィルターの幅方向のループ
            """            
            x_max = x + stride*out_w
            
            # colから値を取り出し、imgに入れる
            if is_backward:
                img[:, :, y:y_max:stride, x:x_max:stride] += col[:, :, y, x, :, :]
            else:
                img[:, :, y:y_max:stride, x:x_max:stride] = col[:, :, y, x, :, :]

    return img[:, :,    :H +    ,   :W + ] # pad分は除いておく(pad分を除いて真ん中だけを取り出す)

In [None]:
# データ数が1の場合の確認
im1= col2im(col1, input_shape=(1, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=0)
print("im1=", im1.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x1 - im1 ).sum())
print()
im1_p= col2im(col1_p, input_shape=(1, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=1)
print("im1_p=", im1_p.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x1 - im1_p ).sum())

In [None]:
# データ数が5の場合の確認
im5 = col2im(col5, input_shape=(5, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=0)
print("im5=", im5.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x5 - im5 ).sum())
print()

im5_p = col2im(col5_p, input_shape=(5, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=1)
print("im5_p=", im5_p.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x5 - im5_p ).sum())
print()