# im2colとcol2imの実装

In [1]:
import numpy as np

## パディングの練習

In [2]:
print("1次元")
input_data = np.random.randn(2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("2次元")
input_data = np.random.randn(2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (0, 0)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("2次元")
input_data = np.random.randn(2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

print("3次元")
input_data = np.random.randn(2,2,2).round(2)
print("input_data=")
print(input_data)
pad = 1
pad_data = np.pad(input_data, [ (pad, pad), (pad, pad), (pad, pad)], 'constant')
print("pad_data=")
print(pad_data)
print()

1次元
input_data=
[-0.94  0.08]
pad_data=
[ 0.   -0.94  0.08  0.  ]

2次元
input_data=
[[-0.73 -0.7 ]
 [-0.61  0.62]]
pad_data=
[[ 0.    0.  ]
 [-0.73 -0.7 ]
 [-0.61  0.62]
 [ 0.    0.  ]]

2次元
input_data=
[[ 0.63 -0.5 ]
 [-2.67 -0.47]]
pad_data=
[[ 0.    0.    0.    0.  ]
 [ 0.    0.63 -0.5   0.  ]
 [ 0.   -2.67 -0.47  0.  ]
 [ 0.    0.    0.    0.  ]]

3次元
input_data=
[[[-0.98  0.27]
  [ 1.22  0.47]]

 [[ 0.11 -1.1 ]
  [-1.85  0.7 ]]]
pad_data=
[[[ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.   -0.98  0.27  0.  ]
  [ 0.    1.22  0.47  0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.    0.11 -1.1   0.  ]
  [ 0.   -1.85  0.7   0.  ]
  [ 0.    0.    0.    0.  ]]

 [[ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]
  [ 0.    0.    0.    0.  ]]]



## im2colの実装

### [演習]
* 以下のim2col関数を完成させましょう

In [3]:
# ヒント
print("5//2 = ", 5//2)
print()

input_data = np.random.randn(1,2,2,2).round(2)
print("input_data=\n",input_data)
pad = 2
print()
print("パディング=")
print(np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant'))
print()
print("軸の入れ替え")
input_data.transpose(0, 1,3,2)

5//2 =  2

input_data=
 [[[[ 0.09 -1.87]
   [ 0.45  0.02]]

  [[ 0.75 -0.47]
   [-0.21 -0.28]]]]

パディング=
[[[[ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.09 -1.87  0.    0.  ]
   [ 0.    0.    0.45  0.02  0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]]

  [[ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.75 -0.47  0.    0.  ]
   [ 0.    0.   -0.21 -0.28  0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]
   [ 0.    0.    0.    0.    0.    0.  ]]]]

軸の入れ替え


array([[[[ 0.09,  0.45],
         [-1.87,  0.02]],

        [[ 0.75, -0.21],
         [-0.47, -0.28]]]])

In [4]:
def im2col(input_data, filter_h, filter_w, stride=1, pad=0, constant_values=0):
    """
    input_data : (データ数, チャンネル数, 高さ, 幅)の4次元配列からなる入力データ. 画像データの形式を想定している
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド数
    pad : パディングサイズ
    constant_values : パディング処理で埋める際の値
    return : 2次元配列
    """
    
    # 入力データのデータ数, チャンネル数, 高さ, 幅を取得する
    N, C, H, W = input_data.shape 
    
    # 出力データ(畳み込みまたはプーリングの演算後)の形状を計算する
    out_h = (H + 2*pad - filter_h)//stride + 1 # 出力データの高さ(端数は切り捨てる)
    out_w = (W + 2*pad - filter_w)//stride + 1 # 出力データの幅(端数は切り捨てる)

    # パディング処理
    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)],
                             'constant', constant_values=constant_values) # pad=1以上の場合、周囲を0で埋める
    
    # 配列の初期化
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w)) 

    # 配列を並び替える(フィルター内のある1要素に対応する画像中の画素を取り出してcolに代入する)
    for y in range(filter_h):
        """
        フィルターの高さ方向のループ
        """
        y_max = y + stride*out_h
        
        for x in range(filter_w):
            """
            フィルターの幅方向のループ
            """
            x_max = x + stride*out_w
            
            # imgから値を取り出し、colに入れる
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]
            # y:y_max:strideの意味  :  yからy_maxまでの場所をstride刻みで指定している
            # x:x_max:stride の意味  :  xからx_maxまでの場所をstride刻みで指定している

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1) # 軸を入れ替えて、2次元配列(行列)に変換する
    return col

In [5]:
# データ数が1の場合の確認
np.random.seed(1234)
x1 = np.random.randn(1,3,3,3)
print("x1=",x1.round(2))
print()
print("パディングなし")
col1 = im2col(x1, 2, 2, stride=1, pad=1, constant_values=np.nan)
print("col1=",col1.round(2))

x1= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]]

パディングなし
col1= [[  nan   nan   nan  0.47   nan   nan   nan -2.24   nan   nan   nan  1.32]
 [  nan   nan  0.47 -1.19   nan   nan -2.24  1.15   nan   nan  1.32 -1.55]
 [  nan   nan -1.19  1.43   nan   nan  1.15  0.99   nan   nan -1.55 -0.2 ]
 [  nan   nan  1.43   nan   nan   nan  0.99   nan   nan   nan -0.2    nan]
 [  nan  0.47   nan -0.31   nan -2.24   nan  0.95   nan  1.32   nan -0.66]
 [ 0.47 -1.19 -0.31 -0.72 -2.24  1.15  0.95 -2.02  1.32 -1.55 -0.66  0.19]
 [-1.19  1.43 -0.72  0.89  1.15  0.99 -2.02 -0.33 -1.55 -0.2   0.19  0.55]
 [ 1.43   nan  0.89   nan  0.99   nan -0.33   nan -0.2    nan  0.55   nan]
 [  nan -0.31   nan  0.86   nan  0.95   nan  0.     nan -0.66   nan  1.32]
 [-0.31 -0.72  0.86 -0.64  0.95 -2.02  0.    0.41 -0.66  0.19  1.32 -0.47]
 [-0.72  0.89 -0.

In [6]:
# データ数が1の場合の確認
np.random.seed(1234)
x1 = np.random.randn(1,3,3,3)
print("x1=",x1.round(2))
print()
print("パディングなし")
col1 = im2col(x1, 2, 2, stride=1, pad=0)
print("col1=",col1.round(2))
print()
print("パディングあり")
col1_p = im2col(x1, 2, 2, stride=1, pad=1)
print("col1_p=",col1_p.round(2))

x1= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]]

パディングなし
col1= [[ 0.47 -1.19 -0.31 -0.72 -2.24  1.15  0.95 -2.02  1.32 -1.55 -0.66  0.19]
 [-1.19  1.43 -0.72  0.89  1.15  0.99 -2.02 -0.33 -1.55 -0.2   0.19  0.55]
 [-0.31 -0.72  0.86 -0.64  0.95 -2.02  0.    0.41 -0.66  0.19  1.32 -0.47]
 [-0.72  0.89 -0.64  0.02 -2.02 -0.33  0.41  0.29  0.19  0.55 -0.47  0.68]]

パディングあり
col1_p= [[ 0.    0.    0.    0.47  0.    0.    0.   -2.24  0.    0.    0.    1.32]
 [ 0.    0.    0.47 -1.19  0.    0.   -2.24  1.15  0.    0.    1.32 -1.55]
 [ 0.    0.   -1.19  1.43  0.    0.    1.15  0.99  0.    0.   -1.55 -0.2 ]
 [ 0.    0.    1.43  0.    0.    0.    0.99  0.    0.    0.   -0.2   0.  ]
 [ 0.    0.47  0.   -0.31  0.   -2.24  0.    0.95  0.    1.32  0.   -0.66]
 [ 0.47 -1.19 -0.31 -0.72 -2.24  1.15  0.95 -2.02  1.32 -1.55 -0.66  0.19]

In [7]:
# データ数が5の場合の確認
np.random.seed(1234)
x5 = np.random.randn(5,3,3,3)
print("x5=",x5.round(2))
print()
print("パディングなし")
col5 = im2col(x5, 2, 2, stride=1, pad=0)
print("col5=",col5.round(2))
print()
print("パディングあり")
col5_p = im2col(x5, 2, 2, stride=1, pad=1)
print("col5_p=",col5_p.round(2))

x5= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]


 [[[-1.82 -0.18  1.06]
   [-0.4   0.34  1.05]
   [ 1.05  0.86 -0.12]]

  [[ 0.12 -0.32  0.84]
   [ 2.39  0.08 -0.57]
   [ 0.04 -2.07  0.25]]

  [[-0.9  -0.14  0.02]
   [ 0.76  0.22  0.84]
   [-1.45 -1.4  -0.1 ]]]


 [[[-0.55 -0.14  0.35]
   [-0.04  0.57  1.55]
   [-0.97 -0.07  0.31]]

  [[-0.21  1.03 -2.4 ]
   [ 2.03 -1.14  0.21]
   [ 0.7  -0.79  0.46]]

  [[ 0.7   0.52 -0.93]
   [ 2.01  0.23 -1.15]
   [ 0.63  0.04  0.46]]]


 [[[-3.56  1.32  0.15]
   [ 0.16 -0.43  0.77]
   [ 0.98  0.27  1.39]]

  [[ 0.08 -0.4  -1.03]
   [-0.58  0.82 -0.08]
   [-0.34  0.53 -1.07]]

  [[-0.51  0.29  0.57]
   [ 0.5   0.29  0.48]
   [ 1.36 -0.78 -0.47]]]


 [[[ 1.22 -1.28  0.88]
   [-1.71 -0.45  0.75]
   [-0.2  -0.18  0.68]]

  [[-1.82  0.05  0.39]
   [-0.25 -0.62 -0.68]
   [ 0.44 -1.7   0.

## col2imの実装

### [演習]
* 以下のcol2im関数を完成させましょう

In [8]:
def col2im(col, input_shape, filter_h, filter_w, stride=1, pad=0, is_backward=False):
    """
    Parameters
    ----------
    col : 2次元配列
    input_shape : 入力データの形状,  (データ数, チャンネル数, 高さ, 幅)の4次元配列
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド数
    pad : パディングサイズ
    return : (データ数, チャンネル数, 高さ, 幅)の4次元配列. 画像データの形式を想定している
    -------
    """
    
    # 入力画像(元画像)のデータ数, チャンネル数, 高さ, 幅を取得する
    N, C, H, W = input_shape
    
    # 出力(畳み込みまたはプーリングの演算後)の形状を計算する
    out_h = (H + 2*pad - filter_h)//stride + 1 # 出力画像の高さ(端数は切り捨てる)
    out_w = (W + 2*pad - filter_w)//stride + 1 # 出力画像の幅(端数は切り捨てる)
    
    # 配列の形を変えて、軸を入れ替える
    col = col.reshape(N, out_h, out_w, C, filter_h, filter_w).transpose(0, 3, 4, 5, 1, 2)

    # 配列の初期化
    img = np.zeros((N, C, H + 2*pad + stride - 1, W + 2*pad + stride - 1))  # pad分を大きくとる. stride分も大きくとる
    
    # 配列を並び替える
    for y in range(filter_h):
        """
        フィルターの高さ方向のループ
        """        
        y_max = y + stride*out_h
        for x in range(filter_w):
            """
            フィルターの幅方向のループ
            """            
            x_max = x + stride*out_w
            
            # colから値を取り出し、imgに入れる
            if is_backward:
                img[:, :, y:y_max:stride, x:x_max:stride] += col[:, :, y, x, :, :]
            else:
                img[:, :, y:y_max:stride, x:x_max:stride] = col[:, :, y, x, :, :]
                
    return img[:, :, pad:H + pad, pad:W + pad] # pad分は除いておく(pad分を除いて真ん中だけを取り出す)

In [9]:
# データ数が1の場合の確認
im1= col2im(col1, input_shape=(1, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=0)
print("im1=", im1.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x1 - im1 ).sum())
print()
im1_p= col2im(col1_p, input_shape=(1, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=1)
print("im1_p=", im1_p.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x1 - im1_p ).sum())

im1= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]]

元の形に戻っていることを確認(値が0であればok)
0.0

im1_p= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]]

元の形に戻っていることを確認(値が0であればok)
0.0


In [10]:
# データ数が5の場合の確認
im5 = col2im(col5, input_shape=(5, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=0)
print("im5=", im5.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x5 - im5 ).sum())
print()

im5_p = col2im(col5_p, input_shape=(5, 3, 3, 3), filter_h=2, filter_w=2, stride=1, pad=1)
print("im5_p=", im5_p.round(2))
print()
print("元の形に戻っていることを確認(値が0であればok)")
print((x5 - im5_p ).sum())
print()

im5= [[[[ 0.47 -1.19  1.43]
   [-0.31 -0.72  0.89]
   [ 0.86 -0.64  0.02]]

  [[-2.24  1.15  0.99]
   [ 0.95 -2.02 -0.33]
   [ 0.    0.41  0.29]]

  [[ 1.32 -1.55 -0.2 ]
   [-0.66  0.19  0.55]
   [ 1.32 -0.47  0.68]]]


 [[[-1.82 -0.18  1.06]
   [-0.4   0.34  1.05]
   [ 1.05  0.86 -0.12]]

  [[ 0.12 -0.32  0.84]
   [ 2.39  0.08 -0.57]
   [ 0.04 -2.07  0.25]]

  [[-0.9  -0.14  0.02]
   [ 0.76  0.22  0.84]
   [-1.45 -1.4  -0.1 ]]]


 [[[-0.55 -0.14  0.35]
   [-0.04  0.57  1.55]
   [-0.97 -0.07  0.31]]

  [[-0.21  1.03 -2.4 ]
   [ 2.03 -1.14  0.21]
   [ 0.7  -0.79  0.46]]

  [[ 0.7   0.52 -0.93]
   [ 2.01  0.23 -1.15]
   [ 0.63  0.04  0.46]]]


 [[[-3.56  1.32  0.15]
   [ 0.16 -0.43  0.77]
   [ 0.98  0.27  1.39]]

  [[ 0.08 -0.4  -1.03]
   [-0.58  0.82 -0.08]
   [-0.34  0.53 -1.07]]

  [[-0.51  0.29  0.57]
   [ 0.5   0.29  0.48]
   [ 1.36 -0.78 -0.47]]]


 [[[ 1.22 -1.28  0.88]
   [-1.71 -0.45  0.75]
   [-0.2  -0.18  0.68]]

  [[-1.82  0.05  0.39]
   [-0.25 -0.62 -0.68]
   [ 0.44 -1.7   0