# Deep-Learning-from-Scratch
## 7.4 합성곱/풀링 계층 구현하기

이번 절에서도 앞선 '5장 오차역전파법'에서와 같이 클래스를 구현하며 forward()와 backward()메서드를 추가하여 모듈로 이용할 수 있도록 한다.<br/>
한마디로 클래스 구현 및 forward(), backward() 구현!

* 목차
    * 7.4.1 4차원 배열
    * 7.4.2 im2col로 데이터 전개하기
    * 7.4.3 합성곱 계층 구현하기
    * 7.4.4 풀링 계층 구현하기

### 7.4.1 4차원 배열

앞서 설명한 대로 CNN에서 계층 사이를 흐르는 데이터는 4차원이다.<br/>

In [1]:
# example

import numpy as np

x = np.random.rand(10, 1, 28, 28)  # 4차원 배열의 원소들이 의미하는 바는 무엇일까?
x.shape

(10, 1, 28, 28)

10개의 데이터가 1개의 채널로 들어오는데 이때 높이와 너비는 각각 28이다! 그러면 10개의 데이터 중 첫 번째 데이터에 접근하려면 어떻게 해야할까?

In [3]:
# No.1 첫번째 데이터에 접근하려면 어떻게 해야할까?

print(x[0].shape)

(1, 28, 28)


In [5]:
print(x[1].shape)

(1, 28, 28)


위와 같은 데이터가 10개 있다...

In [6]:
# 두번째 데이터에 접근하려면? 아니 세번째 네번쨰는?

# 마찬가지로 첫번 째 원소의 인덱스를 사용해서 접근할 수 있다.

print(x[1].shape)
print(x[2].shape)
print('...')

(1, 28, 28)
(1, 28, 28)
...


그렇다면 이번에는 첫 번째 데이터의 첫 채널의 공간 데이터에 접근하고 싶다!

In [13]:
x[0, 0].shape  # 또는 x[0][0]

(28, 28)

In [14]:
x[0][0].shape

(28, 28)

im2col라는 트릭을 통해 합성곱 연산을 구해보자

### 7.4.2 im2col로 데이터 전개하기

합성곱 연산을 구현하기 위해서는 for문을 겹겹이 쌓아야 할 것 같지만, 넘파이에서 for문을 사용하면 성능이 떨어진다는 단점이 있다.<br/>
이번 적에서는 for문 대신 im2col라는 편의 함수를 사용해 합성곱 연산을 간단하게 구현해보도록 하겠다.

im2col은 입력 데이터를 필터링(가중치 계산)하기 좋게 전개하는(펼치는)함수이다.<br/>
im2col을 적용하면 3차원 입력데이터를 2차원 행렬로 변환할 수 있다.<br/>
정확히는 배치 안의 데이터 수까지 포함한 4차원 데이터를 2차원으로 변환한다.

im2col은 필터링하기 좋게 입력 데이터를 전개한다.<br/>
구체적으로 입력 데이터에서 필터를 적용하는 영역(3차원 블록)을 한 줄로 늘어놓는다.

* im2col(Image to Column)
    * 입력데이터에서 필터를 적용하는 영역을 한 줄로 늘어놓는다.
    * 필터가 여러겹 겹치게 되면 im2col로 전개한 후의 원소 수가 월래 블록 수보다 많아지게 된다
    * 필터가 겹쳐 계산량이 많아지는 문제는 선형대수 라이브러리로 효율적으로(빠르게) 계산할 수 있다.
    * im2col로 입력 데이터를 전개한 다음에는 합성곱 계층 필터(가중치)를 1열로 전개하고, 두 행렬의 곱을 계산하면 된다.

im2col  방식으로 출력한 결과는 2차원 행렬이다. CNN은 데이터를 4차원 배열로 저장하므로 2차원인 출력 데이터를 4차원으로 변형(reshape) 한다.<br/>
이상 합성곱 계층 구현 흐름이다.

### 7.4.3 합성곱 계층 구현하기

이 책에서는 im2col 함수를 미리 만들어 제공한다. 하지만 구현은 간단한 함수 10개정도를 묶은것이니...<br/>
한번 직접 구해보자! --> ???!

* im2col - 다수의 이미지를 입력받아 2차원 배열로 변환한다(평탄화)
* 파라미터
    * input_data:
    * filter_h:
    * filter_w,
    * stride
    * pad
* im2col은 '필터 크기', '스트라이드', '패딩'을 고려하여 입력 데이터를 2차원 배열로 전개한다.   

In [15]:
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """다수의 이미지를 입력받아 2차원 배열로 변환한다(평탄화).
    
    Parameters
    ----------
    input_data : 4차원 배열 형태의 입력 데이터(이미지 수, 채널 수, 높이, 너비)
    filter_h : 필터의 높이
    filter_w : 필터의 너비
    stride : 스트라이드
    pad : 패딩
    
    Returns
    -------
    col : 2차원 배열
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

In [17]:
import sys, os
# sys.path.append()
# from common.util import im2col

x1 = np.random.rand(1, 3, 7, 7)           # (데이터 수, 채널 수, 높이, 너비)
col1 = im2col(x1, 5, 5, stride=1, pad=0)  # (입력 데이터, 필터의 높이, 필터의 너비, 스트라이드, 패딩)
print(col1.shape)  # (9, 75) why?

x2 = np.random.rand(10, 3, 7, 7)  # 데이터 1개
col2 = im2col(x2, 5, 5, stride=1, pad=0)
print(col2.shape)  # (90, 75)  why?


(9, 75)
(90, 75)


* x1은 데이터의 개수가 1이다.(배치 크기가 1)
    * 채널은 3개, 높이.너비가 7x7인 데이터이다
* x2는 배치 크기가 10이고 나머지(채널, 높이, 너비)는 첫번째와 같다.

im2col을 사용하여 합성곱 계층을 구현해보자<br/>
합성곱 계층을 Convolution라는 클래스로 구현한다.

In [18]:
class Convolution:
    def __init__(self, W, b, stride=1, pad=0):
        self.W = W
        self.b = B
        self.stride = stride
        self.pad = pad
        
    def forward(self, x):
        FN, C, FH, FW = self.W.shape
        N, C, H, W = x.shape
        out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
        out_w = int(1 + (W + 2*self.pad - FW) / self.stride)
        
        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T
        out = np.dot(col, col_W) + self.b
        
        out = out.reshape(N, out_h, out_W, -1).transpose(0, 3, 1, 2)
        
        return out

이상이 합성곱 계층의  forward 구현이다.<br/>
im2col로 전개한 덕분에 완전연결 계층의 Affine계층과 거의 똑같이 구현할 수 있었다.

In [19]:
# 합성곱 계층의 역전파를 구현하기 위해서 common/layer.py의 함수를 이용하자 

def col2im(col, input_shape, filter_h, filter_w, stride=1, pad=0):
    """(im2col과 반대) 2차원 배열을 입력받아 다수의 이미지 묶음으로 변환한다.
    
    Parameters
    ----------
    col : 2차원 배열(입력 데이터)
    input_shape : 원래 이미지 데이터의 형상（예：(10, 1, 28, 28)）
    filter_h : 필터의 높이
    filter_w : 필터의 너비
    stride : 스트라이드
    pad : 패딩
    
    Returns
    -------
    img : 변환된 이미지들
    """
    N, C, H, W = input_shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1
    col = col.reshape(N, out_h, out_w, C, filter_h, filter_w).transpose(0, 3, 4, 5, 1, 2)

    img = np.zeros((N, C, H + 2*pad + stride - 1, W + 2*pad + stride - 1))
    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            img[:, :, y:y_max:stride, x:x_max:stride] += col[:, :, y, x, :, :]

    return img[:, :, pad:H + pad, pad:W + pad]

im2col은... 여기서 잠깐 스톱하자... 뒤의 7.5 CNN 구현부터 하고 다시 돌아오자!