 # Chapter7 합성곱 신경망 (CNN)
 **Convolutional neural network**  
 ## 7.1 전체 구조
 **합성곱 계층** convolutional layer  
 **풀링 계층** pooling layer  
 **완전연결** fully connected, **Affine 계층**  
 <img style="float: left;" src="equations_and_figures/fig%207-1.png" width="600">
 <img style="float: left;" src="equations_and_figures/fig%207-2.png" width="600">  

## 7.2 합성곱 계층
**패딩** padding, **스트라이드** stride 
### 7.2.1 완전연결 계층의 문제점  
데이터의 형상이 무시됨 (3차원 -> 1차원)  
### 7.2.2 합성곱 연산  
 <img style="float: left;" src="equations_and_figures/fig%207-3.png" width="500"> 

필터 = **커널**  
합성곱 연산은 필터의 **윈도우**를 일정 간격으로 이동해가며 입력 데이터에 적용  
**단일 곱셈-누산** fused multiply-add, FMA  
 <img style="float: left;" src="equations_and_figures/fig%207-4.png" width="500">  
 <img style="float: left;" src="equations_and_figures/fig%207-5.png" width="600"> 

### 7.2.3 패딩  
합성곱 연산을 수행하기 전에 입력 데이터 주변을 특정 값(0)으로 채움; **패딩** padding  
출력 크기를 조정할 목적으로 사용  
 <img style="float: left;" src="equations_and_figures/fig%207-6.png" width="500">  

### 7.2.4 스트라이드  
필터를 적용하는 위치의 간격을 **스트라이드** stride  
스트라이드를 키우면 출력 크기는 작아짐  
 <img style="float: left;" src="equations_and_figures/fig%207-7.png" width="500">  

패딩, 스트라이드, 출력 크기 계산  
입력 크기 $(H, W)$  
필터 크기 $(FH, FW)$  
출력 크기 $(OH, OW)$  
패딩 $P$  
스트라이드 $S$  
<img style="float: left;" src="equations_and_figures/e%207.1.png" width="200">

### 7.2.5 3차원 데이터의 합성곱 연산  
 입력 데이터의 채널 수와 필터의 채널 수가 같아야 한다.  
 모든 채널의 필터가 같은 크기여야 한다.  
 <img style="float: left;" src="equations_and_figures/fig%207-8.png" width="500">  
 <img style="float: left;" src="equations_and_figures/fig%207-9.png" width="500">


### 7.2.6 블록으로 생각하기  
 <img style="float: left;" src="equations_and_figures/fig%207-10.png" width="500">  
 <img style="float: left;" src="equations_and_figures/fig%207-11.png" width="500">  
 <img style="float: left;" src="equations_and_figures/fig%207-12.png" width="650">  

### 7.2.7 배치 처리  
 <img style="float: left;" src="equations_and_figures/fig%207-13.png" width="650">  

## 7.3 풀링 계층  
풀링은 세로 가로 방향의 공간을 줄이는 연산  
2X2 **최대풀링** max pooling 을 스트라이드 2로 처리  
최대 풀링 외에도 **평균 풀링** average pooling 등이 있다.  
 <img style="float: left;" src="equations_and_figures/fig%207-14.png" width="650">  

### 7.3.1 풀링 계층의 특징  
- 학습해야 할 매개변수가 없다  
- 채널 수가 변하지 않는다  
- 입력의 변화에 영향을 적게 받는다 (강건하다)  
 <img style="float: left;" src="equations_and_figures/fig%207-15.png" width="450">  
 <img style="float: left;" src="equations_and_figures/fig%207-16.png" width="550">  


## 7.4 합성곱/풀링 계층 구현하기
### 7.4.1 4차원 배열

In [None]:
import numpy as np

x = np.random.rand(10, 1, 28, 28)
x.shape

In [None]:
x[0].shape
x[1].shape

In [None]:
x[0, 0]

### 7.4.2 im2col로 데이터 전개하기  
im2col은 입력 데이터를 필터링 (가중치 계산)하기 좋게 전개하는(펼치는) 함수  
배치 안의 데이터 수까지 포함한 4차원의 데이터를 2차원으로 변환  
 <img style="float: left;" src="equations_and_figures/fig%207-17.png" width="400">  
 <img style="float: left;" src="equations_and_figures/fig%207-18.png" width="400">  
 <img style="float: left;" src="equations_and_figures/fig%207-19.png" width="600">  

### 7.4.3 합성곱 계층 구현하기  

In [None]:
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """다수의 이미지를 입력받아 2차원 배열로 변환한다(평탄화).
    
    Parameters
    ----------
    input_data : 4차원 배열 형태의 입력 데이터(이미지 수, 채널 수, 높이, 너비)
    filter_h : 필터의 높이
    filter_w : 필터의 너비
    stride : 스트라이드
    pad : 패딩
    
    Returns
    -------
    col : 2차원 배열
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

In [None]:
import sys, os
sys.path.append(os.pardir)
from common.util import im2col

x1 = np.random.rand(1, 3, 7, 7) # (데이터 수, 채널 수, 높이, 너비)
col1 = im2col(x1, 5, 5, stride=1, pad=0)
print(col1.shape)

x2 = np.random.rand(10, 3, 7, 7) # 데이터 10개
col2 = im2col(x2, 5, 5, stride=1, pad=0)
print(col2.shape)

In [None]:
class Convolution:
    def __init__(self, W, b, stride=1, pad=0):
        self.W = W
        self.b = b
        self.stride = stride
        self.pad = pad
    
    def forward(self, x):
        FN, C, FH, FW = self.W.shape
        N, C, H, W = x.shape
        out_h = 1 + int((H + 2*self.pad - FH) / self.stride)
        out_w = 1 + int((W + 2*self.pad - FW) / self.stride)

        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T

        out = np.dot(col, col_W) + self.b
        out = out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)

        self.x = x
        self.col = col
        self.col_W = col_W

        return out

 <img style="float: left;" src="equations_and_figures/fig%207-20.png" width="500">  

### 7.4.4 풀링 계층 구현하기  
1. 입력 데이터를 전개한다.  
2. 행별 최댓값을 구한다.  
3. 적절한 모양으로 성형한다.  
 <img style="float: left;" src="equations_and_figures/fig%207-21.png" width="400">  
 <img style="float: left;" src="equations_and_figures/fig%207-22.png" width="600">  

In [None]:
class Pooling:
    def __init__(self, pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride = stride
        self.pad = pad

    def forward(self, x):
        N, C, H, W = x.shape
        out_h = int(1 + (H - self.pool_h) / self.stride)
        out_w = int(1 + (W - self.pool_w) / self.stride)

        col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)

        out = np.max(col, axis=1)
        out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)

        self.x = x
        self.arg_max = arg_max

        return out