# 합성곱 신경망 (CNN)
- CNN (Convolutional neural network)
- 이미지 인식과 음성 인식 등 다양한 곳에서 사용

## 7.1 전체 구조
- 완전 연결 : 인접하는 계층의 모든 뉴런과 결합되어 있는 것
- Affine 계층 : 완전 연결된 계층

![image-2.png](attachment:image-2.png)

- CNN 에서 출력에 가까운 층에서는 'Affine-ReLU' 구성 사용 가능
- 마지막 출력 계층에서는 'Affine-Softmax' 조합 사용

## 7.2 합성곱 계층

### 7.2.1 완전 연결 계층의 문제점
- 데이터의 형상이 무시된다
- 이미지는 3차원 데이터인데, 완전 연결 계층에서 입력할 때는 1차원으로 평탄화해야한다
- 합성곱 계층은 형상을 유지한다
- 특징맵(Feature map): 합성곱 계층의 입출력 데이터

### 7.2.2 합성곱 연산
- 필터(커널) 연산 : 합성곱 연산은 입력 데이터에 필터를 적용한다
- 필터의 윈도우를 일정 간격으로 이동해가며 입력 데이터에 적용한다
- 입력과 필터에서 대응하는 원소끼리 곱한 후 총합을 구한다 (단일 곱셈-누산, FMA)
- 편향은 필터를 적용한 후의 데이터에 더해진다 
- 편향은 항상 하나만 존재 (1x1)

![image-3.png](attachment:image-3.png)

### 7.2.3 패딩
- 패딩 : 합성곱 연산을 수행하기 전 입력 데이터 주변을 특정 값(0)으로 채우기도 한다
- 패딩은 주로 출력 크기를 조정할 목적으로 사용
- 합성곱 연산을 거칠 떄마다 크기가 작아지면서 어느 시점에서는 출력 크기가 1이 되어 합성곱 연산을 적용할 수 없는 사태를 막기 위해 패딩 사용

### 7.2.4 스트라이드
- 필터를 적용하는 위치의 간격
- 스트라이드를 키우면 출력 크기는 작아지고, 패딩을 키우면 출력 크기가 커진다

![image-4.png](attachment:image-4.png)

### 7.2.5 3차원 데이터의 합성곱 연산
- 길이 방향 (채널 방향) 으로 Feature map 이 늘어났다
- **입력 데이터의 채널 수와 필터의 채널 수가 같아야 한다!**
- 필터 자체의 크기는 원하는 값을 바꿀 수 있다

### 7.2.6 블록으로 생각하기
- (C, H, W) - 채널, 높이, 너비 순서
- 다수의 채널을 내보내려면 필터를 여러개 사용한다
- (C, H, W ) * (FN, C, FH, FW ) -> (FN, OH, OW )
- 편향 :  (FN, 1, 1 ) 

### 7.2.7 배치 처리
- 데이터를 (데이터 수, 채널 수, 높이, 너비)순으로 저장
- 배치 처리 시 선두에 배치용 차원을 추가
- 신경망에서 4차원 데이터가 하나 흐를 때마다 데이터 N 개에 대한 합성곱 연산이 수행됨 -> N 회 분의 처리를 한 번에 수행

![image-5.png](attachment:image-5.png)


## 7.3 풀링 계층
- 풀링은 세로, 가로 방향의 공간을 줄이는 연산
- Max Pooling : 최대 풀링은 최댓값ㅇ르 구하는 연산
- 풀링의 윈도우 크기 = 스트라이트
- 평균 풀링 ( Avg pooling)

### 7.3.1 풀링 계층의 특징
1. 학습해야 할 매개변수가 없다
2. 채널 수가 변하지 않는다
3. 입력의 변화에 영향을 적게 변한다

## 7.4 합성곱 /풀링 계층 구현하기

### 7.4.1 4차원 배열

In [3]:
import numpy as np
x = np.random.rand(10,1,28,28)
x.shape 

# 데이터 수 , 채널 수 , 높이, 너비

(10, 1, 28, 28)

In [4]:
x[0].shape

(1, 28, 28)

In [5]:
x[0,0]

# 첫 데이터의 채널의 공간 데이터 접근

array([[7.69493528e-01, 6.16959330e-01, 8.14600730e-01, 2.95762638e-01,
        6.38313720e-01, 7.17719107e-01, 7.77997365e-01, 6.91357156e-01,
        3.65386103e-01, 7.50288282e-01, 5.39919099e-01, 1.82562169e-01,
        9.94956585e-01, 9.44449428e-01, 1.93118145e-02, 1.12196547e-01,
        5.52921321e-01, 9.66783957e-01, 8.44456604e-01, 5.63023498e-01,
        2.83600107e-01, 4.37176495e-01, 8.50222871e-01, 6.68513601e-01,
        8.61295191e-01, 8.48102768e-01, 4.52580628e-01, 4.55733005e-01],
       [5.11640717e-01, 3.66789866e-01, 5.23317018e-01, 3.60971193e-01,
        5.50967667e-02, 9.21469702e-01, 8.39121791e-03, 5.55637485e-01,
        8.51892926e-01, 2.08936803e-01, 8.39643870e-01, 7.94384219e-01,
        1.60012332e-01, 8.42491249e-01, 5.46390747e-01, 8.79081060e-01,
        6.13573001e-01, 9.54242985e-01, 7.32116364e-01, 6.15339211e-01,
        3.94923372e-01, 5.34438864e-01, 5.89566933e-01, 2.02448338e-01,
        1.49162766e-01, 6.54314825e-01, 3.38700534e-01, 3.31039

### 7.4.2 im2col 로 데이터 전개하기
- 입력 데이터를 필터링 하기 좋게 전개하는 함수
- 3차원 데이터에im2col 을 적용하면 2차원 행렬로 바뀜
- 필터링하기 좋게 입력 데이터를 전개한다
- 실제 상황에서는 필터 적용 영역이 겹치게 된다 -> 원소 수가 원래 블록의 원소 수보다 많아진다
- 메모리를 더 많이 사용하게 된다는 단점이 있다
- im2col로 입력 데이터를 전개하고 합성곱 계층의 필터를 1열로 전개하고, 두 행렬곱 계산
- 출력 할 때는 데이터를 4차원으로 변형한다


### 7.4.3 합성곱 계층 구현하기

In [45]:
import os

# 현재 작업 디렉토리 확인
current_directory = os.getcwd()
print("현재 작업 디렉토리:", current_directory)

# 상위 폴더로 이동
parent_directory = os.path.abspath(os.path.join(current_directory, os.pardir))
os.chdir(parent_directory)

# 한 번 더 상위 폴더로 이동
grandparent_directory = os.path.abspath(os.path.join(parent_directory, os.pardir))
os.chdir(grandparent_directory)

from common.util import im2col


x1 = np.random.rand(1,3,7,7)
col1 = im2col(x1, 5,5,stride=1, pad=0)
print(col1.shape)

x2 = np.random.rand(10,3,7,7)
col2 = im2col(x2, 5,5,stride=1, pad=0)
print(col2.shape)


현재 작업 디렉토리: /
현재 작업 디렉토리의 파일 이름 리스트: ['home', 'usr', 'bin', 'sbin', '.file', 'etc', 'var', 'Library', 'System', '.VolumeIcon.icns', 'private', '.vol', 'Users', 'Applications', 'opt', 'dev', 'Volumes', 'tmp', 'cores']
(9, 75)
(90, 75)


In [27]:
class Convolution:
    def __init__(self,W,b, stride =1, pad=0):
        self.W=W #필터(가중치)
        self.b = b #편향
        self.stride = stride #스트라이드
        self.pad=pad #패딩
        
    def forward(self,x):
        FN, C, FH, FW = self.W.shape #필터
        N,C,H,W =x.shape
        out_h = int(1+(H+2*self.pad-FH)/self.stride)
        out_w= int(1+(W+2*self.pad-FW)/self.stride)
         
        col = im2col(x,FH, FW , self.stride, self.pad) #입력 데이터를 im2col 로 전개
        col_W = self.W.reshape(FN, -1).T #필터토 reshape 을 사용해 2차원 배열로 전개
        out = np.dot(col, col_W) +self.b #두 행렬의 곱
        
        out = out.reshape(N, out_h, out_w,-1).transpose(0,3,1,2)
        return out

In [28]:
class Pooling:
    def __init__(self,pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride= stride
        self.pad= pad
        
    def forward(self,x):
        N,C,H,W = x.shape
        out_h = int(1+(H-self.pool_h)/self.stride)
        out_w = int(1+(W-self.pool_w)/self.stride)
        
        col = im2col(x,self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)
        
        out = np.max(col, axis=1)
        
        out = out.reshape(N, out_h, out_w, C).transpose(0,3,1,2)
        
        return out

## 7.5 CNN 구현하기

In [None]:
class SimpleConvNet:
    def __init__(self,input_dim=(1,28,28),
                                conv_param={'filter_num':30, 'filter_size':5, 
                                           'pad':0, 'stride':1},
                                hidden_size = 100, output_size=10,  weight_init_std= 0.01):
        filter_num = conv_param['filter_num']
        filter_size = conv_param['filter_size']
        filter_pad = conv_param['pad']
        filter_stride = conv_param['stride']
        input_size = input_dim[1] 
        conv_output_size = (input_size-filter_size+2*filter_pad)/ filter_stride+1
        pool_output_size = int(filter_num * (conv_output_size/2) * (conv_output_size/2))
    
        self.params={}
        self.params['W1'] = weight_init_std * np.random.randn(filter_num, input_dim[0], filter_size, filter_size)
        self.params['b1'] = np.zeros(filter_num)
        self.params['W2']=weight_init_std*np.random.randn(pool_output_size, hidden_size)
        self.params['b2']=np.zeros(hidden_size)
        self.params['W3']=weight_init_std*np.random.randn(hidden_size,output_size)
        self.params['b3']=np.zeros(output_size)
    
        self.layers = OrderedDict()
        self.layers['Conv1'] = Convolution(self.params['W1'],
                                      self.params['b1'],
                                      conv_param['stride'],
                                      conv_param['pad'])
    
        self.layers['Relu1']= Relu()
        self.layers['Pool1'] = Pooling(pool_h =2, pool_w=2, stride=2)
        self.layers['Affine1'] = Affine(self.params['W2'],
                                   self.params['b2'])
        self.layers['Relu2'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W3'],
                                   self.params['b3'])
        self.last_layer=SoftmaxWithLoss()
        
    def predict(self,x):
        for layer in self.layers.values():
            x = layer.forward(x)
        return x
    
    def loss(self,x,t):
        y = self.predict(x)
        return self.last_layer.forward(y,t)
    
    def gradient(self,x,t):
        self.loss(x,t)
        
        dout=1
        dout = self.last_layer.backward(dout)
        
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)
            
        grads = {}
        grads['W1'] = self.layers['Conv1'].dW
        grads['b1'] = self.layers['Conv1'].db
        grads['W2'] = self.layers['Affine1'].dW
        grads['b2'] = self.layers['Affine1'].db
        grads['W3'] = self.layers['Affine2'].dW
        grads['b3'] = self.layers['Affine2'].db
        
        return grads
        

## 7.7 대표적인 CNN

### 7.1.1 LeNet
- 손글씨 숫자를 인식하는 네트워크
- 합성곱 계층, 풀링 계층을 반복하고, 마지막으로 완전연결 계층을 거치면서 결과 출력
- 주로 시그모이드 함수를 사용
- 서브 샘플링하여 중간 데이터의 크기가 작아진다

### 7.7.2 AlexNet
- 활성화 함수로 ReLU 를 이용한다
- LRN 이라는 국소적 정규화를 실시하는 계층을 이용한다
- 드롭 아웃을 이용한다