### 합서성곱 신경망(CNN)모델 이해하기 목차

* [Chapter 1 최초의 CNN 모델 - LeNet](#chapter1)
* [Chapter 2 합성곱 신경망과 인공 신경망의 차이점](#chapter2)
* [Chapter 3 합성곱층 만들기](#chapter3)
   * [Section 3.1 입력과 출력사이의 관계](#section_3_1)
   * [Section 3.2 풀링층과 밀집층](#section_3_2)

### Chapter 1 최초의 CNN 모델 - LeNet <a class="anchor" id="chapter1"></a>


1. 페이스북의 얀 르쿤이 개발한 딥러닝 모델로 필기 숫자 인식을 위해 설계되었다.
    - 미국 우편 서비스에서 우편물의 우편번호를 자동으로 인식하기 위해 처음으로 합성곱 신경망으로 적용되었다.
    - 1998년 논문 Gradient-Based Learning Applied to Document Recognition에서 소개되었고, LeNet이라는 이름으로 알려졌다.
    - LeNet은 르넷이라고 발음한다.

### Chapter 2 합성곱 신경망과 인공 신경망의 차이점 <a class="anchor" id="chapter2"></a>
1. 합성곱 신경망(Convolutional Neural Network)과 인공 신경망(Artifical Neural Network)의 차이점
    - 인공 신경망(ANN)은 입력층, 은닉층, 출력층을 거쳐 데이터를 처리하며, 비교적 간단한 텍스트 분류 작업이나 금융데이터 예측에 사용된다.
![인공신경망](image/01-02-ANN2.png)
   - 합성곱 신경망(CNN)은 이미지를 다룰 때 인공 신경망이 갖고이 있는 문제를 해결하기위해 설계되었습니다.
      * 이미지와 같은 2차원 데이터에 특화된 신경망으로, 합성곱 층, 풀링 층, 완전 연결 층 등으로 구성된다.
      * 합성곱층: 이미지의 작은 부분을 스캔하여 중요한 특성을 추출, 이렇게 추출된 출력을 특성 맵이라고한다.
         - 입력된 이미지보다 더 큰 입력을 만들기 위해 이미지 가장자리에 빈 공간을 추가하는 과정을 패딩이라고한다.
         - 패딩의 실제 입력 값이 아니기 때문에 0으로 체워져 있어 합성곱에 영향을 주지않는다.
         - 입력과 특성 뱁의 크기를 동잏하게 만드는 세임 패딩과 순수한 입력 배열에 대해서만 합성곱을 수행하는 벨리드 패딩이 있다.
         - 스트라이드: 필터가 이미지를 몇 칸씩 이동하는지 설정한다. 크면 이미지 계산량은 줄어들지만 세밀한 페턴을 노칠수있다. 
      * 풀링층: 특성 맵을 축소해 처리 속도를 높이고, 모델을 더 중요한 패턴에 집중하도록 한다.
      * 밀집층: 이전 층에서 추출된 특성을 바탕으로 최종 결과를 도출한다.
![합성곱신경망](image/02-02-CNN.png)    

### Chapter 3 합성곱층 만들기 <a class="anchor" id="chapter3"></a>

In [1]:
import keras
from keras import layers

# 정해진 위치에 값만 전달해도 되지만, 의미를 분명하게 드러내기 위해 매개변수 이름과 같이 사용한다.
#   - filters: 필터의 개수, 합성곱층 출력의 마지막 차원을 결정한다.
#   - kernel_size: 필터의 크기, 처음 두 차원에 해당하는 높이와 너비를 지정한다.
conv1 = layers.Conv2D(filters=10, kernel_size=(3, 3))

import numpy as np

x = np.random.random((10, 28, 28, 1))  # (샘플 수, 높이, 너비, 채널 수)
conv_out = conv1(x)  # 합성곱층에 입력을 전달한다.

# 첫 번째 값: 배치 차원으로 10개의 샘플이 있다.
# 두 번째, 세 번째 값: 필터 크기(3x3)를 적용해 28x28 이미지가 26x26으로 줄어들었다.
# 네 번째 값: 필터 개수(10)만큼 특성 맵이 생성되었다.
# 합성곱 연산은 특성 맵의 깊이가 깊어지면서 모델이 점점 더 복잡한 정보와 세부적인 패턴을 이해하게 만든다.
#   - 이미지의 크기가 점점 작어지면서 중요한 특성만 남는다.
print(conv_out.shape)  # (10, 26, 26, 10)

(10, 26, 26, 10)


#### Section 3.1 입력과 출력사이의 관계<a class="anchor" id="section_3_1"></a>
(4, 4, 5) 크기의 입력, (3, 3, 5) 필터 10개, 스트라이드 1
   1. 필터의 깊이는 기본적으로 입력의 깊이(또는 채널)와 같다.
      - 필터의 깊이: 5
   2. 하나의 필터가 하나의 특성맵을 만들기 때문에 필터의 개수가 곧 특성맵의 깊이가 된다.
      - 특성맵의 깊이: 10
   3. 패딩을 사용하지 않는 경우 특성맵의 깊이는 깊어지고, 공간 방향의 차원은 줄어든다.
      - 특성맵의 크기: (2, 2, 10) 

      ![입출력관계](image/02-03-IN_OUT.png)            

합성곱 연산은 특성 맵의 깊이가 깊어지면서 복잡한 정보와 세부적인 패턴을 이해 하게되고, 
공간 차원이 줄어들면서 중요한 특성만이 남는다.

In [2]:
# 정해지 위치에 값만 전달해도 되지만, 의미를 분명하게 드러내기 위해 매개변수 이름과 같이 사용한다.
#   - filters: 필터의 개수, 합성곱층 출력의 마지막 차원을 결정한다.
#   - kernel_size: 필터의 크기, 처음 두 차원에 해당하는 높이와 너비를 지정한다.
#   - strides: 필터를 적용하는 간격, 기본값은 (1, 1)이며 (2, 2)로 지정하면 특성 맵의 크기가 절반으로 줄어든다.
#              strides=1 처럼 정수하나로도 지정가능하다.
conv2 = layers.Conv2D(filters=10, kernel_size=(3, 3), strides=(2, 2))

# (10, 26, 26, 10) 에서 특성맵의 크기가 반으로 줄어들었다. --> (10, 13, 13, 10)
print(conv2(x).shape)  

(10, 13, 13, 10)


In [3]:
# 정해지 위치에 값만 전달해도 되지만, 의미를 분명하게 드러내기 위해 매개변수 이름과 같이 사용한다.
#   - filters: 필터의 개수, 합성곱층 출력의 마지막 차원을 결정한다.
#   - kernel_size: 필터의 크기, 처음 두 차원에 해당하는 높이와 너비를 지정한다.
#   - strides: 필터를 적용하는 간격, 기본값은 (1, 1)이며 (2, 2)로 지정하면 특성 맵의 크기가 절반으로 줄어든다.
#              strides=1 처럼 정수하나로도 지정가능하다.
#   - padding: 'same' 입력과 특성 맹이 동일한 크기가 되도록 0으로 채운다.
#              'valid' 기본값, 패딩을 적용하지 않는다.
conv2 = layers.Conv2D(filters=10, kernel_size=(3, 3), strides=(2, 2), padding='same')

# (10, 28, 28, 10) 에서 스트라이드 2, same 패딩이기 때문에 입력의 정확히 절반으로 줄력되어 출력된다.
# --> (10, 14, 14, 10)
print(conv2(x).shape)  

(10, 14, 14, 10)


In [4]:
# 정해지 위치에 값만 전달해도 되지만, 의미를 분명하게 드러내기 위해 매개변수 이름과 같이 사용한다.
#   - filters: 필터의 개수, 합성곱층 출력의 마지막 차원을 결정한다.
#   - kernel_size: 필터의 크기, 처음 두 차원에 해당하는 높이와 너비를 지정한다.
#   - strides: 필터를 적용하는 간격, 기본값은 (1, 1)이며 trides=1 처럼 정수하나로도 지정가능하다.
#   - padding: 'same' 입력과 특성 맹이 동일한 크기가 되도록 0으로 채운다.
#              'valid' 기본값, 패딩을 적용하지 않는다.
conv2 = layers.Conv2D(filters=10, kernel_size=(3, 3), strides=(1, 1), padding='same')

# (10, 28, 28, 10) 에서 스트라이드 1, same 패딩이기 때문에 입력과 동일한 크기가 출력된다.
# --> (10, 28, 28, 10)
print(conv2(x).shape)  

(10, 28, 28, 10)


#### Section 3.2 풀링층과 밀집층<a class="anchor" id="section_3_2"></a>
1. 풀링은 입력된 텐서의 높이와 너비를 줄이면서 픽셀 값을 압축하는 기능을 수행한다.
   - 이미지의 크기를 줄이면서 합성곱층에서 추출한 중요 정보를 압축
   - 첫 번째 배치 차원과 마지막 차원을 제외한 나머지 차원의 크기를 줄인다.
2. 풀링은 평균 풀링(average pooling)과 최대 풀링(max pooling)이 있다.
   - 풀링 윈도(pooling window)라고 부르는 사각 영영이 입력 텐서 위를 지나간다.
   - 평균값을 계산하거나 최댓값을 선택한다.
      * 평균값: 이미지의 전체적인 특성 출력
      * 최댓값: 가장 강한 특성을 출력

      ![입출력관계](image/02-04-Pooling.png)    

3. 합성곱층은 필터가 있어 입력 텐서에 가중치를 곱해서 특성맵을 생성하지만, 풀링에는 입력에 곱해지는 값이 없다.
4. 풀링층에도 합성곱층의 커널 크기에 대응하는 풀링크기가 있고, 스트라이드와 패딩도 지정가능하다.
5. 스트라이드의 크기가 항상 풀링크기와 같다.
   - strides의 기본값인 'None'를 그대로 사용하면 풀링 크기에 맞춰 스트라이드가 성정된다.
6. padding의 기본값은 'valid'이다.
   - 풀링의 목정이 특성맵의 높이와 너비를 줄이는 것이므로 'same'으로 지정하는 경우는 거의없다. 

In [None]:
pool1 = layers.AveragePooling2D(pool_size=(2))
pool2 = layers.AveragePooling2D(pool_size=(3))

print(x.shape)        # (10, 28, 28, 1)

# pool_size=(2) 이므로 (28, 28) -> (14, 14)
#    - 채널 수는 변하지 않으므로 마지막 차원은 그대로 1
print(pool1(x).shape)  # (10, 14, 14, 1)

# pool_size=(3) 이므로 (28, 28) -> (9, 9)
#    - 채널 수는 변하지 않으므로 마지막 차원은 그대로 1
print(pool2(x).shape)  # (10, 9, 9, 1)

(10, 28, 28, 1)
(10, 14, 14, 1)
(10, 9, 9, 1)


   7. 밀집층은 입력과 가중치의 점곱(dot product)을 수행한다.
      - y = x • W + b (x: 입력, y: 출력, W: 커널, y: 절편)
      - 유닛이 3개인 밀집층에 특성이 2개인 입력을 사용한 예제

         ![밀집층](image/02-05-Dense2.png)    

         * 밀집층의 커널 크기는 (입력 크기, 유닛 개수)
            - (2, 3) - 2: 입력 특성 개수, 3: 유닛 개수 

In [None]:
# 유닛이 3개인 밀집층을 만든다.
#   - CNN에서는 유닛 대신 필터라고 부르기도 한다.
dense1 = layers.Dense(3)

import numpy as np

# 입력의 첫 번째 차원은 배치 차원으로 샘플의 개수를 나타낸다.  
x2 = np.array([[5,7]])

# (샘플 수, 특성 수)
print(x2.shape)  # (1, 2)

# 1: 샘플 수
# 3: 점곱을 수행한 결과로 밀집층의 유닛 개수
print(dense1(x2).shape)  # (1, 3)

(1, 2)
(1, 3)


   - 이해하기 쉬운 가중치를 설정 후 닷 계산
      * 밀집층은 모든 입력에 어떠한 가중치를 곱해 출력을 만든다.
      * 처음에 가중치가 랜덤하게 설정되지만, 모델이 훈련되면서 적절한 값으로 변한다.
      * 일반적인 분류문제에서 마지막에 분류하려는 클래스만큼 유닛을 두어 각 클래스에 대한 확률을 출력한다.

      ![닷개산](image/02-06-dense_dot.png)       

In [11]:
# 가중치와 절편이 랜덤하게 초기화된다.
print(dense1.weights)  # 밀집층의 가중치(커널)와 절편(바이어스) 확인

# 밀집층의 가중치(커널)와 절편(바이어스)를 원하는 값으로 설정한다.
dense1.set_weights([np.array([[1, 2, 3], [4, 5, 6]]), np.array([0, 0, 0])])

[<Variable path=dense_1/kernel, shape=(2, 3), dtype=float32, value=[[-0.71140456 -0.51096773  0.01869249]
 [ 0.8869723  -0.23878318 -1.0330731 ]]>, <Variable path=dense_1/bias, shape=(3,), dtype=float32, value=[0. 0. 0.]>]


In [13]:
weight = dense1.get_weights()[0]  # 밀집층의 가중치(커널) 확인
print(np.dot(x2, weight))  # [[1 2 3] [4 5 6]]

[[33. 45. 57.]]
