# 컨볼루션 신경망(Convolution Neural Networks, CNN)

- 완전 연결 네트워크의 문제점으로부터 시작

  - 매개변수의 폭발적인 증가

  - 공간 추론의 부족
    - 픽셀 사이의 근접성 개념이 완전 연결 계층(Fully-Connected Layer)에서는 손실됨

- 합성곱 계층은 입력 이미지가 커져도 튜닝해야 할 매개변수 개수에 영향을 주지 않음

- 또한 그 어떠한 이미지에도 **그 차원 수와 상관없이** 적용될 수 있음

  <br>

  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

## 컨볼루션 연산 (Convolution Operation)

- 필터(filter) 연산
  - 입력 데이터에 필터를 통한 어떠한 연산을 진행
  
  - **필터에 대응하는 원소끼리 곱하고, 그 합을 구함**

  - 연산이 완료된 결과 데이터를 **특징 맵(feature map)**이라 부름

- 필터(filter)
  - 커널(kernel)이라고도 칭함
  
  - 흔히 사진 어플에서 사용하는 '이미지 필터'와 비슷한 개념

  - 필터의 사이즈는 "거의 항상 홀수"
    - 짝수이면 패딩이 비대칭이 되어버림
  
    - 왼쪽, 오른쪽을 다르게 주어야함
  
    - 중심위치가 존재, 즉 구별된 하나의 픽셀(중심 픽셀)이 존재

  - 필터의 학습 파라미터 개수는 입력 데이터의 크기와 상관없이 일정  
    따라서, 과적합을 방지할 수 있음

  <br>
  
  <img src="http://deeplearning.net/software/theano_versions/dev/_images/numerical_no_padding_no_strides.gif">

  <sub>[이미지 출처] http://deeplearning.net/software/theano_versions/dev/tutorial/conv_arithmetic.html</sub>

  <br>

- 연산 시각화
  <img src="https://www.researchgate.net/profile/Ihab_S_Mohamed/publication/324165524/figure/fig3/AS:611103423860736@1522709818959/An-example-of-convolution-operation-in-2D-2.png" width="500">

  <sub>[이미지 출처] https://www.researchgate.net/figure/An-example-of-convolution-operation-in-2D-2_fig3_324165524</sub>


- 일반적으로, 합성곱 연산을 한 후의 데이터 사이즈는  
  ### $\quad (n-f+1) \times (n-f+1)$
    $n$: 입력 데이터의 크기  
    $f$: 필터(커널)의 크기

  <br>
  
  <img src="https://miro.medium.com/max/1400/1*Fw-ehcNBR9byHtho-Rxbtw.gif" width="400">

  위 예에서 입력 데이터 크기($n$)는 5, 필터의 크기($k$)는 3이므로  
  출력 데이터의 크기는 $(5 - 3 + 1) = 3$

  <br>

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>

## Convolution vs Cross Correlation (참고)

- 실제로 머신러닝 분야에서 '합성곱'이라는 용어를 일반적으로 사용하고는 있지만  
  여기서 말하는 합성곱 연산은 '수학적 용어'로는 **교차 상관 관계(cross-correlation)**이라고 볼 수 있음

- 수학적으로 합성곱 연산은 필터를 '뒤집어서' 연산을 진행

  <br>

  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Comparison_convolution_correlation.svg/400px-Comparison_convolution_correlation.svg.png">

  <sub>[이미지 출처] https://en.wikipedia.org/wiki/Convolution</sub>

## 패딩(padding)과 스트라이드(stride)
- 필터(커널) 사이즈과 함께 **입력 이미지와 출력 이미지의 사이즈를 결정**하기 위해 사용

- 사용자가 결정할 수 있음



### 패딩
- 입력 데이터의 주변을 특정 값으로 채우는 기법
  - 주로 0으로 많이 채움

  <img src="http://deeplearning.net/software/theano_versions/dev/_images/arbitrary_padding_no_strides.gif" width="300">

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>

<br>

- 출력 데이터의 크기
  ### $\quad (n+2p-f+1) \times (n+2p-f+1)$
  <br>

  위 그림에서, 입력 데이터의 크기($n$)는 5, 필터의 크기($f$)는 3, 패딩값($p$)은 1이므로    
  출력 데이터의 크기는 ($5 + 2\times 2 - 4 + 1) = 6$

<br>

### 'valid' 와 'same'
- 'valid'
  - 패딩을 주지 않음
  - padding=0
    - 0으로 채워진 테두리가 아니라 패딩을 주지 않는다는 뜻!

- 'same'
  - 패딩을 주어 입력 이미지의 크기와 연산 후의 이미지 크기를 같게!

  - 만약, 필터(커널)의 크기가 $k$ 이면,  
    패딩의 크기는 $p = \frac{k-1}{2}$ (단, <u>stride=1)</u>



### 스트라이드
- 필터를 적용하는 간격을 의미

- 아래는 그림의 간격 2

  <img src="http://deeplearning.net/software/theano_versions/dev/_images/no_padding_strides.gif">

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>


## 출력 데이터의 크기

## $\qquad OH = \frac{H + 2P - FH}{S} + 1 $
## $\qquad OW = \frac{W + 2P - FW}{S} + 1 $

- 입력 크기 : $(H, W)$

- 필터 크기 : $(FH, FW)$

- 출력 크기 : $(OH, OW)$

- 패딩, 스트라이드 : $P, S$

- (주의)
  - 위 식의 값에서 $\frac{H + 2P - FH}{S}$ 또는 $\frac{W + 2P - FW}{S}$가 정수로 나누어 떨어지는 값이어야 한다.  
  - 만약, 정수로 나누어 떨어지지 않으면  
    패딩, 스트라이드값을 조정하여 정수로 나누어 떨어지게 해야!
  
  

## 텐서플로우/케라스 메소드
- 이미지 합성곱의 경우 기본적으로 저차원 API의 `tf.nn.conv2d()`를 사용
  - `input` : 형상이 $(B, \ H, \ W, \ D)$인 입력 이미지 배치

  - `filter` : $N$개의 필터가 쌓여 형상이 $(k_H, \ k_W, \ D, \ N)$ 인 텐서

  - `strides` : 보폭을 나타내는 4개의 정수 리스트.  
    $\qquad \qquad [1, \ S_H, \ S_W, \ 1]$ 을 사용

  - `padding` : 패딩을 나타내는 4x2개의 정수 리스트나 사전 정의된 패딩 중 무엇을 사용할지 정의  
    "VALID" or "SAME" 문자열 사용

  - `name` : 해당 연산을 식별하는 이름





In [28]:
import numpy as np
import pandas as pd
import tensorflow as tf

print("Numpy version:", np.__version__)
print("Pandas version:", pd.__version__)
print("TensorFlow version:", tf.__version__)

# Keras 사용 예시
glorot_initializer = tf.keras.initializers.GlorotUniform()

Numpy version: 1.23.5
Pandas version: 1.5.3
TensorFlow version: 2.15.0


In [29]:
k, D, N = (3, 16, 32)

In [30]:
kernel_size = [k, k, D, N]
glorot_uni_initializer = tf.initializers.GlorotUniform()

kernels = tf.Variable(glorot_uni_initializer(kernel_size),
                      trainable=True, name="filters")

bias = tf.Variable(tf.zeros(shape=[N]), trainable=True, name='bias')

In [31]:
@tf.function
def conv_layer(x, kernels, bias, s):
    z = tf.nn.conf2d(x, kernels, strides=[1, s, s, 1], padding='VALID')
    return tt.nn.relu(z + bias)

### 간단한 합성곱 신경망 구성 (저차원 API)

- 저차원 API 사용

- 표현이 명확하다는 장점

In [32]:
class SimpleCNN(tf.keras.layers.Layer):
    def __init__(self, num_kerenls=32, kernel_size=(3,3), stride=1):
        super().__init__()
        self.num_kernels = num_kernels
        self.kernel_size = kernels_size
        self.stride = stride

    def build(self, input_shape):
        input_channels = input_shape[-1]
        kernels_shape = (*self.kernel_size, input_channels, self.num_kernels)
        glorot_init = tf.initializers.GlorotUniform()
        self.kernels = self.add_weight(
            name='kernels', shape=kernels_shape, initializer=glorot_init, trainable=True)
        self.bias = self.add_weight(name='bias', shape=(self.num_kernels, ),
                                    initializer='random_normal', trainable=True)
    def call(self, inputs):
        return conv_layer(inputs, self.kernels, self.bias, self.stride)

### 간단한 합성곱 신경망 구성 (케라스 API)

- 케라스 API 사용

- 일반적인 계층의 초기화 캡슐화해서 제공하기 때문에 개발속도를 높여줌

  - 따라서, 고급 CNN을 구성할 때 해당 메소드 방식을 사용하는게 좋음

In [33]:
from tensorflow.keras.layers import Conv2D

In [34]:
s = 1

In [35]:
conv = Conv2D(filters=N, kernel_size=(k,k), strides=s,
              padding='valid', activation='relu')

## 풀링(Pooling)

- 필터(커널) 사이즈 내에서 특정 값을 추출하는 과정

### 맥스 풀링(Max Pooling)
- 가장 많이 사용되는 방법

- 출력 데이터의 사이즈 계산은 컨볼루션 연산과 동일
## $\quad OH = \frac{H + 2P - FH}{S} + 1 $
## $\quad OW = \frac{W + 2P - FW}{S} + 1 $

- 일반적으로 stride=2, kernel_size=2 를 통해  
  **특징맵의 크기를 <u>절반으로 줄이는 역할</u>**

- 모델이 물체의 주요한 특징을 학습할 수 있도록 해주며,  
  컨볼루션 신경망이 이동 불변성 특성을 가지게 해줌
  - 예를 들어, 아래의 그림에서 초록색 사각형 안에 있는  
    2와 8의 위치를 바꾼다해도 맥스 풀링 연산은 8을 추출

- 모델의 파라미터 개수를 줄여주고, 연산 속도를 빠르게 해줌

  <br>

  <img src="https://cs231n.github.io/assets/cnn/maxpool.jpeg" width="600">

  <sub>[이미지 출처] https://cs231n.github.io/convolutional-networks/</sub>

### 평균 풀링(Avg Pooling)

- 필터 내의 있는 픽셀값의 평균을 구하는 과정

- 과거에 많이 사용, 요즘은 잘 사용되지 않는다.

- 맥스풀링과 마찬가지로 stride=2, kernel_size=2 를 통해  
  특징 맵의 사이즈를 줄이는 역할

  <img src="https://www.researchgate.net/profile/Juan_Pedro_Dominguez-Morales/publication/329885401/figure/fig21/AS:707709083062277@1545742402308/Average-pooling-example.png" width="600">

  <sub>[이미지 출처] https://www.researchgate.net/figure/Average-pooling-example_fig21_329885401</sub>

### 텐서플로우/케라스 메소드

- `tf.nn.max_pool()` 또는 `tf.nn.avg_pool()`

  - `value` : $(B, \ H, \ W, \ D)$ 인 형상을 가진 입력 이미지 배치

  - `ksize` : 차원별 윈도우 크기를 나타내는 4개의 정수 리스트.  
      일반적으로 $[1, \ k, \ k, \ 1]$ 사용

  - `strides` : 보폭을 나타내는 4개의 정수 리스트. `tf.nn.conv2d()`와 유사

  - `padding` : 패딩 알고리즘을 정의하는 문자열("VALID" 또는 "SAME")

  - `name` : 해당 연산을 식별할 이름

<br>

- 고수준 API 사용

  - `tf.keras.layers.AvgPool2D()` 또는 `tf.keras.layers.MaxPool2D()`

In [36]:
from tensorflow.keras.layers import AvgPool2D, MaxPool2D

In [37]:
k, s = (3, 1)

In [38]:
avg_pool = AvgPool2D(pool_size=k, strides=[s, s], padding='valid')
max_pool = MaxPool2D(pool_size=k, strides=[s, s], padding='valid')


## 완전 연결 계층(Fully-Connected Layer)

- 입력으로 받은 텐서를 1차원으로 평면화(flatten) 함

- 밀집 계층(Dense Layer)라고도 함

- 일반적으로 분류기로서 **네트워크의 마지막 계층에서 사용**

In [39]:
from tensorflow.keras.layers import Dense

In [40]:
output_size = 64

In [41]:
fc = Dense(units=output_size, activation='relu')

## 유효 수용 영역(ERF, Effective Receptive Field)

- 입력 이미지에서 거리가 먼 요소를 상호 참조하여 결합하여 네트워크 능력에 영향을 줌

- 입력 이미지의 영역을 정의해 주어진 계층을 위한 뉴런의 활성화에 영향을 미침

- 한 계층의 필터 크기나 윈도우 크기로 불리기 때문에 RF(receptive field, 수용 영역)이라는 용어를 흔히 볼 수 있음

  <img src="https://wiki.math.uwaterloo.ca/statwiki/images/8/8c/understanding_ERF_fig0.png">

  <sub>[이미지 출처] https://wiki.math.uwaterloo.ca/statwiki/index.php?title=Understanding_the_Effective_Receptive_Field_in_Deep_Convolutional_Neural_Networks</sub>

<br>

- RF의 중앙에 위치한 픽셀은 주변에 있는 픽셀보다 더 높은 가중치를 가짐
  - 중앙부에 위치한 픽셀은 여러 개의 계층을 전파한 값

  - 중앙부에 있는 픽셀은 주변에 위치한 픽셀보다 더 많은 정보를 가짐

- 가우시안 분포를 따름

  <img src="https://www.researchgate.net/publication/316950618/figure/fig4/AS:495826810007552@1495225731123/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks.png">

  <sub>[이미지 출처] https://www.researchgate.net/figure/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks_fig4_316950618</sub>

## CNN 구현

### LeNet-5


  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

In [42]:
from tensorflow.keras import Model
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.datasets import mnist
import numpy as np

In [43]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

In [44]:
x_train, x_test = x_train[..., np.newaxis], x_test[..., np.newaxis]


In [45]:
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)


(60000, 28, 28, 1)
(60000,)
(10000, 28, 28, 1)
(10000,)


In [46]:
print(x_train[0, :, :, 0]) #0이면 검은색, 255이면 흰색 

[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   3  18  18  18 126 136
  175  26 166 255 247 127   0   0   0   0]
 [  0   0   0   0   0   0   0   0  30  36  94 154 170 253 253 253 253 253
  225 172 253 242 195  64   0   0   0   0]
 [  0   0   0   0   0   0   0  49 238 253 253 253 253 253 253 253 253 251
   93  82  82  56  39   0   0   0   0   0]
 [  0   0   0   0   0   0   0  18 219 253 253 253 253 253 198 18

In [47]:
x_train, x_test = x_train / 255.0, x_test / 255.0

In [48]:
print(x_train[0, :, :, 0]) #0부터 1사이의 값으로 정규화 됨 

[[0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.
  0.         0.    

In [49]:
num_classes = 10
epochs = 100
batch_size = 32

In [50]:
class LeNet5(Model):
    def __init__(self, num_classes):
        super(LeNet5, self).__init__()
        self.conv1 = Conv2D(6, kernel_size=(5,5), padding='same', activation='relu')
        self.conv2 = Conv2D(16, kernel_size=(5,5), activation='relu')
        self.max_pool = MaxPooling2D(pool_size=(2,2))
        self.flatten = Flatten()
        self.dense1 = Dense(120, activation='relu')
        self.dense2 = Dense(84, activation='relu')
        self.dense3 = Dense(num_classes, activation='softmax')

    def call(self, input_data):
        x = self.max_pool(self.conv1(input_data))
        x = self.max_pool(self.conv2(x))
        x = self.flatten(x)
        x = self.dense3(self.dense2(self.dense1(x)))

        return x

In [51]:
model = LeNet5(num_classes)

In [52]:
model.compile(optimizer='sgd',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

In [53]:
callbacks = [tf.keras.callbacks.EarlyStopping(patience=3, monitor='val_loss'),
             tf.keras.callbacks.TensorBoard(log_dir='./logs', histogram_freq=1)]

In [54]:
model.fit(x_train, y_train,
          batch_size = batch_size,
          epochs = epochs,
          validation_data = (x_test, y_test),
          callbacks=callbacks)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100


<keras.src.callbacks.History at 0x31b3071d0>

In [55]:
%load_ext tensorboard

In [56]:
%tensorboard --logdir logs

# Visual Geometry Group Net(VGGNet)

- 2014년 ILSVRC 분류 과제에서 2등을 차지했지만, 이 후의 수많은 연구에 영향을 미침

- 특징

  - 활성화 함수로 `ReLU` 사용, Dropout 적용

  - 합성곱과 풀링 계층으로 구성된 블록과 분류를 위한 완전 연결계층으로 결합된 전형적인 구조

  - 인위적으로 데이터셋을 늘림
    
    - 이미지 변환, 좌우 반전 등의 변환을 시도

  - 몇 개의 합성곱 계층과 최대-풀링 계층이 따르는 5개의 블록과,  
    3개의 완전연결계층(학습 시, 드롭아웃 사용)으로 구성

  - 모든 합성곱과 최대-풀링 계층에 `padding='SAME'` 적용

  - 합성곱 계층에는 `stride=1`, 활성화 함수로 `ReLU` 사용

  - 특징 맵 깊이를 증가시킴

  - 척도 변경을 통한 데이터 보강(Data Augmentation)



- 기여

  - 3x3 커널을 갖는 두 합성곱 계층을 쌓은 스택이 5x5 커널을 갖는 하나의 합성곱 계층과 동일한 수용영역(ERF)을 가짐

  - 11x11 사이즈의 필터 크기를 가지는 AlexNet과 비교하여,  
    더 작은 합성곱 계층을 더 많이 포함해 더 큰 ERF를 얻음

  - 이와 같이 합성곱 계층의 개수가 많아지면,  
    **매개변수 개수를 줄이고, 비선형성을 증가시킴**


- VGG-19 아키텍쳐

  - VGG-16에 3개의 합성곱 계층을 추가

  <br>   

  <img src="https://neurohive.io/wp-content/uploads/2018/11/vgg16.png">
  <center>VGG-16 아키텍쳐</center>

  <sub>[이미지 출처] https://neurohive.io/en/popular-networks/vgg16/ </sub>


<br>

- (참고) ILSVRC의 주요 분류 metric 중 하나는 `top-5`
  
  - 상위 5개 예측 안에 정확한 클래스가 포함되면 제대로 예측한 것으로 간주

  - 일반적인 `top-k` metric의 특정 케이스


## 텐서플로우 모델
- 직접 VGG 아키텍쳐를 공식적으로 제공하지는 않지만 github에 깔끔하게 구현된 모델 존재

  - https://github.com/tensorflow/models/blob/master/research/slim/nets/vgg.py

## 케라스 모델

- 케라스 API에서 공식적으로 제공

  - `tf.keras.applications` 패키지를 통해 접근 가능

  - 해당 패키지는 사전 훈련된 매개변수도 제공

In [57]:
import tensorflow as tf

- 사용 예시
  - ImageNet에서 훈련이 끝난 후 얻게된 매개변수 값 로딩

  - 만약, 네트워크를 다시 처음부터 학습하고자 한다면 `weights=None`으로 설정.  
    케라스에서 무작위로 가중치를 설정함

  - `include_top=False` : VGG의 밀집 계층을 제외한다는 뜻
    
    - 해당 네트워크의 출력은 합성곱/최대-풀링 블록의 특징맵이 됨

  - `pooling` : 특징맵을 반환하기 전에 적용할 선택적인 연산을 지정  
    
    ex) `pooling='avg'` 또는 `pooling='max'`

In [58]:
vgg_net = tf.keras.applications.VGG16(include_top=True, weights='imagenet',
                                      input_tensor=None, input_shape=None,
                                      pooling=None, classes=1000)


In [59]:
vgg_net.summary()

Model: "vgg16"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 224, 224, 3)]     0         
                                                                 
 block1_conv1 (Conv2D)       (None, 224, 224, 64)      1792      
                                                                 
 block1_conv2 (Conv2D)       (None, 224, 224, 64)      36928     
                                                                 
 block1_pool (MaxPooling2D)  (None, 112, 112, 64)      0         
                                                                 
 block2_conv1 (Conv2D)       (None, 112, 112, 128)     73856     
                                                                 
 block2_conv2 (Conv2D)       (None, 112, 112, 128)     147584    
                                                                 
 block2_pool (MaxPooling2D)  (None, 56, 56, 128)       0     

In [62]:
from tensorflow.keras import Model
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense, Input
from tensorflow.keras.datasets import cifar10
from tensorflow.keras.utils import to_categorical

# 데이터셋 로드 및 전처리
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

# VGG-16 모델 클래스 정의
class VGG16(Model):
    def __init__(self, num_classes):
        super(VGG16, self).__init__()
        # 1~2단계 합성곱과 풀링
        self.conv1_1 = Conv2D(64, (3, 3), padding='same', activation='relu')
        self.conv1_2 = Conv2D(64, (3, 3), padding='same', activation='relu')
        self.pool1 = MaxPooling2D((2, 2), strides=(2, 2))

        # 3~4단계 합성곱과 풀링
        self.conv2_1 = Conv2D(128, (3, 3), padding='same', activation='relu')
        self.conv2_2 = Conv2D(128, (3, 3), padding='same', activation='relu')
        self.pool2 = MaxPooling2D((2, 2), strides=(2, 2))

        # 5~7단계 합성곱과 풀링
        self.conv3_1 = Conv2D(256, (3, 3), padding='same', activation='relu')
        self.conv3_2 = Conv2D(256, (3, 3), padding='same', activation='relu')
        self.conv3_3 = Conv2D(256, (3, 3), padding='same', activation='relu')
        self.pool3 = MaxPooling2D((2, 2), strides=(2, 2))

        # 8~10단계 합성곱과 풀링
        self.conv4_1 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.conv4_2 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.conv4_3 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.pool4 = MaxPooling2D((2, 2), strides=(2, 2))

        # 11~13단계 합성곱과 풀링
        self.conv5_1 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.conv5_2 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.conv5_3 = Conv2D(512, (3, 3), padding='same', activation='relu')
        self.pool5 = MaxPooling2D((2, 2), strides=(2, 2))

        # 완전 연결 레이어
        self.flatten = Flatten()
        self.fc1 = Dense(4096, activation='relu')
        self.fc2 = Dense(4096, activation='relu')
        self.output_layer = Dense(num_classes, activation='softmax')

    def call(self, inputs):
        x = self.pool1(self.conv1_2(self.conv1_1(inputs)))
        x = self.pool2(self.conv2_2(self.conv2_1(x)))
        x = self.pool3(self.conv3_3(self.conv3_2(self.conv3_1(x))))
        x = self.pool4(self.conv4_3(self.conv4_2(self.conv4_1(x))))
        x = self.pool5(self.conv5_3(self.conv5_2(self.conv5_1(x))))
        x = self.flatten(x)
        x = self.fc2(self.fc1(x))
        return self.output_layer(x)

# 하이퍼파라미터 설정 및 모델 컴파일
num_classes = 10
model = VGG16(num_classes)
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])

# 모델 학습
model.fit(x_train, y_train, 
          batch_size=64, 
          epochs=20, 
          validation_data=(x_test, y_test))

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz
Epoch 1/20

KeyboardInterrupt: 

# GoogLeNet, Inception 모듈

- VGGNet을 제치고 같은 해 분류 과제에서 1등을 차지

- 인셉션 블록이라는 개념을 도입하여, **인셉션 네트워크(Inception Network)**라고도 불림

  <img src="https://miro.medium.com/max/2800/0*rbWRzjKvoGt9W3Mf.png">

  <sub>[이미지 출처] https://medium.com/analytics-vidhya/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5</sub>

  <br>

- 특징
  
  - CNN 계산 용량을 최적화하는 것을 고려

  - 전형적인 합성곱, 풀링 계층으로 시작하고, 이 정보는 9개의 인셉션 모듈 스택을 통과  
    해당 모듈을 하위 네트워크라고도 함

  - 각 모듈에서 입력 특징 맵은 서로 다른 계층으로 구성된 4개의 병렬 하위 블록에 전달되고, 이를 서로 다시 연결

  - 모든 합성곱과 풀링 계층의 padding옵션은 "SAME"이며 `stride=1`,  
    활성화 함수는 `ReLU` 사용

- 기여

  - 규모가 큰 블록과 병목을 보편화

  - 병목 계층으로 1x1 합성곱 계층 사용

  - 완전 연결 계층 대신 풀링 계층 사용

  - 중간 소실로 경사 소실 문제 해결

  <img src="https://norman3.github.io/papers/images/google_inception/f01.png">

  <sub>[이미지 출처] https://norman3.github.io/papers/docs/google_inception.html</sub>

## 케라스로 Inception 모듈 구현

In [76]:
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dense, Conv2D, MaxPooling2D, Flatten, Input

- 임의의 input_shape 값 지정

In [78]:
input_shape=(28, 28, 3)

- 순차형 API 사용

In [81]:
model = Sequential()
model.add(Conv2D(32, kernel_size=(5,5), input_shape=input_shape))
model.add(MaxPool2D(pool_size=(2,2)))
model.add(Flatten())
model.add(Dense(10, activation='softmax'))

In [82]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_12 (Conv2D)          (None, 24, 24, 32)        2432      
                                                                 
 max_pooling2d_8 (MaxPoolin  (None, 12, 12, 32)        0         
 g2D)                                                            
                                                                 
 flatten_6 (Flatten)         (None, 4608)              0         
                                                                 
 dense_14 (Dense)            (None, 10)                46090     
                                                                 
Total params: 48522 (189.54 KB)
Trainable params: 48522 (189.54 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


- 함수형 API 사용

In [83]:
def build_model():
    inputs = Input(shape=input_shape)
    conv1 = Conv2D(32, kernel_size(5,5))(inputs)
    maxpool1 = MaxPooling2D(pool_size=(2,2))(conv1)
    predictions = Dense(10, activation='softmax')(Flatten()(maxpool1))

    model = Model(inputs=inputs, outputs=predictions)
    return model

- 원시 버전의 인셉션 블록

In [86]:
from tensorflow.keras.layers import Conv2D, MaxPooling2D, concatenate

In [87]:
def naive_inception_block(prev_layer, filters=[64, 128, 32]):
    conv1x1 = Conv2D(filters[0], kernel_size=(1,1), padding='same', activation='relu')(prev_layer)
    conv3x3 = Conv2D(filters[1], kernel_size=(3,3), padding='same', activation='relu')(prev_layer)
    conv5x5 = Conv2D(filters[2], kernel_size=(5,5), padding='same', activation='relu')(prev_layer)
    max_pool = MaxPool2D((3,3), strides=(1,1), padding='same')(prev_layer)

    return concatenate([conv1x1, conv3x3, conv5x5, max_pool], axis=-1)

## 케라스 모델

In [89]:
inceptionV3_net = tf.keras.applications.InceptionV3(
    include_top = True, weights='imagenet', input_tensor=None, input_shape=None,
    pooling=None, classes=1000
)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/inception_v3/inception_v3_weights_tf_dim_ordering_tf_kernels.h5


In [90]:
inceptionV3_net.summary()

Model: "inception_v3"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_2 (InputLayer)        [(None, 299, 299, 3)]        0         []                            
                                                                                                  
 conv2d_13 (Conv2D)          (None, 149, 149, 32)         864       ['input_2[0][0]']             
                                                                                                  
 batch_normalization (Batch  (None, 149, 149, 32)         96        ['conv2d_13[0][0]']           
 Normalization)                                                                                   
                                                                                                  
 activation (Activation)     (None, 149, 149, 32)         0         ['batch_normalizati

In [63]:
def googlenet(input_shape=(32, 32, 3), num_classes=10):
    input_layer = Input(shape=input_shape)
    
    # 초기 합성곱 및 풀링 레이어
    x = Conv2D(64, (7, 7), strides=(2, 2), padding='same', activation='relu')(input_layer)
    x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x)
    
    x = Conv2D(64, (1, 1), padding='same', activation='relu')(x)
    x = Conv2D(192, (3, 3), padding='same', activation='relu')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x)
    
    # Inception 모듈 쌓기
    x = inception_module(x, 64, 96, 128, 16, 32, 32)
    x = inception_module(x, 128, 128, 192, 32, 96, 64)
    x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x)
    
    x = inception_module(x, 192, 96, 208, 16, 48, 64)
    x = inception_module(x, 160, 112, 224, 24, 64, 64)
    x = inception_module(x, 128, 128, 256, 24, 64, 64)
    x = inception_module(x, 112, 144, 288, 32, 64, 64)
    x = inception_module(x, 256, 160, 320, 32, 128, 128)
    x = MaxPooling2D((3, 3), strides=(2, 2), padding='same')(x)
    
    # 마지막 Inception 모듈들
    x = inception_module(x, 256, 160, 320, 32, 128, 128)
    x = inception_module(x, 384, 192, 384, 48, 128, 128)
    
    # 완전 연결 레이어
    x = AveragePooling2D((4, 4), padding='same')(x)
    x = Flatten()(x)
    x = Dense(1024, activation='relu')(x)
    x = Dense(num_classes, activation='softmax')(x)
    
    model = Model(input_layer, x, name='GoogLeNet')
    return model

# ResNet - 잔차 네트워크

- 네트워크의 깊이가 깊어질수록 경사가 소실되거나 폭발하는 문제를 해결하고자 함

- 병목 합성곱 계층을 추가하거나 크기가 작은 커널을 사용

- 152개의 훈련가능한 계층을 수직으로 연결하여 구성

- 모든 합성곱과 풀링 계층에서 패딩옵셥으로 "SAME", stride=1 사용

- 3x3 합성곱 계층 다음마다 배치 정규화 적용,  
  1x1 합성곱 계층에는 활성화 함수가 존재하지 않음

  <br>

  <img src="https://miro.medium.com/max/1200/1*6hF97Upuqg_LdsqWY6n_wg.png">

  <sub>[이미지 출처] https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8</sub>

## 잔차 블록 구현

In [91]:
from tensorflow.keras.layers import Activation, Conv2D, BatchNormalization, add

In [92]:
def residual_block_basic(x, filters, kernel_size=3, strides=1):
    conv_1 = Conv2D(filters=filters, kernel_size=kernel_size,
                    padding='same', strides=strides(x))
    bn_1 = BatchNormalization(axis=1)(conv_1)
    act_1 = Activation('relu')(bn_1)
    conv_2 = Conv2D(filters=filters, kernel_size=kernel_size,
                    padding='same', strides=strides)(act_1)
    residual = BatchNormalization(axis=-1)(conv_2)

    shortcut = x if strides == 1 else Conv2D(filters, kerenl_size=1, padding='valid', strides=strides)(x)

    return Activation('relu')(add([shortcut, residual]))

## 케라스 모델

In [93]:
resnet50 = tf.keras.applications.ResNet50(
    include_top=True, weights='imagenet',
    input_tensor=None, input_shape=None,
    pooling=None, classes=1000
)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/resnet/resnet50_weights_tf_dim_ordering_tf_kernels.h5


In [94]:
resnet50.summary()

Model: "resnet50"
__________________________________________________________________________________________________
 Layer (type)                Output Shape                 Param #   Connected to                  
 input_3 (InputLayer)        [(None, 224, 224, 3)]        0         []                            
                                                                                                  
 conv1_pad (ZeroPadding2D)   (None, 230, 230, 3)          0         ['input_3[0][0]']             
                                                                                                  
 conv1_conv (Conv2D)         (None, 112, 112, 64)         9472      ['conv1_pad[0][0]']           
                                                                                                  
 conv1_bn (BatchNormalizati  (None, 112, 112, 64)         256       ['conv1_conv[0][0]']          
 on)                                                                                       

In [None]:
import tensorflow as tf
from tensorflow.keras import layers, models, Input
from tensorflow.keras.datasets import cifar10
from tensorflow.keras.utils import to_categorical

def residual_block(x, filters, kernel_size=3, stride=1):
    # 잔차 연결에 사용될 입력
    shortcut = x

    # 첫 번째 합성곱 레이어
    x = layers.Conv2D(filters, kernel_size=kernel_size, strides=stride, padding='same', activation='relu')(x)
    x = layers.BatchNormalization()(x)

    # 두 번째 합성곱 레이어
    x = layers.Conv2D(filters, kernel_size=kernel_size, padding='same', activation=None)(x)
    x = layers.BatchNormalization()(x)

    # 스킵 연결이 필요할 경우 (stride가 1이 아닐 때)
    if stride != 1 or x.shape[-1] != shortcut.shape[-1]:
        shortcut = layers.Conv2D(filters, kernel_size=1, strides=stride, padding='same')(shortcut)
        shortcut = layers.BatchNormalization()(shortcut)

    # 스킵 연결 수행
    x = layers.add([x, shortcut])
    x = layers.Activation('relu')(x)
    return x

def ResNet(input_shape=(32, 32, 3), num_classes=10):
    input_layer = Input(shape=input_shape)

    # 초기 합성곱 레이어
    x = layers.Conv2D(64, (3, 3), padding='same', activation='relu')(input_layer)
    x = layers.BatchNormalization()(x)

    # Residual Block 스택 생성
    x = residual_block(x, filters=64, stride=1)
    x = residual_block(x, filters=64, stride=1)

    x = residual_block(x, filters=128, stride=2)  # 공간 크기 감소
    x = residual_block(x, filters=128, stride=1)

    x = residual_block(x, filters=256, stride=2)
    x = residual_block(x, filters=256, stride=1)

    x = residual_block(x, filters=512, stride=2)
    x = residual_block(x, filters=512, stride=1)

    # 출력 레이어
    x = layers.GlobalAveragePooling2D()(x)
    x = layers.Dense(num_classes, activation='softmax')(x)

    model = models.Model(input_layer, x, name="ResNet")
    return model
    
# CIFAR-10 데이터셋 로드 및 전처리
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
y_train = to_categorical(y_train, 10)
y_test = to_categorical(y_test, 10)

# 모델 생성 및 컴파일
model = ResNet(input_shape=(32, 32, 3), num_classes=10)
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

# 모델 학습
model.fit(x_train, y_train, batch_size=128, epochs=10, validation_data=(x_test, y_test))