# 컨볼루션 신경망(Convolution Neural Networks, CNN)

- 완전 연결 네트워크의 문제점으로부터 시작

  - 매개변수의 폭발적인 증가

  - 공간 추론의 부족
    - 픽셀 사이의 근접성 개념이 완전 연결 계층(Fully-Connected Layer)에서는 손실됨

- 합성곱 계층은 입력 이미지가 커져도 튜닝해야 할 매개변수 개수에 영향을 주지 않음

- 또한 그 어떠한 이미지에도 **그 차원 수와 상관없이** 적용될 수 있음

  <br>

  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

## 컨볼루션 연산 (Convolution Operation)

- 필터(filter) 연산
  - 입력 데이터에 필터를 통한 어떠한 연산을 진행
  
  - **필터에 대응하는 원소끼리 곱하고, 그 합을 구함**

  - 연산이 완료된 결과 데이터를 **특징 맵(feature map)**이라 부름

- 필터(filter)
  - 커널(kernel)이라고도 칭함
  
  - 흔히 사진 어플에서 사용하는 '이미지 필터'와 비슷한 개념

  - 필터의 사이즈는 "거의 항상 홀수"
    - 짝수이면 패딩이 비대칭이 되어버림
  
    - 왼쪽, 오른쪽을 다르게 주어야함
  
    - 중심위치가 존재, 즉 구별된 하나의 픽셀(중심 픽셀)이 존재

  - 필터의 학습 파라미터 개수는 입력 데이터의 크기와 상관없이 일정  
    따라서, 과적합을 방지할 수 있음

  <br>
  
  <img src="http://deeplearning.net/software/theano_versions/dev/_images/numerical_no_padding_no_strides.gif">

  <sub>[이미지 출처] http://deeplearning.net/software/theano_versions/dev/tutorial/conv_arithmetic.html</sub>

  <br>

- 연산 시각화
  <img src="https://www.researchgate.net/profile/Ihab_S_Mohamed/publication/324165524/figure/fig3/AS:611103423860736@1522709818959/An-example-of-convolution-operation-in-2D-2.png" width="500">

  <sub>[이미지 출처] https://www.researchgate.net/figure/An-example-of-convolution-operation-in-2D-2_fig3_324165524</sub>


- 일반적으로, 합성곱 연산을 한 후의 데이터 사이즈는  
  ### $\quad (n-f+1) \times (n-f+1)$
    $n$: 입력 데이터의 크기  
    $f$: 필터(커널)의 크기

  <br>
  
  <img src="https://miro.medium.com/max/1400/1*Fw-ehcNBR9byHtho-Rxbtw.gif" width="400">

  위 예에서 입력 데이터 크기($n$)는 5, 필터의 크기($k$)는 3이므로  
  출력 데이터의 크기는 $(5 - 3 + 1) = 3$

  <br>

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>

## Convolution vs Cross Correlation (참고)

- 실제로 머신러닝 분야에서 '합성곱'이라는 용어를 일반적으로 사용하고는 있지만  
  여기서 말하는 합성곱 연산은 '수학적 용어'로는 **교차 상관 관계(cross-correlation)**이라고 볼 수 있음

- 수학적으로 합성곱 연산은 필터를 '뒤집어서' 연산을 진행

  <br>

  <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/2/21/Comparison_convolution_correlation.svg/400px-Comparison_convolution_correlation.svg.png">

  <sub>[이미지 출처] https://en.wikipedia.org/wiki/Convolution</sub>

## 패딩(padding)과 스트라이드(stride)
- 필터(커널) 사이즈과 함께 **입력 이미지와 출력 이미지의 사이즈를 결정**하기 위해 사용

- 사용자가 결정할 수 있음



### 패딩
- 입력 데이터의 주변을 특정 값으로 채우는 기법
  - 주로 0으로 많이 채움

  <img src="http://deeplearning.net/software/theano_versions/dev/_images/arbitrary_padding_no_strides.gif" width="300">

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>

<br>

- 출력 데이터의 크기
  ### $\quad (n+2p-f+1) \times (n+2p-f+1)$
  <br>

  위 그림에서, 입력 데이터의 크기($n$)는 5, 필터의 크기($f$)는 3, 패딩값($p$)은 1이므로    
  출력 데이터의 크기는 ($5 + 2\times 2 - 4 + 1) = 6$

<br>

### 'valid' 와 'same'
- 'valid'
  - 패딩을 주지 않음
  - padding=0
    - 0으로 채워진 테두리가 아니라 패딩을 주지 않는다는 뜻!

- 'same'
  - 패딩을 주어 입력 이미지의 크기와 연산 후의 이미지 크기를 같게!

  - 만약, 필터(커널)의 크기가 $k$ 이면,  
    패딩의 크기는 $p = \frac{k-1}{2}$ (단, <u>stride=1)</u>



### 스트라이드
- 필터를 적용하는 간격을 의미

- 아래는 그림의 간격 2

  <img src="http://deeplearning.net/software/theano_versions/dev/_images/no_padding_strides.gif">

  <sub>[이미지 출처] https://towardsdatascience.com/intuitively-understanding-convolutions-for-deep-learning-1f6f42faee1</sub>


## 출력 데이터의 크기

## $\qquad OH = \frac{H + 2P - FH}{S} + 1 $ 
## $\qquad OW = \frac{W + 2P - FW}{S} + 1 $ 

- 입력 크기 : $(H, W)$

- 필터 크기 : $(FH, FW)$

- 출력 크기 : $(OH, OW)$

- 패딩, 스트라이드 : $P, S$

- (주의) 
  - 위 식의 값에서 $\frac{H + 2P - FH}{S}$ 또는 $\frac{W + 2P - FW}{S}$가 정수로 나누어 떨어지는 값이어야 한다.  
  - 만약, 정수로 나누어 떨어지지 않으면  
    패딩, 스트라이드값을 조정하여 정수로 나누어 떨어지게 해야!
  
  

## 텐서플로우/케라스 메소드
- 이미지 합성곱의 경우 기본적으로 저차원 API의 `tf.nn.conv2d()`를 사용
  - `input` : 형상이 $(B, \ H, \ W, \ D)$인 입력 이미지 배치

  - `filter` : $N$개의 필터가 쌓여 형상이 $(k_H, \ k_W, \ D, \ N)$ 인 텐서

  - `strides` : 보폭을 나타내는 4개의 정수 리스트.  
    $\qquad \qquad [1, \ S_H, \ S_W, \ 1]$ 을 사용

  - `padding` : 패딩을 나타내는 4x2개의 정수 리스트나 사전 정의된 패딩 중 무엇을 사용할지 정의  
    "VALID" or "SAME" 문자열 사용

  - `name` : 해당 연산을 식별하는 이름





In [1]:
import tensorflow as tf

In [2]:
k, D, N = (3, 16, 32) 

In [3]:
kernels_size = [k,k,D,N]
glorot_unit_initializer = tf.initializers.GlorotUniform()
kernels = tf.Variable(glorot_unit_initializer(kernels_size),
                      trainable=True, name='filters')
bias = tf.Variable(tf.zeros(shape=[N]),trainable=True, name='bias')

In [4]:
@tf.function
def conv_layer(x, kernels, bias, s):
  z = tf.nn.conv2d(x, kernels, strides=[1, s, s, 1], padding='VALID')
  return tf.nn.relu(z + bias)

### 간단한 합성곱 신경망 구성 (저차원 API)

- 저차원 API 사용

- 표현이 명확하다는 장점

In [5]:
class SimpleCNN(tf.keras.layers.Layer):
  def __init__(self, num_kernels=32, kernel_size=(3, 3), stride=1):
    super().__init__()
    self.num_kernels = num_kernels
    self.kernels_size = kernels_size
    self.stride = stride

  def build(self, input_shape):
    input_channels = input_shape[-1]

    kernels_shape = (*self.kernels_size, input_channels, self.num_kernels)
    glorot_init = tf.initializers.GlorotUniform()
    self.kernels = self.add_weight(name='kernels', shape=kernels_shape,
                                 initializer=glorot_init, trainable=True)
    self.bias = self.add_weight(name='bias', shape=(self.num_kernels,),
                                initializer='random_normal', trainable=True)
    
def call(self, inputs):
  return conv_layer(inputs, self.kernels, self.bias, self.stride)

### 간단한 합성곱 신경망 구성 (케라스 API)

- 케라스 API 사용

- 일반적인 계층의 초기화 캡슐화해서 제공하기 때문에 개발속도를 높여줌

  - 따라서, 고급 CNN을 구성할 때 해당 메소드 방식을 사용하는게 좋음

In [6]:
from tensorflow.keras.layers import Conv2D

In [7]:
s = 1

In [8]:
conv = Conv2D(filters=N, kernel_size=(k,k), strides=s,
              padding='valid', activation='relu')

## 풀링(Pooling)

- 필터(커널) 사이즈 내에서 특정 값을 추출하는 과정

### 맥스 풀링(Max Pooling)
- 가장 많이 사용되는 방법

- 출력 데이터의 사이즈 계산은 컨볼루션 연산과 동일
## $\quad OH = \frac{H + 2P - FH}{S} + 1 $ 
## $\quad OW = \frac{W + 2P - FW}{S} + 1 $ 

- 일반적으로 stride=2, kernel_size=2 를 통해  
  **특징맵의 크기를 <u>절반으로 줄이는 역할</u>**

- 모델이 물체의 주요한 특징을 학습할 수 있도록 해주며,  
  컨볼루션 신경망이 이동 불변성 특성을 가지게 해줌
  - 예를 들어, 아래의 그림에서 초록색 사각형 안에 있는  
    2와 8의 위치를 바꾼다해도 맥스 풀링 연산은 8을 추출

- 모델의 파라미터 개수를 줄여주고, 연산 속도를 빠르게 해줌

  <br>

  <img src="https://cs231n.github.io/assets/cnn/maxpool.jpeg" width="600">

  <sub>[이미지 출처] https://cs231n.github.io/convolutional-networks/</sub>

### 평균 풀링(Avg Pooling)

- 필터 내의 있는 픽셀값의 평균을 구하는 과정

- 과거에 많이 사용, 요즘은 잘 사용되지 않는다.

- 맥스풀링과 마찬가지로 stride=2, kernel_size=2 를 통해  
  특징 맵의 사이즈를 줄이는 역할

  <img src="https://www.researchgate.net/profile/Juan_Pedro_Dominguez-Morales/publication/329885401/figure/fig21/AS:707709083062277@1545742402308/Average-pooling-example.png" width="600">

  <sub>[이미지 출처] https://www.researchgate.net/figure/Average-pooling-example_fig21_329885401</sub>

### 텐서플로우/케라스 메소드

- `tf.nn.max_pool()` 또는 `tf.nn.avg_pool()`

  - `value` : $(B, \ H, \ W, \ D)$ 인 형상을 가진 입력 이미지 배치

  - `ksize` : 차원별 윈도우 크기를 나타내는 4개의 정수 리스트.  
      일반적으로 $[1, \ k, \ k, \ 1]$ 사용

  - `strides` : 보폭을 나타내는 4개의 정수 리스트. `tf.nn.conv2d()`와 유사

  - `padding` : 패딩 알고리즘을 정의하는 문자열("VALID" 또는 "SAME")

  - `name` : 해당 연산을 식별할 이름

<br>

- 고수준 API 사용

  - `tf.keras.layers.AvgPool2D()` 또는 `tf.keras.layers.MaxPool2D()`

In [9]:
from tensorflow.keras.layers import AvgPool2D, MaxPool2D

In [10]:
k, s = (3, 1)

In [62]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [11]:
avg_pool = AvgPool2D(pool_size=k, strides=[s, s], padding='valid')
max_pool = MaxPool2D(pool_size=k, strides=[s, s], padding='valid')

## 완전 연결 계층(Fully-Connected Layer)

- 입력으로 받은 텐서를 1차원으로 평면화(flatten) 함

- 밀집 계층(Dense Layer)라고도 함

- 일반적으로 분류기로서 **네트워크의 마지막 계층에서 사용**

In [12]:
from tensorflow.keras.layers import Dense

In [13]:
output_size = 64

In [14]:
fc = Dense(units=output_size, activation='relu')

## 유효 수용 영역(ERF, Effective Receptive Field)

- 입력 이미지에서 거리가 먼 요소를 상호 참조하여 결합하여 네트워크 능력에 영향을 줌

- 입력 이미지의 영역을 정의해 주어진 계층을 위한 뉴런의 활성화에 영향을 미침

- 한 계층의 필터 크기나 윈도우 크기로 불리기 때문에 RF(receptive field, 수용 영역)이라는 용어를 흔히 볼 수 있음

  <img src="https://wiki.math.uwaterloo.ca/statwiki/images/8/8c/understanding_ERF_fig0.png">

  <sub>[이미지 출처] https://wiki.math.uwaterloo.ca/statwiki/index.php?title=Understanding_the_Effective_Receptive_Field_in_Deep_Convolutional_Neural_Networks</sub>

<br>

- RF의 중앙에 위치한 픽셀은 주변에 있는 픽셀보다 더 높은 가중치를 가짐
  - 중앙부에 위치한 픽셀은 여러 개의 계층을 전파한 값

  - 중앙부에 있는 픽셀은 주변에 위치한 픽셀보다 더 많은 정보를 가짐

- 가우시안 분포를 따름

  <img src="https://www.researchgate.net/publication/316950618/figure/fig4/AS:495826810007552@1495225731123/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks.png">

  <sub>[이미지 출처] https://www.researchgate.net/figure/The-receptive-field-of-each-convolution-layer-with-a-3-3-kernel-The-green-area-marks_fig4_316950618</sub>

## CNN 구현

### LeNet-5


  <img src="https://miro.medium.com/max/4308/1*1TI1aGBZ4dybR6__DI9dzA.png">
  
  <center>[LeNet-5 구조]</center>

  <sub>[이미지 출처] https://medium.com/@pechyonkin/key-deep-learning-architectures-lenet-5-6fc3c59e6f4</sub>

In [15]:
from tensorflow.keras import Model
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense
from tensorflow.keras.datasets import mnist
import numpy as np

In [16]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


In [17]:
x_train, x_test = x_train[..., np.newaxis], x_test[..., np.newaxis]

In [18]:
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(60000, 28, 28, 1)
(60000,)
(10000, 28, 28, 1)
(10000,)


In [19]:
x_train, x_test = x_train / 255.0, x_test / 255.0

In [20]:
num_classes = 10
epochs = 100
batch_size = 32

In [27]:
class LeNet5(Model):
  def __init__(self, num_classes):
    super(LeNet5, self).__init__()
    self.conv1 = Conv2D(6, kernel_size=(5, 5), padding='same', activation='relu')
    self.conv2 = Conv2D(16, kernel_size=(5, 5), activation='relu')
    self.max_pool = MaxPooling2D(pool_size=(2,2))
    self.flatten = Flatten()
    self.dense1 = Dense(120, activation='relu')
    self.dense2 = Dense(84, activation='relu')
    self.dense3 = Dense(num_classes, activation='softmax')

def call(self, input_data):
  x = self.max_pool(self.conv1(input_data))
  x = self.max_pool(self.conv2(x))
  x = self.flatten(x)
  x = self.dense3(self.dense2(self.dense1(x)))

  return x

In [28]:
model = LeNet5(num_classes)

In [29]:
model.compile(optimizer='sgd',
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

In [30]:
import tensorflow as tf
callbacks = [tf.keras.callbacks.EarlyStopping(patience=3, monitor='val_loss'),
             tf.keras.callbacks.TensorBoard(log_dir='./logs',histogram_freq=1)]

In [31]:
print(x_train.shape,y_train.shape,x_test.shape, y_test.shape)

(60000, 28, 28, 1) (60000,) (10000, 28, 28, 1) (10000,)


In [32]:
model.fit(x_train, y_train,
          batch_size=batch_size,
          epochs=epochs,
          validation_data=(x_test, y_test),
          callbacks=callbacks)

Epoch 1/100


NotImplementedError: ignored

In [None]:
%load_ext tensorboard

In [None]:
%tensorboard --logdir logs

# Visual Geometry Group Net(VGGNet)

- 2014년 ILSVRC 분류 과제에서 2등을 차지했지만, 이 후의 수많은 연구에 영향을 미침

- 특징

  - 활성화 함수로 `ReLU` 사용, Dropout 적용

  - 합성곱과 풀링 계층으로 구성된 블록과 분류를 위한 완전 연결계층으로 결합된 전형적인 구조

  - 인위적으로 데이터셋을 늘림
    
    - 이미지 변환, 좌우 반전 등의 변환을 시도

  - 몇 개의 합성곱 계층과 최대-풀링 계층이 따르는 5개의 블록과,  
    3개의 완전연결계층(학습 시, 드롭아웃 사용)으로 구성

  - 모든 합성곱과 최대-풀링 계층에 `padding='SAME'` 적용

  - 합성곱 계층에는 `stride=1`, 활성화 함수로 `ReLU` 사용

  - 특징 맵 깊이를 증가시킴

  - 척도 변경을 통한 데이터 보강(Data Augmentation)



- 기여

  - 3x3 커널을 갖는 두 합성곱 계층을 쌓은 스택이 5x5 커널을 갖는 하나의 합성곱 계층과 동일한 수용영역(ERF)을 가짐

  - 11x11 사이즈의 필터 크기를 가지는 AlexNet과 비교하여,  
    더 작은 합성곱 계층을 더 많이 포함해 더 큰 ERF를 얻음

  - 이와 같이 합성곱 계층의 개수가 많아지면,  
    **매개변수 개수를 줄이고, 비선형성을 증가시킴**


- VGG-19 아키텍쳐

  - VGG-16에 3개의 합성곱 계층을 추가

  <br>   

  <img src="https://neurohive.io/wp-content/uploads/2018/11/vgg16.png">
  <center>VGG-16 아키텍쳐</center>

  <sub>[이미지 출처] https://neurohive.io/en/popular-networks/vgg16/ </sub>


<br>

- (참고) ILSVRC의 주요 분류 metric 중 하나는 `top-5`
  
  - 상위 5개 예측 안에 정확한 클래스가 포함되면 제대로 예측한 것으로 간주

  - 일반적인 `top-k` metric의 특정 케이스


## 텐서플로우 모델
- 직접 VGG 아키텍쳐를 공식적으로 제공하지는 않지만 github에 깔끔하게 구현된 모델 존재

  - https://github.com/tensorflow/models/blob/master/research/slim/nets/vgg.py

## 케라스 모델

- 케라스 API에서 공식적으로 제공

  - `tf.keras.applications` 패키지를 통해 접근 가능

  - 해당 패키지는 사전 훈련된 매개변수도 제공

In [35]:
import tensorflow as tf

- 사용 예시
  - ImageNet에서 훈련이 끝난 후 얻게된 매개변수 값 로딩

  - 만약, 네트워크를 다시 처음부터 학습하고자 한다면 `weights=None`으로 설정.  
    케라스에서 무작위로 가중치를 설정함

  - `include_top=False` : VGG의 밀집 계층을 제외한다는 뜻
    
    - 해당 네트워크의 출력은 합성곱/최대-풀링 블록의 특징맵이 됨

  - `pooling` : 특징맵을 반환하기 전에 적용할 선택적인 연산을 지정  
    
    ex) `pooling='avg'` 또는 `pooling='max'`

In [37]:
vgg_net = tf.keras.applications.VGG16(include_top=True, weights='imagenet',
                                     input_tensor=None, input_shape=None,
                                     pooling=None, classes=1000)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/vgg16/vgg16_weights_tf_dim_ordering_tf_kernels.h5


In [38]:
vgg_net.summary()

Model: "vgg16"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_1 (InputLayer)        [(None, 224, 224, 3)]     0         
                                                                 
 block1_conv1 (Conv2D)       (None, 224, 224, 64)      1792      
                                                                 
 block1_conv2 (Conv2D)       (None, 224, 224, 64)      36928     
                                                                 
 block1_pool (MaxPooling2D)  (None, 112, 112, 64)      0         
                                                                 
 block2_conv1 (Conv2D)       (None, 112, 112, 128)     73856     
                                                                 
 block2_conv2 (Conv2D)       (None, 112, 112, 128)     147584    
                                                                 
 block2_pool (MaxPooling2D)  (None, 56, 56, 128)       0     

# GoogLeNet, Inception 모듈

- VGGNet을 제치고 같은 해 분류 과제에서 1등을 차지

- 인셉션 블록이라는 개념을 도입하여, **인셉션 네트워크(Inception Network)**라고도 불림

  <img src="https://miro.medium.com/max/2800/0*rbWRzjKvoGt9W3Mf.png">

  <sub>[이미지 출처] https://medium.com/analytics-vidhya/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5</sub>

  <br>

- 특징 
  
  - CNN 계산 용량을 최적화하는 것을 고려

  - 전형적인 합성곱, 풀링 계층으로 시작하고, 이 정보는 9개의 인셉션 모듈 스택을 통과  
    해당 모듈을 하위 네트워크라고도 함

  - 각 모듈에서 입력 특징 맵은 서로 다른 계층으로 구성된 4개의 병렬 하위 블록에 전달되고, 이를 서로 다시 연결

  - 모든 합성곱과 풀링 계층의 padding옵션은 "SAME"이며 `stride=1`,  
    활성화 함수는 `ReLU` 사용

- 기여

  - 규모가 큰 블록과 병목을 보편화

  - 병목 계층으로 1x1 합성곱 계층 사용

  - 완전 연결 계층 대신 풀링 계층 사용

  - 중간 소실로 경사 소실 문제 해결

  <img src="https://norman3.github.io/papers/images/google_inception/f01.png">

  <sub>[이미지 출처] https://norman3.github.io/papers/docs/google_inception.html</sub>

## 케라스로 Inception 모듈 구현

In [41]:
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import Dense, Conv2D, MaxPooling2D, Flatten, Input

- 임의의 input_shape 값 지정

In [42]:
input_shape = (28,28,3)

- 순차형 API 사용

In [43]:
model = Sequential()
model.add(Conv2D(32, kernel_size=(5,5), input_shape=input_shape))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Flatten())
model.add(Dense(10, activation='softmax'))

In [44]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_5 (Conv2D)           (None, 24, 24, 32)        2432      
                                                                 
 max_pooling2d_3 (MaxPooling  (None, 12, 12, 32)       0         
 2D)                                                             
                                                                 
 flatten_2 (Flatten)         (None, 4608)              0         
                                                                 
 dense_7 (Dense)             (None, 10)                46090     
                                                                 
Total params: 48,522
Trainable params: 48,522
Non-trainable params: 0
_________________________________________________________________


- 함수형 API 사용

In [47]:
def build_model():
  inputs = Input(shape=input_shape)
  conv1 = Conv2D(32, kernel_size=(5,5))(inputs)
  maxpool1 = MaxPooling2D(pool_size=(2,2))(conv1)
  predictions = Dense(10, activation='softmax')(Flatten()(maxpool1))

  model = Model(inputs=inputs, outputs=predictions)
  return model

- 원시 버전의 인셉션 블록

In [48]:
from tensorflow.keras.layers import Conv2D, MaxPooling2D, concatenate

In [50]:
def naive_inception_block(prev_layer, filters=[64,128,32]):
  conv1x1 = Con2D(filters[0], kernel_size=(1,1), padding='same', activation='relu')(prev_layer)
  conv3x3 = Con2D(filters[1], kernel_size=(3,3), padding='same', activation='relu')(prev_layer)
  conv5x5 = Con2D(filters[2], kernel_size=(5,5), padding='same', activation='relu')(prev_layer)
  max_pool = MaxPooling2D(3,3, strides=(1,1), padding='same')(prev_layer)

  return concatenate([conv1x1, conv3x3, conv5x5, max_pool], axis=-1)

## 케라스 모델

In [53]:
inceptionV3_net = tf.keras.applications.InceptionV3(
    include_top=True, weights='imagenet', input_tensor=None, input_shape=None,
    pooling=None, classes=1000)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/inception_v3/inception_v3_weights_tf_dim_ordering_tf_kernels.h5


In [55]:
inceptionV3_net.summary()

Model: "inception_v3"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_2 (InputLayer)           [(None, 299, 299, 3  0           []                               
                                )]                                                                
                                                                                                  
 conv2d_6 (Conv2D)              (None, 149, 149, 32  864         ['input_2[0][0]']                
                                )                                                                 
                                                                                                  
 batch_normalization (BatchNorm  (None, 149, 149, 32  96         ['conv2d_6[0][0]']               
 alization)                     )                                                      

# ResNet - 잔차 네트워크

- 네트워크의 깊이가 깊어질수록 경사가 소실되거나 폭발하는 문제를 해결하고자 함

- 병목 합성곱 계층을 추가하거나 크기가 작은 커널을 사용

- 152개의 훈련가능한 계층을 수직으로 연결하여 구성

- 모든 합성곱과 풀링 계층에서 패딩옵셥으로 "SAME", stride=1 사용

- 3x3 합성곱 계층 다음마다 배치 정규화 적용,  
  1x1 합성곱 계층에는 활성화 함수가 존재하지 않음

  <br>

  <img src="https://miro.medium.com/max/1200/1*6hF97Upuqg_LdsqWY6n_wg.png">

  <sub>[이미지 출처] https://towardsdatascience.com/review-resnet-winner-of-ilsvrc-2015-image-classification-localization-detection-e39402bfa5d8</sub>

## 잔차 블록 구현

In [56]:
from tensorflow.keras.layers import Activation, Conv2D, BatchNormalization, add

In [57]:
def residual_block_basic(x, filters, kernel_size=3, strides=1):
  conv_1 = Conv2D(filters=filters, kernel_size=kernel_size,
                  pading='same', strides=strides)(x)
  bn_1 = BatchNormalization(axis=-1)(conv_1)
  act_1 = Activation('relu')(bn_1)
  conv_2 = Conv2D(filters=filters, kernel_size=kernel_size,
                  padding='same', strides=strides)(act_1)
  residual = BatchNormalization(axis=-1)(conv_2)

  shortcut = x if strides == 1 else Conv2D(filters, kernel_size=1, padding='valid', strides=strides)(x)
  
  return Activation('relu')(add([shortcut, residual]))

## 케라스 모델

In [59]:
resnet50 = tf.keras.applications.ResNet50(
    include_top=True, weights='imagenet',
    input_tensor=None, input_shape=None,
    pooling=None, classes=1000
)

Downloading data from https://storage.googleapis.com/tensorflow/keras-applications/resnet/resnet50_weights_tf_dim_ordering_tf_kernels.h5


In [60]:
resnet50.summary()

Model: "resnet50"
__________________________________________________________________________________________________
 Layer (type)                   Output Shape         Param #     Connected to                     
 input_3 (InputLayer)           [(None, 224, 224, 3  0           []                               
                                )]                                                                
                                                                                                  
 conv1_pad (ZeroPadding2D)      (None, 230, 230, 3)  0           ['input_3[0][0]']                
                                                                                                  
 conv1_conv (Conv2D)            (None, 112, 112, 64  9472        ['conv1_pad[0][0]']              
                                )                                                                 
                                                                                           