# LeNet
## 개요
17장에서는 컴퓨터 성능이 좋아지며 발전해온 여러 CNN의 Architecture에 대해 실습해보겠습니다.

LeNet은 최초의 CNN 모델로 Yann LeCun에 의해 1998년에 나온 모델입니다.

LeNet은 머신 러닝에서 사용하던 단순한 Fully Connected Layer(MLP)의 한계를 극복하고자 Convoultion 연산을 처음 도입한 인공신경망입니다.

https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d2ff087bba5a479aae58340/LeNet.PNG

### 구조
LeNet은 우편번호와 수표의 필기체를 인식하기위해 개발되었으며 총 7개의 Layer로 구성되어 있습니다.

---------------------------------

### LeNet 구조

* Convolution Layer : 2개
* Sub-Sampling Layer : 2개
* Fully Connected Layer : 2개
* Output Layer : 10개의 Class 구분
* 파라미터 개수 - 61007개

-----------------------------
### 실습
작성된 LeNet Model을 보고 분석해보세요.

summary() 메서드를 통해 출력된 구조와 파라미터 개수를 확인해보세요.

In [3]:
import tensorflow as tf
from tensorflow import keras


# LeNet Model
def LeNet():
    model = keras.Sequential()
    # Conv 1 Layer
    model.add(keras.layers.Conv2D(filters=6, kernel_size=5, strides = 1, activation=tf.nn.relu, input_shape=(32, 32, 1)))
    
    # Sub Sampling Layer (Max Pooling)
    model.add(keras.layers.MaxPool2D(pool_size = 2, strides =2))
    
    # Conv 1 Layer
    model.add(keras.layers.Conv2D(filters=16, kernel_size=5, strides = 1, activation=tf.nn.relu, input_shape= (16, 16, 1)))
    
    # Sub Sampling Layer (Max Pooling)
    model.add(keras.layers.MaxPool2D(pool_size = 2, strides =2))
    
    # Fully Connected (FC) Layer와 연결하기 위한 Flatten
    model.add(keras.layers.Flatten())
    
    # FC1 Layer 
    model.add(keras.layers.Dense(120, activation=tf.nn.relu))
    # FC2 Layer
    model.add(keras.layers.Dense(84, activation=tf.nn.relu))
    
    # Output Softmax
    model.add(keras.layers.Dense(10, activation=tf.nn.softmax))

    return model
    
lenet = LeNet()
lenet.summary()


Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_2 (Conv2D)            (None, 28, 28, 6)         156       
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 14, 14, 6)         0         
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 10, 10, 16)        2416      
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 16)          0         
_________________________________________________________________
flatten_1 (Flatten)          (None, 400)               0         
_________________________________________________________________
dense_3 (Dense)              (None, 120)               48120     
_________________________________________________________________
dense_4 (Dense)              (None, 84)               

# AlexNet
### 개요
AlexNet은 ILSVRC 2012(ImageNet Large Scale Visual Recognition Challenge) 대회에서 우승한 모델로 GPU를 사용해 계산량 문제를 해결했습니다.

https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d31156993667819c3af811b/AlexNet.PNG

AlexNet은 2개의 GPU를 병렬로 이용해 데이터를 학습시키고 특정 Layer에서만 학습된 Feature를 공유하도록 만들었습니다.

### ImageNet Dataset
AlexNet은 영상의 Class 분류를 위해 설계되었으며 데이터는 ImageNet을 사용했습니다.

AlexNet에 사용된 ImageNet 데이터는 약 150만장으로 구성되어있으며 Train 120만장, Validation 5만장, Test 15만장으로 구성되어있습니다.

이를 통해 1000개의 Class를 분류하도록 구성된 영상 데이터입니다.

### 구조
AlexNet 구조는 LeNet과 비슷하지만 LeNet보다 더 깊은 형태의 신경망으로 구성되어 있습니다.

---------------------------
* Convolution Layer : 5개
* Fully Connected Layer : 3개
* ReLU Activation Function 적용
* Drop Out 적용

관련 링크 - https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

### 실습
Keras로 작성된 AlexNet 구조를 보고 이해해보세요.

summary() 메서드를 통해 각 Layer의 구조, 필터 개수, 커널 크기 등을 확인해보세요.

In [4]:
import tensorflow as tf
from tensorflow import keras


# AlexNet Model
def AlexNet():
    # Sequential 모델 선언
    model = keras.Sequential()
    
    # 첫 번째 Convolutional Layer
    model.add(keras.layers.Conv2D(filters=96, kernel_size= 11, strides=4, padding='SAME', activation = tf.nn.relu, input_shape=(224,224,3)))
    # Max Pooling
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding= 'SAME'))


    # 두 번째 Convolutional Layer
    model.add(keras.layers.Conv2D(filters=256, kernel_size=5, strides=1, padding='SAME', activation = tf.nn.relu))
    # Max Pooling
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding='SAME'))


    # 세 번째 Convolutional Layer
    model.add(keras.layers.Conv2D(filters=384, kernel_size= 3, strides=1, padding='SAME', activation = tf.nn.relu))
    # 네 번째 Convolutional Layer
    model.add(keras.layers.Conv2D(filters=384, kernel_size= 3, strides= 1, padding='SAME', activation = tf.nn.relu))
    # 다섯 번째 Convolutional Layer
    model.add(keras.layers.Conv2D(filters=256, kernel_size= 3, strides= 3, padding='SAME', activation = tf.nn.relu))
    # Max Pooling
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding='SAME'))

    # Connecting it to a Fully Connected layer
    model.add(keras.layers.Flatten())
    
    # 첫 번째 Fully Connected Layer
    model.add(keras.layers.Dense(4096, input_shape=(224*224*3,), activation = tf.nn.relu))
    # Add Dropout to prevent overfitting
    model.add(keras.layers.Dropout(0.4))
    
    # 두 번째 Fully Connected Layer
    model.add(keras.layers.Dense(4096, activation = tf.nn.relu))
    # Add Dropout
    model.add(keras.layers.Dropout(0.4))
    
    # 세 번째 Fully Connected Layer
    model.add(keras.layers.Dense(1000, activation = tf.nn.softmax))
    
    return model
    
alex = AlexNet()
alex.summary()


Model: "sequential_2"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_4 (Conv2D)            (None, 56, 56, 96)        34944     
_________________________________________________________________
max_pooling2d_4 (MaxPooling2 (None, 28, 28, 96)        0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 28, 28, 256)       614656    
_________________________________________________________________
max_pooling2d_5 (MaxPooling2 (None, 14, 14, 256)       0         
_________________________________________________________________
conv2d_6 (Conv2D)            (None, 14, 14, 384)       885120    
_________________________________________________________________
conv2d_7 (Conv2D)            (None, 14, 14, 384)       1327488   
_________________________________________________________________
conv2d_8 (Conv2D)            (None, 5, 5, 256)        

# VGG Net
### 개요
VGGNet은 ILSVRC 2014년도에 2위를 한 모델로 모델의 깊이에 따른 변화를 비교할 수 있게 만든 모델입니다.

### 3 x 3 Convolution
VGGNet의 특징은 모든 Convolution Layer에 3 x 3 convolution filter를 사용한 것이 특징입니다.

이전까지의 모델들은 첫 번째 Conv Layer에서는 입력 영상의 축소를 위해 11 x 11, 7 x 7의 Conv filter를 사용했습니다.

https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d312476c290c5fc21224035/Conv_filter.png

3 x 3 Conv filter를 두번 사용하면 (5 x 5)와 같고 세 번 사용하면 (7 x 7) 과 같아집니다. 그러나 3 x 3을 여러번 사용하게 되면, 연산에 드는 비용이 더 적어지기 때문에 (ex, 3 x 3 x 2 = 18 vs 5 x 5 = 25) 더 높은 성능을 낼 수 있습니다.

### 구조
https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d31254a98706dba333d40f1/vgg16.png

VGGNet은 VGG16, VGG19 2개의 버전이 있습니다. 숫자의 의미는 각각 16개, 19개의 Layer를 갖고 있다는 의미입니다. VGG16을 예로 들자면 아래와 같이 구성되어 있습니다.

----------------
* Convolution Layer 13개
* Fully Connected Layer 3개

-------------------------
### 단점
summary()로 VGGNet을 보면 굉장히 많은 파라미터를 볼 수 있습니다. 파라미터가 많기 때문에 Computation Power가 굉장히 많이 필요하고 모델이 깊어짐에 따라 Gradient Vanishing의 문제가 발생할 가능성이 크다는 단점이 있습니다.

관련 링크

https://arxiv.org/pdf/1409.1556.pdf
### 실습
Keras로 작성된 VGG16 구조를 보고 이해해보세요.

3 x 3 kernel을 사용하여 VGG16()을 완성시켜보세요.

filters : Output 필터의 개수 [Ex) 64의 배수로 구성해보세요. VGGNet은 최대 512 차원까지 사용합니다.]
* kerner size = 3
* activation function = ReLU
* padding = ‘same’

summary() 메서드를 통해 각 Layer의 구조, 필터 개수, 커널 크기 등을 확인해보세요.

In [5]:
import tensorflow as tf
from tensorflow import keras


def VGG16():
    # Sequential 모델 선언
    model = keras.Sequential()
    # TODO : 3 x 3 convolution만을 사용하여 VGG16 Net을 완성해보세요.
    # 첫 번째 Conv Block
    # 입력 Shape는 ImageNet 데이터 세트의 크기와 같은 RGB 영상 (224 x 224 x 3)입니다.
    model.add(keras.layers.Conv2D(filters = 64, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME', input_shape = (224, 224, 3)))
    model.add(keras.layers.Conv2D(filters = 64, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    # 두 번째 Conv Block
    model.add(keras.layers.Conv2D(filters = 128, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 128, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    # 세 번째 Conv Block
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    # 네 번째 Conv Block
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    # 다섯 번째 Conv Block
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= tf.nn.relu, padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    # Fully Connected Layer
    model.add(keras.layers.Flatten())
    model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
    model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
    model.add(keras.layers.Dense(1000, activation= tf.nn.softmax))
    
    return model

vgg16 = VGG16()
vgg16.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_9 (Conv2D)            (None, 224, 224, 64)      1792      
_________________________________________________________________
conv2d_10 (Conv2D)           (None, 224, 224, 64)      36928     
_________________________________________________________________
max_pooling2d_7 (MaxPooling2 (None, 112, 112, 64)      0         
_________________________________________________________________
conv2d_11 (Conv2D)           (None, 112, 112, 128)     73856     
_________________________________________________________________
conv2d_12 (Conv2D)           (None, 112, 112, 128)     147584    
_________________________________________________________________
max_pooling2d_8 (MaxPooling2 (None, 56, 56, 128)       0         
_________________________________________________________________
conv2d_13 (Conv2D)           (None, 56, 56, 256)      

# GoogleNet
### 개요
GoogleNet은 ILSVRC 2014에서 우승한 CNN 모델로 Inception이라는 개념을 처음 도입한 모델입니다.

### Inception Module

실제로 영화 ‘인셉션’ 장면에서 이름을 따와 Inception Module이라 부릅니다.

Inception Module은 아래와 같은 구조를 가지고 있습니다.

https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d314559629018b0edee8001/Inception..JPG

Input Layer에 대해 크기가 다른 Convolution연산을 적용하여 다양한 Feature를 학습할 수 있도록 했습니다.

연산량이 많아지는 것을 해결하기위해 1 x 1 Convolution을 통해 Feature Dimension을 감소시켰습니다.

### Auxiliary Classifier
모델이 깊어짐에 따라 생기는 Gradient Vanishing 문제를 해결하기 위해 중간중간 Auxiliary Classifier를 달아 중간에서 Loss를 구할 수 있도록 했습니다.

Auxiliary Classifier는 학습을 할 때만 덧붙이고 테스트를 할때에는 마지막 Classifier만 사용합니다.

### 구조
GoogleNet은 마지막 끝단에서 파라미터가 많은 FC layer를 제거하고 Average Pooling으로 학습된 값들을 평균을 냅니다.

모델이 깊어지면서 Convolution Layer 연산만으로도 충분히 Feature를 학습했기 때문에 평균만을 구해도 충분히 성능이 나온다고 생각했기 때문입니다.

실제로 GoogleNet은 FC layer를 제거함으로써 AlexNet보다 약 12배 적은 파라미터를 사용합니다.

---------------------
* Inception module : 9개
* Auxiliary Classifier : 3개
* FC layer 대신 Average Pooling 사용

--------------------------------
GoogleNet에 대한 전체적인 구조는 아래 관련 링크 (Figure 3) 에서 확인해 보겠습니다.

관련 링크

https://www.cs.unc.edu/~wliu/papers/GoogLeNet.pdf
### 실습
Keras로 작성된 GoogleNet 구조를 보고 이해해보세요.

설명에 나온 그림을 보고 Inception_block()을 완성해보세요.

Auxiliary_classifier()가 어떻게 구성되어 있고 GoogleNet 모델에 어떻게 적용되는지 확인해보세요.

summary() 메서드를 통해 각 Layer의 구조, 필터 개수, 커널 크기 등을 확인하고 관련 링크의 Table 1과 비교해보세요.

In [6]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Input, Dense, Conv2D, MaxPooling2D, AveragePooling2D, Dropout, Flatten, concatenate
from tensorflow.keras.models import Model
from tensorflow.keras.regularizers import l2

# Incetion 모듈 with 1 x 1 Convolution
def inception_block(input_layer, filter1, filter2, filter3, reduce1, reduce2, pool_proj):
    # TODO : 1 x 1 Convolution 수행
    conv1x1 = Conv2D(filter1, kernel_size=(1,1), padding='SAME', activation='relu')(input_layer)
    
    # TODO : 1 x 1 Convolution 후 3 x 3 Convolution 수행
    conv3x3_reduce = Conv2D(reduce1, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv3x3 = Conv2D(filter2, kernel_size=(3,3), padding='same', activation='relu')(conv3x3_reduce)
    
    # TODO : 1 x 1 Convolution 후 5 x 5 Convolution 수행
    conv5x5_reduce = Conv2D(reduce2, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv5x5 = Conv2D(filter3, kernel_size=(5,5), padding='same', activation='relu')(conv5x5_reduce)
    
    # TODO : Max pooling 후 1 x 1 Convolution 수행
    pooling = MaxPooling2D((3,3), strides=(1,1), padding='same')(input_layer)
    pool_proj = Conv2D(pool_proj, kernel_size=(1,1), padding='same', activation='relu')(pooling)
    
    # TODO : 개별적으로 연산이 끝난 후 Feature map을 합쳐줍니다.
    output_layer = concatenate([conv1x1,conv3x3,conv5x5,pool_proj])
    return output_layer

# Gradient Vanishing Problem을 막기 위한 Auxiliary_classifier
def Auxiliary_classifier(input_layer, filter1, dense1, dense2, drop_prob):
    loss_ave_pool = AveragePooling2D(pool_size= 5, strides= 3)(input_layer)
    loss_conv = Conv2D(filter1, kernel_size = (1,1), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(loss_ave_pool)
    loss_flat = Flatten()(loss_conv)
    loss_fc = Dense(dense1, kernel_regularizer=l2(0.0002), activation='relu')(loss_flat)
    loss_drop_fc = Dropout(drop_prob)(loss_fc)
    # 총 1000개의 클래스를 분류하기 때문에 마지막 node의 개수는 1000개입니다.
    loss_classifier = Dense(dense2, kernel_regularizer=l2(0.0002), activation='softmax')(loss_drop_fc)
    
    return loss_classifier

# 입력 선언
shape = (224,224,3)
inputs = Input(shape)

# 초기 입력의 크기를 줄이기 위한 Convolution Layer
conv_7x7 = Conv2D(64, kernel_size=(7,7), strides= (2,2), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(inputs)
max_pool1 = MaxPooling2D((3,3), strides=(2,2), padding='same')(conv_7x7)
conv_3x3 = Conv2D(192, (3,3),strides=(1,1), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(max_pool1)
max_pool2 = MaxPooling2D((3,3), strides=(2,2), padding='same')(conv_3x3)

# Inception 모듈을 쌓습니다.
inception_reduce_1 = inception_block(max_pool2, 64, 128, 32, 96, 16, 32)
inception_reduce_2 = inception_block(inception_reduce_1, 128, 192, 96, 128, 32, 64)

# Max Pooling Layer로 Feature map의 크기를 줄입니다.
max_pool3 = MaxPooling2D((3,3), strides=(2,2), padding='same')(inception_reduce_2)

# Inception 모듈을 쌓습니다.
inception_reduce_3 = inception_block(max_pool3, 192, 208, 48, 96, 16, 64)
inception_reduce_4 = inception_block(inception_reduce_3, 160, 224, 64, 112, 24, 64)

# 첫 번째 Auxiliary Classifier를 4번째 Inception 모듈 뒤에 넣어줍니다.
loss_classifier1 = Auxiliary_classifier(inception_reduce_4, 128, 1024, 1000, 0.7)

# Inception 모듈을 쌓습니다.
inception_reduce_5 = inception_block(inception_reduce_4, 128, 256, 64, 128, 24, 64)
inception_reduce_6 = inception_block(inception_reduce_5, 112, 288, 64, 144, 32, 64)
inception_reduce_7 = inception_block(inception_reduce_6, 256, 320, 128, 160, 32, 128)

# Max Pooling Layer로 Feature map의 크기를 줄입니다.
max_pool4 = MaxPooling2D((3,3), strides=(2,2), padding='same')(inception_reduce_7)

# 두 번째 Auxiliary Classifier를 7번째 Inception 모듈 뒤에 넣어줍니다.
loss_classifier2 = Auxiliary_classifier(inception_reduce_7, 128, 1024, 1000, 0.7)

# Inception 모듈을 쌓습니다.
inception_reduce_8 = inception_block(max_pool4, 256, 320, 128, 160, 32, 128)
inception_reduce_9 = inception_block(inception_reduce_8, 384, 384, 128, 192, 48, 128)

# Average Pooling Layer로 학습된 Feature들의 평균을 구해줍니다.
avg_pool = AveragePooling2D(pool_size= 7, strides= 1)(inception_reduce_9)
drop_out_layer = Dropout(0.4)(avg_pool)

# 마지막 최종 Class를 구분하기 위한 Classifier입니다.
loss_classifier3 = Dense(1000)(drop_out_layer)

# 작성한 GoogleNet 모델을 하나로 합쳐줍니다.
model = Model(inputs = inputs, outputs = [loss_classifier1,loss_classifier2,loss_classifier3])

# 모델 출력
model.summary()

W0805 18:19:09.280721 15668 nn_ops.py:4220] Large dropout rate: 0.7 (>0.5). In TensorFlow 2.x, dropout() uses dropout rate instead of keep_prob. Please ensure that this is intended.
W0805 18:19:10.088694 15668 nn_ops.py:4220] Large dropout rate: 0.7 (>0.5). In TensorFlow 2.x, dropout() uses dropout rate instead of keep_prob. Please ensure that this is intended.


Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 224, 224, 3) 0                                            
__________________________________________________________________________________________________
conv2d_22 (Conv2D)              (None, 112, 112, 64) 9472        input_1[0][0]                    
__________________________________________________________________________________________________
max_pooling2d_12 (MaxPooling2D) (None, 56, 56, 64)   0           conv2d_22[0][0]                  
__________________________________________________________________________________________________
conv2d_23 (Conv2D)              (None, 56, 56, 192)  110784      max_pooling2d_12[0][0]           
______________________________________________________________________________________________

# ResNet
ResNet은 ILSVRC 2015에서 우승한 모델로 Top -5 Error가 3.6% 밖에 안되는 굉장히 고성능의 모델입니다.

TIP Top-5 Error란 모델이 예측한 최상위 5개 Class 가운데 정답이 없는 경우의 오류율을 말합니다.

----------------
### 개요
ResNet은 굉장히 깊은 층(최대 152-Layer)까지 쌓을 수 있는 모델입니다. 모델의 층이 깊어질수록 역전파 (Backpropagation) 시 기울기가 0으로 수렴해버려 학습이 진행되지 않는Gradient Vanishing 현상이 발생합니다. 이러한 현상을 Degradation Problem이라고 합니다.

ResNet은 Degradation problem을 완화하고 깊은 Layer를 가진 모델을 만들기 위해 Skip Connection이란 Residual Learning을 도입하였습니다.

### Residual Learning
기존 딥러닝 모델을 H(x)H(x) 라고 할 때, 우리는

H(x) - y H(x)−y

를 최소화하고 H(x)H(x)를 얻기 위해 학습을 했습니다.

그러나 ResNet은 입력 (x)와 출력 H(x)의 잔차 F(x)F(x) (Residual)를 H(x) - xH(x)−x 라 가정하고

F(x) = H(x) - x F(x)=H(x)−x

를 찾도록 학습이 됩니다.

결과적으로 출력은

H(x) = F(x) + x H(x)=F(x)+x

의 형태가 됩니다. 이렇게 잔차 (Residual)를 학습하는 것을 Residual Learning 이라고 합니다.

그리고 모델의 입력 (x)과 잔차 (F(x))가 더해진 것을 다음 Layer의 입력으로 사용하는 것을 Skip Connection이라 합니다.

### Skip Connection

https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d341ad553b891d0526da1ff/Residual%20Block.JPG

Skip Connection을 적용한 Residual block의 모습입니다. 이렇게 입력을 출력에 더하여 다음 Layer의 입력으로 사용하게 되면 역전파시 미분 값이 적어도 1이상의 값이 나와 기울기가 0으로 수렴하는 현상을 최소화했습니다.

### 구조
ResNet에서는 두 종류의 Residual block을 사용합니다. Residual block을 쌓아 굉장히 깊은 층의 모델을 만들어냅니다.

* Residual block : Feature map의 크기를 절반으로 줄이는 대신 Feature map의 Dimension을 2배로 늘리는 block입니다. Dimension을 맞추기 위해 1 x 1 Convolution을 사용한 block입니다. 이를 Projection Shortcut Connection 이라 합니다.


* Identity block : 입력과 출력의 Dimension이 같은 경우에 사용합니다.

전체적인 구조 및 자세한 사항은 아래의 링크에서 확인해보세요.

관련 링크

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/He_Deep_Residual_Learning_CVPR_2016_paper.pdf
### 실습
작성된 ResNet() 모델을 보고 이해해보세요.

identity_block()을 완성해보세요.

residual_block()을 완성해보세요.

summary()를 통해 모델의 구성 요소와 파라미터 개수 등을 확인해보세요.

In [7]:
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import add, Input,Dense,Activation, Flatten, Conv2D, MaxPooling2D, GlobalMaxPooling2D, ZeroPadding2D, AveragePooling2D, GlobalAveragePooling2D, BatchNormalization
from tensorflow.keras.models import Model


# 입력과 출력의 Dimension이 같은 경우 사용합니다.
def identity_block(input_tensor, kernel_size, filters):
    
    filters1, filters2, filters3 = filters
    
    x = Conv2D(filters1, (1, 1))(input_tensor)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters2, kernel_size, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters3, (1, 1))(x)
    x = BatchNormalization()(x)
    
    # 입력(x) : input_tensor와 F(x) : x를 더해줍니다.
    # TODO : add()와 Activation() 메서드를 사용해서 relu(F(x) + x) 의 형태로 만들어보세요. 
    x = add([x, input_tensor])
    x = Activation('relu')(x)
    return x


def residual_block(input_tensor, kernel_size, filters, strides=(2, 2)):
    filters1 , filters2 , filters3 = filters
    
    # 입력 Feature Map의 Size를 1/2로 줄이는 대신 Feature map의 Dimension을 2배로 늘려줍니다.
    x = Conv2D(filters1, (1, 1), strides=strides)(input_tensor)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters2, kernel_size, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters3, (1, 1))(x)
    x = BatchNormalization()(x)
    
    # TODO : Projection Shortcut Connection을 구현해보세요.
    # 1 x 1 Convolution 연산을 수행하여 Dimension을 2배로 증가시키고
    # 입력 Feature map의 size를 1/2로 축소시켜보세요.
    shortcut = Conv2D(filters3, (1, 1), strides=strides)(input_tensor)
    shortcut = BatchNormalization()(shortcut)

    # F(x) : x와 Shortcut Connection : shortcut을 더해줍니다.
    # TODO : add()와 Activation() 메서드를 사용해서 relu(F(x) + shortcut) 의 형태로 만들어보세요.
    x = add([x, shortcut])
    x = Activation('relu')(x)
    return x


def ResNet50():
    # 입력 이미지의 Shape을 정해줍니다.
    shape = (224,224,3)
    inputs = Input(shape)
    
    # 입력 영상의 크기를 줄이기 위한 Conv & Max-pooling
    x = ZeroPadding2D((3, 3))(inputs)
    x = Conv2D(64, (7, 7), strides=(2, 2))(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2))(x)
    
    # 첫 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [64, 64, 256], strides=(1, 1))
    x = identity_block(x, 3, [64, 64, 256])
    x = identity_block(x, 3, [64, 64, 256])
    
    
    # 두 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    
    # 세 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    
    # 네 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [512, 512, 2048])
    x = identity_block(x, 3, [512, 512, 2048])
    x = identity_block(x, 3, [512, 512, 2048])

    # 마지막단에서 FC layer를 쓰지 않고 단순히 Averaging 합니다.
    x = AveragePooling2D((7, 7))(x)
    x = Flatten()(x)
    # 1000개의 Class 구분
    x = Dense(1000, activation='softmax')(x)
    
    # 모델 구성
    model = Model(inputs, x)
    return model

model = ResNet50()
model.summary()


Model: "model_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_2 (InputLayer)            [(None, 224, 224, 3) 0                                            
__________________________________________________________________________________________________
zero_padding2d (ZeroPadding2D)  (None, 230, 230, 3)  0           input_2[0][0]                    
__________________________________________________________________________________________________
conv2d_80 (Conv2D)              (None, 112, 112, 64) 9472        zero_padding2d[0][0]             
__________________________________________________________________________________________________
batch_normalization (BatchNorma (None, 112, 112, 64) 256         conv2d_80[0][0]                  
____________________________________________________________________________________________

# Inception & Residual block 구현
앞서 실습에서 다뤘던 GoogleNet과 ResNet의 주요 구성 요소인 Inception 모듈과 Residual Block을 구현해보겠습니다.

### Inception Module
https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d353465b4c4643a30270368/Residual%20Block.JPG

위의 그림과 같은 형태의 Inception Module을 만들어보세요.

### Residual Block
https://kasausyrzlhe1066469.cdn.ntruss.com/global/file/p/5d353465b4c4643a30270368/Residual%20Block.JPG

위의 그림과 같은 형태의 Residual Block을 만들어보세요.

### 미션
TODO를 따라 inception_block()을 채워보세요.

TODO를 따라 identity_block()을 채워보세요.

TIP!

filters, kernel_size, padding, activation 를 알맞게 설정해보세요.

이전 입력이 어디로 연결되어야 하는지 잘 확인해보세요.

In [8]:
import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Input, Dense, Conv2D, MaxPooling2D, Flatten, concatenate, BatchNormalization, Activation, add
from tensorflow.keras.models import Model


# Incetion 모듈 with 1 x 1 Convolution
def inception_block(input_layer, filter1, filter2, filter3, reduce1, reduce2, pool_proj):
    # TODO : 1 x 1 Convolution Layer를 만들어주세요
    conv1x1 = Conv2D(filter1, kernel_size=(1,1), padding='SAME', activation='relu')(input_layer)
    
    # TODO : 1 x 1 Convolution 후 3 x 3 Convolution 수행
    conv3x3_reduce = Conv2D(reduce1, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv3x3 = Conv2D(filter2, kernel_size=(3,3), padding='same', activation='relu')(conv3x3_reduce)
    
    # TODO : 1 x 1 Convolution 후 5 x 5 Convolution 수행
    conv5x5_reduce = Conv2D(reduce2, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv5x5 = Conv2D(filter3, kernel_size=(5,5), padding='same', activation='relu')(conv5x5_reduce)
    
    # TODO : Max pooling 후 1 x 1 Convolution 수행
    pooling = MaxPooling2D((3,3), strides=(1,1), padding='same')(input_layer)
    pool_proj = Conv2D(pool_proj, kernel_size=(1,1), padding='same', activation='relu')(pooling)
    
    # TODO : 개별적으로 연산이 끝난 후 Feature map을 합쳐줍니다.
    output_layer = concatenate([conv1x1,conv3x3,conv5x5,pool_proj])
    
    return output_layer, conv1x1, conv3x3, conv3x3_reduce, conv5x5, conv5x5_reduce, pooling, pool_proj

# ResNet의 핵심 구성 요소인 Residual Block입니다.
def residual_block(input_tensor, kernel_size, filters):
    filters1, filters2, filters3 = filters
    
    # TODO : 1 x 1 Conv -> 3 x 3 conv -> 1 x 1 conv 순서로 Block을 구성해보세요.
    # Convolution 연산이 끝나면 BatchNormalization과 Activation Layer를 더해주세요.
    # BatchNormalization에 대해서는 다음 장에서 자세하게 다룰 예정입니다.
    
    conv1 = Conv2D (filters1, kernel_size=1, strides=1, padding = 'SAME')(input_tensor)
    conv1 = BatchNormalization()(conv1)
    conv1 = Activation('relu')(conv1)

    conv2 = Conv2D(filters2,kernel_size=kernel_size, padding='same')(conv1)
    conv2 = BatchNormalization()(conv2)
    conv2 = Activation('relu')(conv2)
    
    conv3 = Conv2D(filters3, (1, 1))(conv2)
    conv3 = BatchNormalization()(conv3)
    
    # 입력(x) : input_tensor와 F(x) : x를 더해줍니다.
    # TODO : add()와 Activation() 메서드를 사용해서 relu(F(x) + x) 의 형태로 만들어보세요.
    residual = add([conv3, input_tensor])
    residual = BatchNormalization()(residual)
    return residual, conv1, conv2, conv3

# 입력 Shape 설정합니다.
shape = (28,28,1)
inputs = Input(shape)

# Inception Block을 불러옵니다.
[output_layer, conv1x1, conv3x3, conv3x3_reduce, conv5x5, conv5x5_reduce, pooling, pool_proj] = inception_block(inputs, 64, 128, 32, 96, 16, 32)
# Residual Block을 불러옵니다.
[residual, conv1, conv2, conv3] = residual_block(inputs, 3, [64,64, 256])
