##0.개요
https://ratsgo.github.io/deep%20learning/2017/10/09/CNNs/
* AlexNet : 최초의 의미있는 성능의 CNN, 드랍아웃 기법의 표준화
* GoogLeNet : 1x1 conv filter의 차원감소
* ResNet : 기존의 층이 깊어질수록 역전파되는 그래디언트가 중간에 죽어 학습이 잘 되지 않는 문제(gradient vanishing)이 발생 -> residual block(**for skip connection**,forget gate를 도입해 이전 스텝의 그래디언트 정보를 좀더 잘 흐르게 만드려는 LSTM과 본질적으로 유사)
![residual block](https://i.imgur.com/fse3Ntq.png)
![unraveled view](https://i.imgur.com/CjLtXb0.png)


##1.AlexNet
* 우수한 정확도
* 2개의 GPU를 사용한 구조(그 당시 3GB였기 때문)
* 5개의 Conv 레이어, 3개의 FC 레이어
* 3차원 구조의 convolution layer
 * RGB -> depth=3
* zero-padding을 통해 얻은 이미지(227,227,3)->컨볼루션 커널(11,11,3,96) 통과 -> 출력 이미지 (55,55,96) ->풀링하여 927,27,96)->conv kernel(5,5,96,256) 통과->27,27,256 이미지 ->conv()

* Lateral inhibition 현상에서 모델링하여 local response normalization->generalization 관점에서 더 좋은 정확도를 얻는것이 가능
* Data augment, relu, dropout
* 파라미터의 연산량을 줄이는 것이 모델 설계의 핵심



In [0]:
def AlexNet():
    
    model = keras.Sequential()
    
    model.add(keras.layers.Conv2D(filters=96, kernel_size= 11, strides=4, padding='SAME', activation = tf.nn.relu, input_shape=(224,224,3)))
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding= 'SAME'))
    
    model.add(keras.layers.Conv2D(filters=256, kernel_size=5, strides=1, padding='SAME', activation = tf.nn.relu))
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding='SAME'))

    model.add(keras.layers.Conv2D(filters=384, kernel_size= 3, strides=1, padding='SAME', activation = tf.nn.relu))
    model.add(keras.layers.Conv2D(filters=384, kernel_size= 3, strides= 1, padding='SAME', activation = tf.nn.relu))
    model.add(keras.layers.Conv2D(filters=256, kernel_size= 3, strides= 3, padding='SAME', activation = tf.nn.relu))
    model.add(keras.layers.MaxPooling2D(pool_size= 2, strides= 2, padding='SAME'))

    model.add(keras.layers.Flatten())
    model.add(keras.layers.Dense(4096, input_shape=(224*224*3,), activation = tf.nn.relu))
    model.add(keras.layers.Dropout(0.4))
    
    model.add(keras.layers.Dense(4096, activation = tf.nn.relu))
    model.add(keras.layers.Dropout(0.4))
    
    model.add(keras.layers.Dense(1000, activation = tf.nn.softmax))
    
    return model


##2.VGG16
* 신경망의 깊이가 깊어짐
 * 장점 : 더 복잡한 문제의 해결
  * 파라미터와 연산량의 증가, 그리고 overfitting

* 파라미터의 숫자를 줄이는 방법
 * 5 x 5 conv 하나보다 3 x 3 두개가 낫다. 즉 여러개의 작은 conv filter(3 by 3 이하만) 쓰는 것이 적은 파라미터와 연산량으로 가능하다.
 * 3 x 3 2개 = 5 x 5 1개
 * 3 x 3 3개 = 7 x 7 1개

* Vanishing gradient 문제를 해결하기 위해 11-layer의 학습 결과를 더 깊은 layer의 파라미터 초기화에 사용



In [0]:
def VGG16():
    model = keras.Sequential()
    #3 x 3 convolution만을 사용
    
    model.add(keras.layers.Conv2D(filters = 64, kernel_size = 3, activation= 'relu', padding= 'SAME', input_shape = (224, 224, 3)))
    model.add(keras.layers.Conv2D(filters = 64, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    
    model.add(keras.layers.Conv2D(filters = 128, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 128, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 256, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.Conv2D(filters = 512, kernel_size = 3, activation= 'relu', padding= 'SAME'))
    model.add(keras.layers.MaxPooling2D(pool_size = 2, strides = 2))
    
    model.add(keras.layers.Flatten())
    model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
    model.add(keras.layers.Dense(4096, activation= tf.nn.relu))
    model.add(keras.layers.Dense(1000, activation= tf.nn.softmax))
    
    return model

##3.GoogLeNet
* 1 x 1 conv : 차원을 줄이는 방법. 비슷한 성질을 갖는 것들 묶음, 피쳐맵과 연산량을 줄이는데 특화
* Inception module -> 1,3,5 square의 conv를 각각 수행
* 보조분류기 사용



In [0]:
class GoogLeNet():
    def inception_block(input_layer, filter1, filter2, filter3, reduce1, reduce2, pool_proj):
    # TODO : 1 x 1 Convolution 수행
    conv1x1 = Conv2D(filter1, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    
    # TODO : 1 x 1 Convolution 후 3 x 3 Convolution 수행
    conv3x3_reduce = Conv2D(reduce1, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv3x3 = Conv2D(filter2, kernel_size=(3,3), padding='same', activation='relu')(conv3x3_reduce)
    
    # TODO : 1 x 1 Convolution 후 5 x 5 Convolution 수행
    conv5x5_reduce = Conv2D(reduce2, kernel_size=(1,1), padding='same', activation='relu')(input_layer)
    conv5x5 = Conv2D(filter3, kernel_size=(5,5), padding='same', activation='relu')(conv5x5_reduce)
    
    # TODO : Max pooling 후 1 x 1 Convolution 수행
    pooling = MaxPooling2D((3,3), strides=(1,1), padding='same')(input_layer)
    pool_proj = Conv2D(pool_proj, kernel_size=(1,1), padding='same', activation='relu')(pooling)
    
    # TODO : 개별적으로 연산이 끝난 후 Feature map을 합쳐줍니다.
    output_layer = concatenate([conv1x1,conv3x3,conv5x5,pool_proj])
    
    return output_layer

    # Gradient Vanishing Problem을 막기 위한 Auxiliary_classifier
    def Auxiliary_classifier(input_layer, filter1, dense1, dense2, drop_prob):
        loss_ave_pool = AveragePooling2D(pool_size= 5, strides= 3)(input_layer)
        loss_conv = Conv2D(filter1, kernel_size = (1,1), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(loss_ave_pool)
        loss_flat = Flatten()(loss_conv)
        loss_fc = Dense(dense1, kernel_regularizer=l2(0.0002), activation='relu')(loss_flat)
        loss_drop_fc = Dropout(drop_prob)(loss_fc)
        # 총 1000개의 클래스를 분류하기 때문에 마지막 node의 개수는 1000개입니다.
        loss_classifier = Dense(dense2, kernel_regularizer=l2(0.0002), activation='softmax')(loss_drop_fc)

        return loss_classifier

    # 입력 선언
    def model():
        shape = (224,224,3)
        inputs = Input(shape)

        # 초기 입력의 크기를 줄이기 위한 Conv Layer
        conv_7x7 = Conv2D(64, kernel_size=(7,7), strides= (2,2), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(inputs)
        max_pool1 = MaxPooling2D((3,3), strides=(2,2), padding='same')(conv_7x7)
        conv_3x3 = Conv2D(192, (3,3),strides=(1,1), padding='same', activation='relu', kernel_regularizer=l2(0.0002))(max_pool1)
        max_pool2 = MaxPooling2D((3,3), strides=(2,2), padding='same')(conv_3x3)

        inception_reduce_1 = inception_block(max_pool2, 64, 128, 32, 96, 16, 32)
        inception_reduce_2 = inception_block(inception_reduce_1, 128, 192, 96, 128, 32, 64)

        # Max Pooling Layer로 Feature map의 크기 감소.
        max_pool3 = MaxPooling2D((3,3), strides=(2,2), padding='same')(inception_reduce_2)

        .
        inception_reduce_3 = inception_block(max_pool3, 192, 208, 48, 96, 16, 64)
        inception_reduce_4 = inception_block(inception_reduce_3, 160, 224, 64, 112, 24, 64)

        # 첫 번째 Auxiliary Classifier를 4번째 Inception 모듈 뒤에 쌓는다.
        loss_classifier1 = Auxiliary_classifier(inception_reduce_4, 128, 1024, 1000, 0.7)

        inception_reduce_5 = inception_block(inception_reduce_4, 128, 256, 64, 128, 24, 64)
        inception_reduce_6 = inception_block(inception_reduce_5, 112, 288, 64, 144, 32, 64)
        inception_reduce_7 = inception_block(inception_reduce_6, 256, 320, 128, 160, 32, 128)

        max_pool4 = MaxPooling2D((3,3), strides=(2,2), padding='same')(inception_reduce_7)

        # 두 번째 Auxiliary Classifier를 7번째 Inception 모듈 뒤에 쌓는다.
        loss_classifier2 = Auxiliary_classifier(inception_reduce_7, 128, 1024, 1000, 0.7)

        inception_reduce_8 = inception_block(max_pool4, 256, 320, 128, 160, 32, 128)
        inception_reduce_9 = inception_block(inception_reduce_8, 384, 384, 128, 192, 48, 128)

        # Average Pooling Layer로 학습된 Feature들의 평균을 구함
        avg_pool = AveragePooling2D(pool_size= 7, strides= 1)(inception_reduce_9)
        drop_out_layer = Dropout(0.4)(avg_pool)

        loss_classifier3 = Dense(1000)(drop_out_layer)

        
        model = Model(inputs = inputs, outputs = [loss_classifier1,loss_classifier2,loss_classifier3])
        model.summary()

##4.ResNet
* 깊은 망 -> vanishing gradient
* 입력과 출려의 차이값(F(x)=H(x)-x)를 찾는것. F(x)=0 최적의 경우 학습의 목표가 정해진 상태에서 학습
* Bottleneck block : 두 종류의 residual block 사용, deep한 신경망 만들기 위해 3 layer 모델 사용
* 5종류, 망 깊이와 정확도 비례


In [0]:
def identity_block(input_tensor, kernel_size, filters):
    
    filters1, filters2, filters3 = filters
    
    x = Conv2D(filters1, (1, 1))(input_tensor)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters2, kernel_size, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters3, (1, 1))(x)
    x = BatchNormalization()(x)
    
    # 입력(x) : input_tensor와 F(x) : x를 더해줍니다.
    # TODO : add()와 Activation() 메서드를 사용해서 relu(F(x) + x) 의 형태로 만들어보세요. 
    x = add([input_tensor,x])
    x = Activation('relu')(x)
    return x


def residual_block(input_tensor, kernel_size, filters, strides=(2, 2)):
    filters1 , filters2 , filters3 = filters
    
    # 입력 Feature Map의 Size를 1/2로 감소, Feature map의 Dimension을 2배로 증가
    x = Conv2D(filters1, (1, 1), strides=strides)(input_tensor)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters2, kernel_size, padding='same')(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)

    x = Conv2D(filters3, (1, 1))(x)
    x = BatchNormalization()(x)
    
    shortcut = Conv2D(filters3 ,(1,1),strides=strides)(x)
    shortcut = BatchNormalization()(shortcut)

    x = add([x,shortcut])
    x = Activation('relu')(x)
    
    return x


def ResNet50():
    
    shape = (224,224,3)
    inputs = Input(shape)
    
    # 입력 영상의 크기를 줄이기 위한 Conv & Max-pooling
    x = ZeroPadding2D((3, 3))(inputs)
    x = Conv2D(64, (7, 7), strides=(2, 2))(x)
    x = BatchNormalization()(x)
    x = Activation('relu')(x)
    x = MaxPooling2D((3, 3), strides=(2, 2))(x)
    
    # 첫 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [64, 64, 256], strides=(1, 1))
    x = identity_block(x, 3, [64, 64, 256])
    x = identity_block(x, 3, [64, 64, 256])
    
    
    # 두 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    x = identity_block(x, 3, [128, 128, 512])
    
    # 세 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    x = identity_block(x, 3, [256, 256, 1024])
    
    # 네 번째 Residual Block (입력 영상 Size 2배 축소 / Dimension 2배 증가)
    x = residual_block(x, 3, [512, 512, 2048])
    x = identity_block(x, 3, [512, 512, 2048])
    x = identity_block(x, 3, [512, 512, 2048])

    # 마지막단에서 FC layer를 쓰지 않고 단순히 Averaging
    x = AveragePooling2D((7, 7))(x)
    x = Flatten()(x)
    
    x = Dense(1000, activation='softmax')(x)
    
    model = Model(inputs, x)
    return model

model = ResNet50()
model.summary()
