In [None]:
from keras import backend as K
K.tensorflow_backend._get_available_gpus()


# pretrained-network convnet 

* **pretrained-network**란?
    - 대규모 이미지 분류문제를 위해 대량의 데이터셋에서 미리 훈련되어 저장된 네트워크
    - ImageNet dataset에 network를 훈련한다
        + 1400만개의 label과 1000개의 class로 이뤄짐


* `keras.applications`에서 import할 수 있는 CNN 알고리즘 중 이미지 분류 model
    - VGG
    - Inception
    - ResNet
    - Inception-ResNet
    - Xception


* pretrained model을 사용하는 2가지 방식
    1. Feature extraction
        - Pretrained-network의 표현을 사용해 새로운 sample에서 적절한 feature을 뽑아내는 것 -> 이 feature을 이용해 새로운 classifier를 처음부터 훈련시킴
    2. Fine tuning
        - feature extraction에서 사용했던 동결model의 상위 층 몇개를 동결 해제하고 model에 새로 추가한 층과 함께 훈련하는 것

## Feature extraction
![image.png](attachment:image.png)
ex) convnet= convolutional base(Conv+Maxpooling) + 완전연결분류기
- convnet에서의 feature extraction
    * convolutional base layer을 선택해 새로운 data를 통과시켜 출력값을 얻음
    * 그 출력으로 새로운 classifier를 훈련


- feature extraction 특징
    * convnet의 feature map은 사진에 대한 일반적인 콘셉트의 존재 여부를 기록한 map
    * 그러나 classifier에선 학습한 표현이 존재 여부가 아닌 model의 훈련된 class 집합에 특화돼있음 -> class의 존재 확률에 관한 정보를 담음
     * classifier인 완전연결층은 공간 개념을 제거(객체 위치 정보 없음)
     * convolutional base layer의 feature map은 객체 위치 고려!
        

**feature extraction의 성능은 model 층 깊이에 달려있다**
- model의 하위층은 지역적이고 일반적인 특성을 다룸 ex) 에지,색깔, 질감 등
- 상위층은 추상적인 개념을 다룸 ex) 고양이 귀, 강아지 눈

>**TIP**    
>새로운 dataset이 원본 model이 훈련한 dataset과 많이 다르다면 전체 convolutional base layer을 사용하는 것보다는 modeldm


![image.png](attachment:image.png)

## pretrained model을 내 project에 맞게 재정의하기

* 전략1) 전체 모델의 새로 학습시키기
    - pretrained model의 구조만 사용, 따라서 큰 사이즈의 dataset이 필요
* 전략2) convolution base의 일부분은 고정시킨 상태로, 나머지 계층과 classifier 새로 학습시키기
    - dataset이 작고 모델의 parameter가 많다면, over-fitting 될 위험이 있으므로, 더 많은 계층을 건들지 않고 그대로 둔다
    - dataset이 크고 그에 비해 모델이 작아서 parameter가 적다면, 더 많은 계층을 학습시켜도 된다
* 전략3) convolution base는 고정시키고,classifier만 새로 학습시키기
    - 극단적인 상황의 case로, 컴퓨팅 연산 능력이 부족하거나 dataset이 너무 작을 때 고려할 수 있음
    - 내가 풀고자 하는 문제가 이미 학습된 dataset과 유사해도 고려


![image.png](attachment:image.png)

In [2]:
from keras.applications import VGG16

conv_base_1=VGG16(weights='imagenet',
               include_top=False, #최상위 완전연결 분류기를 포함하지 않겠다
               input_shape=(150,150,3))

# weights: model을 초기화할 가중치 checkpoint를 지정
# include_top: network의 최상위 완전 연결 분류기를 포함할지 안할지를 결정
# input_shape: network에 주입할 image tensor 크기

# include_top 값이 True가 되면 분류기 층이 추가되기 떄문에 input_shape은 원본 model과 동일한 (224, 224, 3)이 되어야 함

Using TensorFlow backend.


In [None]:
conv_base_1.summary()

### VGG16

**convolution 과정**
- 3x3 window(3x3xch filter_kernel)로 두 차례 convolution을 거친다
     + size가 작은 filter로 여러번 convolution 할 경우, 가중치와 파라미터의 수를 줄일 수 있다
     + 가중치가 적다는 것은 훈련시켜야할 것의 개수가 적음을 의미한다
     + 동시에 layer 갯수를 늘리면서 feature에 비선형성을 더 증가시켜 feature가 점점 유용해진다
     + ![image.png](attachment:image.png)
     
따라서 Convolution layer는 kernel size 3x3, padding size 1로 설정하기 때문에    
convolution을 통해 image를 resize하는 것이 아니라, max pooling을 사용해 이미지를 resize한다
- kernel을 중첩해서 사용했기 때문에 non-linear 함수 ReLU가 더 많이 들어갈 수 있다 -> decision funtion 효율이 높아짐
- 또한 학습해야 할 parameter 수가 줄어든다 -> 속도 빨라짐

**VGG16 구조**   
![image.png](attachment:image.png)    

In [3]:
from keras.applications import ResNet50

conv_base_2=ResNet50(weights='imagenet',
                    include_top=False,
                    input_shape=(150,150,3))



In [4]:
conv_base_2.summary()

Model: "resnet50"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_2 (InputLayer)            (None, 150, 150, 3)  0                                            
__________________________________________________________________________________________________
conv1_pad (ZeroPadding2D)       (None, 156, 156, 3)  0           input_2[0][0]                    
__________________________________________________________________________________________________
conv1 (Conv2D)                  (None, 75, 75, 64)   9472        conv1_pad[0][0]                  
__________________________________________________________________________________________________
bn_conv1 (BatchNormalization)   (None, 75, 75, 64)   256         conv1[0][0]                      
___________________________________________________________________________________________

### ResNet50

* 일반 CNN의 경우    
    - ![1.PNG](attachment:1.PNG)
    - 입력 x를 받아 2개의 weighted layer를 거쳐 출력 H(x)를 내며, 다음 layer의 입력으로 적용


* ResNet의 경우
    - ![2.PNG](attachment:2.PNG)
    - layer의 입력을 출력에 바로 연결 시키는 "skip connection"을 사용
    - F(x)+x : weight layer를 통해 나온 결과ㅏ와 그 전 결과를 더해 relu 사용
    - x가 그대로 skip connection되기 때문에 연산 증가는 없음
    
    
* F(x)가 0이 되는 방향으로 학습 -> 나머지(residual) 학습
* convolution layer는 3x3 kernel 사용
* 복잡도를 줄이기 위해 max-pooling, hidden fc, dropout 등은 사용 안함
* 출력 feature map의 크기가 같을 경우, 해당 모든 layer는 모두 동일한 수의 filter로 설정
* 출력 feature map의 크기가 절반이 될 때, layer의 연산량 보존을 위해 filter의 개수 2배로 늘림
* 출력 feature map의 크기를 줄일 때는 pooling 대신 convolution stride의 크기를 2로 설정
* 2개의 convolution layer마다 skip connection 연결

![image.png](attachment:image.png)

#### 1. argumentation을 사용하지 않는 feature extraction

새로운 dataset에서 conv base layer를 실행하고 출력을 넘파이 배열로 디스크에 저장    
그 다음 독립된 완전 연결 분류기에 입력으로 사용    
- 입력 image에 대해 conv base layer을 한번만 실행하면 되기 때문에 빠르고 비용이 적게 듬
- 그러나 data argumentation을 사용할 수 없기 때문에 data 수가 적을 때는 over-fitting의 우려가 있음

In [12]:
import os
import numpy as np
from keras.preprocessing.image import ImageDataGenerator

base_dir='./datasets/cats_and_dogs_small'
train_dir=os.path.join(base_dir, 'train')
validation_dir=os.path.join(base_dir, 'validation')
test_dir=os.path.join(base_dir, 'test')

datagen=ImageDataGenerator(rescale=1./255) #gneralization
batch_size=20

def extract_features(directory, sample_count, conv_base):

    features=np.zeros(shape=(sample_count,4,4,512)) #conv layer output shape
    labels = np.zeros(shape=(sample_count))
    generator = datagen.flow_from_directory(directory,
                                           target_size=(150,150),
                                           batch_size=batch_size,
                                           class_mode='binary')
    i=0
    for inputs_batch, labels_batch in generator:
        features_batch=conv_base.predict(inputs_batch)
        features[i*batch_size:(i+1)*batch_size]=features_batch
        labels[i*batch_size:(i+1)*batch_size]=labels_batch
        i += 1
        if i * batch_size>=sample_count:
            break
    return features, labels


In [13]:
train_features, train_labels= extract_features(train_dir, 2000, conv_base_1)
validation_features, validation_labels= extract_features(validation_dir, 2000, conv_base_1)
test_features, test_labels= extract_features(test_dir, 2000, conv_base_1)

Found 2000 images belonging to 2 classes.
Found 1000 images belonging to 2 classes.
Found 1000 images belonging to 2 classes.


In [14]:
train_features=np.reshape(train_features,(2000,4*4*512))
validation_features=np.reshape(validation_features,(2000,4*4*512))
test_features=np.reshape(test_features,(2000,4*4*512))

In [15]:
from keras import models, layers, optimizers

model =models.Sequential()
model.add(layers.Dense(256,activation='relu', input_dim=4*4*512))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1,activation='sigmoid'))

model.compile(optimizer=optimizers.RMSprop(lr=2e-5),
             loss='binary_crossentropy',
             metrics=['acc'])

history=model.fit(train_features, train_labels,
                 epochs=30,
                 batch_size=20,
                 validation_data=(validation_features, validation_labels))

Train on 2000 samples, validate on 2000 samples
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


#### 2. argumentation을 사용한 feature extraction
- 준비한 model인 conv base layer 위에 Dense layer를 쌓아 확장
- 그 다음 입력데이터에서 end-to-end???로 전체 model 실행
- 모든 입력 image가 매번 conv base layer를 통과하기 때문에 data argumentation을 사용할 수 있음

>**NOTE**
>연산비용이 크기 때문에 GPU를 사용할 수 있을 때 시도해야 한다

In [18]:
model=models.Sequential()
model.add(conv_base_1)
model.add(layers.Flatten())
model.add(layers.Dense(256,activation='relu'))
model.add(layers.Dense(1,activation='sigmoid'))

In [19]:
model.summary()

Model: "sequential_4"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
vgg16 (Model)                (None, 4, 4, 512)         14714688  
_________________________________________________________________
flatten_2 (Flatten)          (None, 8192)              0         
_________________________________________________________________
dense_4 (Dense)              (None, 256)               2097408   
_________________________________________________________________
dense_5 (Dense)              (None, 1)                 257       
Total params: 16,812,353
Trainable params: 16,812,353
Non-trainable params: 0
_________________________________________________________________


model을 compile하고 train하기 전에 conv base layer을 동결(freezing)하는 것이 아주 중요
- Freezing: 훈련하는 동안 가중치가 업데이트되지 앟도록 막는 것
- 최상위 Dense layer는 random하게 초기화되었기 때문에 매우 큰 가중치 업데이트 값이 network에 전파
    + 따라서, freezing하지 않을 시 conv layer에서 사전 학습되 표현이 훼손되는 경우가 발생
- trainable 속석을 False로 설정해 network freezing할 수 있음

In [20]:
#동결하기 전 훈련되는 가중치 수
len(model.trainable_weights)

30

In [22]:
#동결 이후
conv_base_1.trainable=False
print(len(model.trainable_weights))

4


2개의 Dese layer만 훈련
-layer마다 2개씩 가중치 행렬과 편향 벡터 총 4개의 tensor가 훈련됨

>**NOTE**   
>Freezing 이후엔 무조건 compile을 실행해 변경사항 적용하기

In [26]:
train_datagen=ImageDataGenerator(rescale=1./255,
                                rotation_range=20,
                                width_shift_range=0.1,
                                height_shift_range=0.1,
                                shear_range=0.1,
                                zoom_range=0.1,
                                horizontal_flip=True,
                                fill_mode='nearest'
                                )

test_datagen=ImageDataGenerator(rescale=1./255) # 검증data는 절대절대절대 argumentation을 해서는 안된다

train_generator=train_datagen.flow_from_directory(train_dir,
                                                 target_size=(150,150),
                                                 batch_size=20,
                                                 class_mode='binary')
validation_generator=test_datagen.flow_from_directory(validation_dir,
                                                     target_size=(150,150),
                                                     batch_size=20,
                                                     class_mode='binary')

model.compile(loss='binary_crossentropy',
             optimizer=optimizers.RMSprop(lr=2e-5),
             metrics=['acc'])

history=model.fit_generator(train_generator,
                          steps_per_epoch=100, #배치반복횟수(argumentation 조정)
                          epochs=30,
                          validation_data=validation_generator,
                          validation_steps=50,
                          verbose=2) # 진행 bar형태 설정


Found 2000 images belonging to 2 classes.
Found 1000 images belonging to 2 classes.
Epoch 1/30
 - 219s - loss: 0.5337 - acc: 0.7520 - val_loss: 0.5169 - val_acc: 0.8500
Epoch 2/30
 - 228s - loss: 0.4012 - acc: 0.8380 - val_loss: 0.3715 - val_acc: 0.8800
Epoch 3/30
 - 226s - loss: 0.3489 - acc: 0.8555 - val_loss: 0.3059 - val_acc: 0.8900
Epoch 4/30
 - 224s - loss: 0.3156 - acc: 0.8745 - val_loss: 0.2226 - val_acc: 0.8960
Epoch 5/30
 - 224s - loss: 0.3048 - acc: 0.8715 - val_loss: 0.3393 - val_acc: 0.8960
Epoch 6/30
 - 225s - loss: 0.2787 - acc: 0.8885 - val_loss: 0.1881 - val_acc: 0.8970
Epoch 7/30
 - 228s - loss: 0.2754 - acc: 0.8820 - val_loss: 0.2338 - val_acc: 0.9030
Epoch 8/30
 - 225s - loss: 0.2749 - acc: 0.8800 - val_loss: 0.4490 - val_acc: 0.8990
Epoch 9/30
 - 231s - loss: 0.2522 - acc: 0.8930 - val_loss: 0.2415 - val_acc: 0.9060
Epoch 10/30
 - 226s - loss: 0.2513 - acc: 0.8945 - val_loss: 0.2176 - val_acc: 0.9000
Epoch 11/30
 - 227s - loss: 0.2400 - acc: 0.9065 - val_loss: 0.13

------------------------

## Fine Tunning

classifier가 미리 train되지 않으면 train되는 동안 너무 큰 오차신호가 네트워크에 전파된다
- 같은 맥락으로, fine tunning된 layer들이 사전에 학습한 표현들을 망가뜨릴 것 


**fine tunning 단계**
1. pretrained base network 위에 새로운 network를 추가한다
2. base network를 동결한다
3. 새로 추가한 network(완전연결층)를 훈련시킨다
4. base network 중 일부 layer를 동결 해제한다
5. 동결해제 layer과 새로 추가한 layer을 함께 훈련

In [27]:
# conv_base_1의 상위 3개의 conv layer를 fine tunning 할 것
conv_base_1.trainable=True

set_trainable=False
for layer in conv_base_1.layers:
    if layer.name == 'block5_conv1':
        set_trainable=True
        if set_trainable: 
            layer.trainable=True # block5_conv1 이후로 모두 동결해지
        else:
            layer.trainable=False # 동결

**conv layer fine tunning 수 고려사항**
- conv base layer의 하위층 : 일반적이고 재사용 가능한 feature들을 incoding
- conv base layer의 상위층 : 좀 더 특화된 feature incoding
    + 따라서, 새로운 문제에 재활용할 수 있도록 수정 가능한 것은, 구체적 특성이기 때문에 상위층을 tunning하는 것이 유리하다
- 하위층으로 갈수록 fine tunning 효과 감소
- 훈련해야 할 parameter가 많을수록 과대적합의 위험이 커짐 
    + convnet은 1500만개 parameter을 가지므로 dataset이 작은데 이를 다 훈련하게되면 아주 위험하다

In [None]:
model.compile(loss='binary_crossentropy',
             optimizer=optimizers.RMSprop(lr=1e-5),
             metrics=['acc'])

history=model.fit_generator(train_generator,
                          steps_per_epoch=100,
                          epochs=30,
                          validation_data=validation_generator,
                          validation_steps=50,
                          verbose=2) 

>**NOTE**    
>
>Fine tunning 시, 학습률을 낮춘 RMSoptimizer을 사용하는 것이 좋다
>* fine tunning을 하는 layer에서 pretrained된 표현을 조금씩 수정하기 위함
>* 변경량이 너무 크면 pretrained 표현을 훼손할 위험이 있음

### 각 상황 별 fine tuning 방법

1. 크기가 크고 유사성이 작은 dataset일 때
    - dataset의 크기가 크므로, model을 처음부터 내가 원하는 대로 완전히 다시 학습시킬 수 있어 유용

2. 크기가 크고 유사성도 높은 dataset일 때
    - 가장 좋은 상황!! 어떤 옵션 선택이어도 괜찮으나 그 중 가장 효과적인 옵션
    - dataset이 유사하기 때문에 pretrained된 표현들을 사용하지 않을 이유가 없다

3. 크기가 작고 유사성도 작은 dataset일 때
    - 너무 많은 계층을 새로 학습시키면 적은 dataset에 over-fitting 될 우려가 있고, 너무 적은 계층을 학습시키면 under-fitting될 우려가 있다
    - 작은 크기의 dataset을 보완하기 위해 data augmentation을 고려해야한다
    
4. 크기는 작지만 유사성이 높은 dataset일떄
    - 새 classifier만 학습시키는 것이 최선

![image.png](attachment:image.png)

# ResNet 응용해서 적용해보기

In [None]:
# RESNET CONV BASE LAYER 위에 Classifier model 쌓기
model2=models.Sequential()
model2.add(conv_base_2)
model2.add(layers.Flatten())
model2.add(layers.Dense(256,activation='relu'))
model2.add(layers.Dense(1,activation='sigmoid'))

In [None]:
# ResNet동결 이후 data argumentatino하고 추가한 network 훈련
conv_base_2.trainable=True

train_datagen=ImageDataGenerator(rescale=1./255,
                                rotation_range=20,
                                width_shift_range=0.1,
                                height_shift_range=0.1,
                                shear_range=0.1,
                                zoom_range=0.1,
                                horizontal_flip=True,
                                fill_mode='nearest'
                                )

test_datagen=ImageDataGenerator(rescale=1./255) 

train_generator=train_datagen.flow_from_directory(train_dir,
                                                 target_size=(150,150),
                                                 batch_size=20,
                                                 class_mode='binary')
validation_generator=test_datagen.flow_from_directory(validation_dir,
                                                     target_size=(150,150),
                                                     batch_size=20,
                                                     class_mode='binary')

model2.compile(loss='binary_crossentropy',
             optimizer=optimizers.RMSprop(lr=1e-5),
             metrics=['acc'])

history=model2.fit_generator(train_generator,
                          steps_per_epoch=100,
                          epochs=100,
                          validation_data=validation_generator,
                          validation_steps=50,
                          verbose=2) 

In [None]:
# 상위 3개 layer 동결해지
set_trainable=False
for layer in conv_base_2.layers:
    if layer.name == 'res5c_branch2a':
        set_trainable=True
        if set_trainable: 
            layer.trainable=True # block5_conv1 이후로 모두 동결해지
        else:
            layer.trainable=False # 동결
            

In [None]:
#이후 동결해지층과 새 network 함께 학습
model2.compile(loss='binary_crossentropy',
             optimizer=optimizers.RMSprop(lr=2e-5),
             metrics=['acc'])

history=model2.fit_generator(train_generator,
                          steps_per_epoch=100,
                          epochs=100,
                          validation_data=validation_generator,
                          validation_steps=50,
                          verbose=2)
