## Week10. Convolutional Neural Network
기계 학습 실습 10주차입니다.

10주차 목표는 2개이다.
1. Tensorflow를 사용하여 CNN을 구현할 수 있다.  
2. Model save, load와 transfer learning을 사용할 수 있다.  

## 0. Load data
이번 실습에서는 Image dataset을 사용한다.  
RGB값을 모두 갖고있는 데이터셋으로 실습하기위해 Cifar 100 dataset을 사용하겠다.  
Cifar 100 dataset은 100개의 class마다 600개의 instance(picture)로 구성되어있다.  
그중 500개를 train set으로 사용하고 나머지 100개를 test set으로 사용한다.  
원활한 실습을 위해 포유류 관련 그림만 사용하겠다.  3개의 class와 1500개의 데이터셋

In [4]:
import pandas as pd
import numpy as np  #이미지이기때문에 numpy를 사용한다.
import os
import tensorflow as tf
os.environ["CUDA_VISIBLE_DEVICES"] = ""
tf.config.get_visible_devices()

[PhysicalDevice(name='/physical_device:CPU:0', device_type='CPU')]

image는 numpy로 다루고 label들은 pandas로 저장하겠다.  
label들은 숫자로 mapping되어있기 때문에 label meta 정보를 따로 불러와야한다.  
불러온 meta값은 dictionary format으로 저장되어있고 따로 변환하지 않겠다.  
이제 아래에서 데이터를 불러오고 시각화 한 후 어떤 클래스인지 확인하겠다.  

In [6]:
train = np.load('10_train.npy')
test = np.load('10_test.npy')

train.shape   # 3개의 슈퍼클래스와 각각의 5개의 서브클래스, 서브클래스마다 500개의 데이터 = 7500

(7500, 32, 32, 3)

In [7]:
train_labels = pd.read_csv('10_tr_labels.csv')
test_labels = pd.read_csv('10_ts_labels.csv')

train_labels.shape

(7500, 2)

In [8]:
train_labels.head()

Unnamed: 0,fine_labels,coarse_labels
0,squirrel,small_mammals
1,shrew,small_mammals
2,possum,medium_mammals
3,possum,medium_mammals
4,rabbit,small_mammals


앞에 fine labels는 서브클래스 총 15개, 뒤에 coarse는 슈퍼 클래스 총3개 

학습에 사용할 수 있는 target은 2종류이다.  
포유류 크기 및 환경에 따라 구분한 Super class 3개가 있다.  
그리고 각 Super class에 속한 포유류 종들을 구분한 15개의 class가 있다.  

In [10]:
print(f'Super class \t: {train_labels.coarse_labels.unique()}')
print(f'Sub class \t: {train_labels.fine_labels.unique()}')

Super class 	: ['small_mammals' 'medium_mammals' 'aquatic_mammals']
Sub class 	: ['squirrel' 'shrew' 'possum' 'rabbit' 'hamster' 'otter' 'seal' 'mouse'
 'skunk' 'raccoon' 'whale' 'beaver' 'fox' 'dolphin' 'porcupine']


불러온 dataset을 확인하겠다.  

In [11]:
from plotly import graph_objs as go
from plotly.offline import iplot
from plotly import express as px

In [14]:
n = 6
fig = px.imshow(train[n])
fig.show()
print(train_labels.iloc[n])
print(f'Super class \t: ', train_labels.iloc[n,-1])
print(f'Sub class \t: ', train_labels.iloc[n,-2])

fine_labels                otter
coarse_labels    aquatic_mammals
Name: 6, dtype: object
Super class 	:  aquatic_mammals
Sub class 	:  otter


## 1. Tensorflow - Convolution layer
Dense layer는 이전 layer의 node로부터 다음 layer의 node마다 모든 edge를 생성한다.  
하지만 convolution layer는 local connection을 지향한다.  
layer 사이에서 가능한 모든 edge를 생성하는 것이 아니라 국소적인 edge를 갖는다.  
kernel 하나가 image에 대해 연산하는 과정은 영상에서 보자 

In [16]:
model = tf.keras.Sequential()
model.add(tf.keras.Input((32,32,3)))
model.add(tf.keras.layers.Conv2D(
    
    filters=2,
    # Integer, the dimensionality of the output space
    
    kernel_size = (3,3),
    # An integer or tuple/list of 2 Integers
    
    strides=(1,1),
    # An integer or tuple/list of 2 Integers
    
    padding='same',
    # one of valid or same
    # valid로 바꾸면 30, 30, 2 로 나온다

                            ))
# model.add(tf.keras.layers.Flatten())

model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_1 (Conv2D)            (None, 32, 32, 2)         56        
Total params: 56
Trainable params: 56
Non-trainable params: 0
_________________________________________________________________


## 2. Tensorflow - Pooling layer
fully connected layer와 다른 구조로 layer간의 edge를 생성하지만 DFN의 효과적인 학습 방법들은 여전히 유효하다.  
Batch, Activation을 사용해보고 적당한 깊이의 CNN architecture를 생성하겠다.  
그리고 output의 형태는 batch별 1차원 output을 가져야한다.  
Flastten layer를 사용하여 3차원 data를 1차원으로 바꾼 뒤 Dense와 softmax function을 사용하여 label과 같은 차원으로 바꾸겠다.  
그리고 연산 비용을 줄이기 위해 일부 Convolution layer에 stride =2 를 사용하겠다.  

In [18]:
model = tf.keras.Sequential()
model.add(tf.keras.Input((32,32,3)))
for n in range(4):
    model.add(tf.keras.layers.Conv2D(filters=2**6,kernel_size=3,strides=2,padding='same'))  # 과제에서도 2로 해도 좋다. 
    model.add(tf.keras.layers.BatchNormalization())
    model.add(tf.keras.layers.Activation('relu'))
    
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(3,'softmax'))
model.summary()

Model: "sequential_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_6 (Conv2D)            (None, 16, 16, 64)        1792      
_________________________________________________________________
batch_normalization_4 (Batch (None, 16, 16, 64)        256       
_________________________________________________________________
activation_4 (Activation)    (None, 16, 16, 64)        0         
_________________________________________________________________
conv2d_7 (Conv2D)            (None, 8, 8, 64)          36928     
_________________________________________________________________
batch_normalization_5 (Batch (None, 8, 8, 64)          256       
_________________________________________________________________
activation_5 (Activation)    (None, 8, 8, 64)          0         
_________________________________________________________________
conv2d_8 (Conv2D)            (None, 4, 4, 64)         

간단히 생성한 모델을 학습시켜보고 loss와 정확도를 확인하겠다. 

In [19]:
tr_super_dict = {i:n for n,i in enumerate(train_labels.coarse_labels.unique())}
tr_sub_dict = {i:n for n,i in enumerate(train_labels.fine_labels.unique())}

tr_super_y = train_labels['coarse_labels'].apply(lambda x: tr_super_dict[x]).values
tr_sub_y = train_labels['fine_labels'].apply(lambda x: tr_sub_dict[x]).values

In [21]:
ts_super_y = test_labels['coarse_labels'].apply(lambda x: tr_super_dict[x]).values
ts_sub_y = test_labels['fine_labels'].apply(lambda x: tr_sub_dict[x]).values

In [22]:
%%time
model.compile('Adam','categorical_crossentropy', 'accuracy')
history = model.fit(train,
                   tf.keras.utils.to_categorical(tr_super_y),
                   batch_size=200, epochs=20,
                   )

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Wall time: 1min 51s


Stride를 조절하여 image의 크기를 축소했다.  
이번에는 Pooling layer를 사용해보겠다.  
Pooling layer는 image의 region을 스킵하지 않고 특징을 추출하면서 크기도 축소시킬수 있다.  
기존의 model에 pooling layer만 추가해보고 똑같이 해보겠다.  

In [33]:
%%time
model_pool = tf.keras.Sequential()
model_pool.add(tf.keras.Input((32,32,3)))
for n in range(4):
    model_pool.add(tf.keras.layers.Conv2D(filters=2**6,kernel_size=3,strides=2,padding='same'))  
    model_pool.add(tf.keras.layers.BatchNormalization())
    model_pool.add(tf.keras.layers.Activation('relu'))
    model_pool.add(tf.keras.layers.MaxPool2D())   # 이게 오류남 
    
model_pool.add(tf.keras.layers.Flatten())
model_pool.add(tf.keras.layers.Dense(3,'softmax'))
model_pool.compile('Adam','categorical_crossentropy','accuracy')
model_pool.summary()
history_pool=model_pool.fit(train,
                           tf.keras.utils.to_categorical(tr_super_y),
                           batch_size=200, epochs=20)

ValueError: Negative dimension size caused by subtracting 2 from 1 for '{{node max_pooling2d_27/MaxPool}} = MaxPool[T=DT_FLOAT, data_format="NHWC", ksize=[1, 2, 2, 1], padding="VALID", strides=[1, 2, 2, 1]](activation_39/Relu)' with input shapes: [?,1,1,64].

학습된 모델들을 평가하겠다.  

In [25]:
print(f'Except pooling model : {(model.predict(test).argmax(1)==ts_super_y).mean()*100:.5}%')
print(f'Add pooling model : {(model_pool.predict(test).argmax(1)==ts_super_y).mean()*100:.5}%')

Except pooling model : 61.067%



elementwise comparison failed; this will raise an error in the future.



AttributeError: 'bool' object has no attribute 'mean'

학습결과는 비슷했지만 pooling layer에 시간을 투자한 만큼 더 좋은 성능을 보였다. 

## 3. Transfer learning

Neural Networks가 각광받는  이유중 하나는 weight의 생산성이다.  
특정 목적을 위해 학습된 모델의 weight는 주어진 data를 결과를 도출해내도록 최적화되있다.  
Neural Networks의 weight를 저장하여 비슷한 문제에 재사용할 수 있다면 처음부터 학습하지 않더라도 좋은 성능을 얻을수 있다.  
Tensorflow는 weight를 저장하고 불러온 후 재학습할 수 있도록 model 및 weight save기능을 지원한다. 

In [30]:
def shared_function():
    input_layer = tf.keras.Input((32,32,3))
    for n in range(4):
        if n == 0:
            conv = tf.keras.layers.Conv2D(filters=2**7,kernel_size=3,padding='same')(input_layer)
        else:
            conv = tf.keras.layers.Conv2D(filters=2**7,kernel_size=3,padding='same')(pool)
        batch=tf.keras.layers.BatchNormalization()(conv)
        activ=tf.keras.layers.Activation('relu')(batch)
        pool=tf.keras.layers.MaxPool2D()(activ)
        
    return tf.keras.models.Model(input_layer, pool)
shared_model=shared_function()
shared_model.summary()

Model: "functional_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_11 (InputLayer)        [(None, 32, 32, 3)]       0         
_________________________________________________________________
conv2d_30 (Conv2D)           (None, 32, 32, 128)       3584      
_________________________________________________________________
batch_normalization_28 (Batc (None, 32, 32, 128)       512       
_________________________________________________________________
activation_28 (Activation)   (None, 32, 32, 128)       0         
_________________________________________________________________
max_pooling2d_16 (MaxPooling (None, 16, 16, 128)       0         
_________________________________________________________________
conv2d_31 (Conv2D)           (None, 16, 16, 128)       147584    
_________________________________________________________________
batch_normalization_29 (Batc (None, 16, 16, 128)      

마지막 output layer 직전까지 모델을 생성한다.  
Sofrmax를 사용하는 output layer를 추가하여 학습을 위한 모델을 완성한다.  

In [36]:
super_input_layer = tf.keras.Input((32,32,3))
flat_layer=tf.keras.layers.Flatten()(shared_model(super_input_layer))  # functional_1으로 표시됨 
super_output_layer=tf.keras.layers.Dense(3, activation='softmax')(flat_layer)
super_model=tf.keras.models.Model(super_input_layer, super_output_layer)
super_model.summary()
super_model.compile('Adam','categorical_crossentropy','accuracy')
history_super=super_model.fit(train,
                             tf.keras.utils.to_categorical(tr_super_y),
                             batch_size=200, epochs=20)

Model: "functional_3"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_17 (InputLayer)        [(None, 32, 32, 3)]       0         
_________________________________________________________________
functional_1 (Functional)    (None, 2, 2, 128)         448384    
_________________________________________________________________
flatten_5 (Flatten)          (None, 512)               0         
_________________________________________________________________
dense_5 (Dense)              (None, 3)                 1539      
Total params: 449,923
Trainable params: 448,899
Non-trainable params: 1,024
_________________________________________________________________
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20

KeyboardInterrupt: 

In [None]:
print(f'Super pooling model : {(super_model.predict(test).argmax(1)==ts_super_y).mean()*100:.5}%')

마지막 output layer를 제외하고 학습된 모델을 저장한 후 불러오겠다.  

In [None]:
shared_model.save('shared_model')

In [None]:
load_shared_model=tf.keras.models.load_model('shared_model')

load_shared_model.summary()

학습한 모델을 저장한 후 성공적으로 불러왔으니   
모델의 output을 추가해 superclass로 다시한번 학습하겠다.  

In [None]:
load_super_input_layer = tf.keras.Input((32,32,3))
flat_layer=tf.keras.layers.Flatten()(shared_model(load_super_input_layer))  # functional_1으로 표시됨 
load_super_output_layer=tf.keras.layers.Dense(3, activation='softmax')(flat_layer)
load_super_model=tf.keras.models.Model(load_super_input_layer, load_super_output_layer)
load_super_model.summary()
load_super_model.compile('Adam','categorical_crossentropy','accuracy')
history_super=load_super_model.fit(train,
                             tf.keras.utils.to_categorical(tr_super_y),
                             batch_size=200, epochs=10)

In [None]:
print(f'Load_super pooling model : {(load_super_model.predict(test).argmax(1)==ts_super_y).mean()*100:.5}%')

이전보다 더 적은 epoch만으로도 충분히 학습할 수 있는것을 확인했다. 
이번에는 조금 다른 문제로 적용하겠다.  
super class로 학습을 시킨모델이지만 이미지로부터 feature map을 추출했던 과정은 sub class더라도 같을 수 있다.  
Shared 모델을 불러오고 sub class분류를 시켜보겠다.    
그리고 Untrained shared model을 똑같이 생성한 후 같은 조건에서 학습시켰을 때 어떤 성능을 보이는지 확인해보겠다.  

In [None]:
load_shared_model=tf.keras.models.load_model('shared_model')
load_shared_model.summary()

In [None]:
load_sub_input_layer = tf.keras.Input((32,32,3))
flat_layer=tf.keras.layers.Flatten()(load_shared_model(load_sub_input_layer))  # functional_1으로 표시됨 
load_sub_output_layer=tf.keras.layers.Dense(3, activation='softmax')(flat_layer)
load_sub_model=tf.keras.models.Model(load_sub_input_layer, load_sub_output_layer)
load_sub_model.summary()
load_sub_model.compile('Adam','categorical_crossentropy','accuracy')
history_super=load_sub_model.fit(train,
                             tf.keras.utils.to_categorical(tr_super_y),
                             batch_size=200, epochs=10)

다른 문제를 풀더라도 유사한 문제에 대해 pretrained된 model을 사용하는것이 효과적임을 할수있다.  
이것을 transfer learning이라 한다.  
Pretrained model을 사용한 transfer learning은 학습 시간을 단축시키며 cifar100 전부를 가지고 학습시킨 모델을 재사용가능하다.  