# Convolutional Neural Network 구현

- MNIST 손글씨 data를 이용하여 CNN을 학습하고 MLP와 결과와 비교 해본다.

##### 학습결과 시각화 함수 정의

In [None]:
import matplotlib.pyplot as plt

# loss 그래프
def plot_loss(history):
    plt.plot(history.history['loss'], label='Train loss')
    plt.plot(history.history['val_loss'], label='Validation loss')
    plt.title('Loss')
    plt.xlabel('epoch')
    plt.ylabel('loss')
    plt.legend()
    plt.show()

In [None]:
# accuracy 그래프
def plot_accuracy(history):
    plt.plot(history.history['accuracy'], label='Train accuracy')
    plt.plot(history.history['val_accuracy'], label='Validation accuracy')
    plt.title('Accuracy')
    plt.xlabel('epoch')
    plt.ylabel('accuracy')
    plt.legend()
    plt.show()

# MNIST CNN 적용

In [None]:
import os
import numpy as np

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

print(tf.__version__)
print(keras.__version__)

In [None]:
np.random.seed(0)
tf.random.set_seed(0)

##### data loading

In [None]:
(train_image, train_label), (test_image, test_label) = keras.datasets.mnist.load_data()
train_image.shape, test_image.shape

##### 하이퍼파라미터, 변수 설정

In [None]:
LEARNING_RATE = 0.001
N_EPOCHS = 20
N_BATCHS = 1000

N_TRAIN = train_image.shape[0]
N_TEST = test_image.shape[0]

##### 전처리, Dataset 생성
- X
    - uint8을 float32 타입으로 변경.
    - pixcel값 정규화: 0 ~ 1
    - Gray scale에 channel 축이 없는 경우 dummy 축을 늘려준다.
        - 영상처리 convolution layer(Conv2D)는 입력으로 3차원 (height, width, channel) 배열을 받는다.
- Y: onehot encoding

In [None]:
# X: 0 ~ 1 scaling
X_train_tmp = train_image.astype(np.float32)
X_train_tmp /= 255.0

X_test_tmp = test_image.astype(np.float32)
X_test_tmp /= 255.0

# channel 축을 추가
X_train = X_train_tmp[..., np.newaxis]
X_test = X_test_tmp[..., np.newaxis]

In [None]:
# y: onehot-encoding
y_train = keras.utils.to_categorical(train_label)
y_test = keras.utils.to_categorical(test_label)

###### Dataset 생성

In [None]:
train_dataset = tf.data.Dataset.from_tensor_slices((X_train, y_train)).shuffle(N_TRAIN).batch(N_BATCHS, drop_remainder=True)

test_dataset = tf.data.Dataset.from_tensor_slices((X_test, y_test)).batch(N_BATCHS)

## Model(Network) 정의
- Feature Extraction(backbone):Convolution Layer
    - block: Convolution + MaxPooling Layer
    - size(height, widht) 는 줄이고 channel은 늘리는 방향으로 Layer들을 쌓는다.
    - convolution
        - size: 3 X 3
        - strides: 1
    - max pooling
        - size: 2 X 2
        - strides: 2
        - 위와 같이 지정해 input의 size를 절반으로 줄인다. 
- 분류기
    - Dense Layer 사용        
    - Flatten을 먼저 해야 한다. (Conv의 output-feature map- 3차원 배열)


In [None]:
def create_mnist_model():
    model = keras.Sequential()

    model.add(layers.InputLayer((28, 28, 1)))

    model.add(layers.Conv2D(filters=32,
                            kernel_size=(3,3),
                            padding='same',
                            strides=(1,1),
                            activation='relu'
                            ))
    
    model.add(layers.MaxPool2D(pool_size=(2,2),
                               strides=(2,2), 
                               padding='same')) 

    model.add(layers.Conv2D(filters=64,
                            kernel_size=3, 
                            padding='same',
                            activation='relu'
                            ))
    model.add(layers.MaxPool2D(padding='same'))

    model.add(layers.Conv2D(filters=128, kernel_size=3, padding='same', activation='relu'))
    model.add(layers.MaxPool2D(padding='same'))

    model.add(layers.Flatten())

    model.add(layers.Dense(units=256, activation='relu'))

    model.add(layers.Dense(units=10, activation='softmax'))

    return model

##### 컴파일

In [None]:
model = create_mnist_model()
model.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE), 
              loss='categorical_crossentropy', 
              metrics=['accuracy'])

In [None]:
model.summary()

In [None]:
keras.utils.plot_model(model, show_shapes=True)

##### 학습

In [None]:
hist = model.fit(train_dataset, 
                 epochs=N_EPOCHS, 
                 validation_data=test_dataset)

##### 결과시각화

In [None]:
plot_loss(hist)

In [None]:
plot_accuracy(hist)

##### 최종검증

In [None]:
loss, acc = model.evaluate(test_dataset)

In [None]:
print(loss, acc)

## prediction error가 발생한 example 확인
- test dataset으로 예측한 결과중 틀린 것들을 확인해 본다.

In [None]:
pred = model.predict(X_test)
pred.shape

In [None]:
pred_label = np.argmax(pred, axis=-1)
pred_label.shape

In [None]:
idx = np.where(test_label != pred_label)[0]
idx.shape

##### confusion matrix 확인

In [None]:
from sklearn.metrics import confusion_matrix, plot_confusion_matrix, ConfusionMatrixDisplay

confusion_matrix(test_label, pred_label)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8,7))
ax = plt.gca()

cm = confusion_matrix(test_label, pred_label)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues', ax=ax, values_format='d')
plt.show()

In [None]:
# 틀린 결과 중에 10개 확인
import matplotlib.pyplot as plt

plt.figure(figsize=(20,20))

for i in range(10):  
   
    error_idx = idx[i]
    
    p = pred_label[error_idx]
    y = test_label[error_idx]

    plt.subplot(1, 10, i+1)
    plt.imshow(test_image[error_idx], cmap='gray')
    plt.title("y: {}, pred: {}".format(y, p), fontsize=17)
    plt.axis('off')

plt.tight_layout()
plt.show()

# 학습한 모델 파일로 저장

- **무엇을 저장할 지**
    1. Train이 끝난 모델의 파라미터만 저장
    1. 모델 구조와 파라미터 모두 저장

- **저장시점**
    1. Train 완료된 모델을 저장
    1. Callback을 이용해 Train 도중 가장 성능이 좋은 시점의 모델을 저장

## 텐서플로 저장 파일 타입
- checkpoint 
    - 모델의 weight를 저장하기 위한 타입
- SavedModel 
    - 모델의 구조와 파라미터들을 모두 저장하는 타입

## 학습한 Weight (파라미터) 저장 및 불러오기
- 가중치를 저장하여 나중에 재학습 없이 학습된 가중치를 사용할 수 있다.
- 저장
    - `model.save_weights("저장경로")`
- 불러오기
    - `model.load_weights('불러올경로')`
- 저장형식
    - Tensorflow Checkpoint (기본방식)
    - HDF5
        - `save_weights(.., save_format='h5')`
        - 또는 파일 확장자를 h5로 지정한다.

### Checkpoint 으로 저장

##### 저장할 경로 생성및 저장

In [None]:
import os

base_dir = "/content/drive/MyDrive/saved_models"
mnist_weight_dir = os.path.join(base_dir, "mnist_weight")
print(mnist_weight_dir)

if not os.path.isdir(mnist_weight_dir):
    os.makedirs(mnist_weight_dir)
    
weight_file_path = os.path.join(mnist_weight_dir, "mnist_weight.ckpt")

print(weight_file_path)

In [None]:
model.save_weights(weight_file_path)

In [None]:
new_model1 = create_mnist_model()
new_model1.compile(optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE), loss='categorical_crossentropy', 
                  metrics=['accuracy'])

In [None]:
new_model1.evaluate(test_dataset)

In [None]:
new_model1.load_weights(weight_file_path)

In [None]:
new_model1.evaluate(test_dataset)

### h5 형식으로 저장

In [None]:
weight_h5_dir = os.path.join(base_dir, "mnist_weight_h5")
if not os.path.isdir(weight_h5_dir):
    os.makedirs(weight_h5_dir, exist_ok=True)
weight_h5_path = os.path.join(weight_h5_dir, "mnist_weight.h5")

In [None]:
model.save_weights(weight_h5_path, save_format='h5')

In [None]:
new_model2 = create_mnist_model()
new_model2.compile(optimizer=keras.optimizers.Adam(LEARNING_RATE),
                  loss='categorical_crossentropy',
                  metrics=['accuracy'])

In [None]:
new_model2.evaluate(test_dataset)

In [None]:
new_model2.load_weights(weight_h5_path)

In [None]:
new_model2.evaluate(test_dataset)

## 전체 모델 저장하고 불러오기
- https://www.tensorflow.org/guide/keras/save_and_serialize?hl=ko
- 저장
    - `model.save('저장할디렉토리')`
- 불러오기
    - `tf.keras.models.load_model('저장된디렉토리')`
- 저장 형식
    - Tensorflow SavedModel 형식(기본방식)
        - 모델 아키텍처 및 훈련 구성(옵티마이저, 손실 및 메트릭 포함)은 saved_model.pb 에 저장된다.
        - 파라미터는 variables/ 디렉토리에 저장된다.
        - https://www.tensorflow.org/guide/saved_model?hl=ko#the_savedmodel_format_on_disk
    - HDF5 형식
        - `save(..., save_format='h5')` 
        - 또는 파일의 확장자를 h5로 지정한다.

###  Saved Model 형식으로 모델 저장
- 경로(디렉토리) 만 지정한다.

In [None]:
mnist_model_dir = os.path.join(base_dir, 'mnist_model')
print(mnist_model_dir, type(mnist_model_dir))
if not os.path.isdir(mnist_model_dir):
    os.mkdir(mnist_model_dir) 

In [None]:
model.save(mnist_model_dir)

In [None]:
new_model3 = keras.models.load_model(mnist_model_dir)

new_model3.summary()

In [None]:
new_model3.evaluate(test_dataset)

### H5 형식으로 모델 저장

In [None]:
model_h5_dir = os.path.join(base_dir, 'mnist_model_h5')

if not os.path.join(model_h5_dir):
    os.makedirs(model_h5_dir, exist_ok=True)

model_h5_path = os.path.join(model_h5_dir, "mnist_model.h5")

In [None]:
model.save(model_h5_path, save_format='h5')

In [None]:
new_model4 = keras.models.load_model(model_h5_path)

new_model4.summary()

In [None]:
new_model4.evaluate(test_dataset)

## Callback을 사용한 모델 저장 및 Early Stopping
- callback은 학습하는 도중 특정 이벤트 발생시 호출되는 다양한 함수를 제공하여 자동화 처리를 지원한다. (cf: 프로그래밍의 콜백함수)
- 다양한 콜백 클래스가 제공된다.
    - https://www.tensorflow.org/api_docs/python/tf/keras/callbacks
- ### ModelCheckpoint
    - 각 epoch 마다 학습한 모델과 weight(또는 weight만)를 저장한다. 
    - 지정한 평가지표(예:validation loss)가 가장 좋을 때 모델과 weight만 저장할 수 있다.
    - 주요 파라미터
        - `save_weights_only=True`: True: 파라미터(weight)만 저장한다. False: 모델구조와 파라미터 모두 저장한다.
        - `save_best_only=True`: 학습중 성능이 개선될 때만 저장한다. (False:기본값 - 모든 에폭마다 저장한다.)
- ### EarlyStopping
    - Validation set에 대한 평가지표가  더 이상 개선되지 않을 때 학습을 자동으로 멈추는 callback
    - 주요 파라미터
        - `monitor`: 모니터링할 평가지표 지정. (ex: accuracy)
        - `patience`: epoch 수 지정. validation 평가 지표가 개선이 안되더라도 지정한 epoch만큼 반복한다. 지정한 epoch만큼 반복 후에도 개선이 되지 않으면 중단한다. 

- **callback 객체들을 리스트로 묶은 뒤 fit()의 callbacks 매개변수에 전달한다.**

In [None]:
model2 = create_mnist_model()
model2.compile(optimizer='adam', 
               loss='categorical_crossentropy', 
               metrics=['accuracy'])

In [None]:
checkpoint_save_dir = os.path.join(base_dir, 'mnist_callback')
if not os.path.isdir(checkpoint_save_dir):
    os.mkdir(checkpoint_save_dir)

saved_model_path = os.path.join(checkpoint_save_dir, 'mnist_ckpt2')
# checkpoint_save_file = os.path.join(checkpoint_save_dir, 'mnist_ckpt')

In [None]:
mc_callback = keras.callbacks.ModelCheckpoint(filepath=saved_model_path, 
                          save_best_only=True, 
#                           save_weights_only=True,
                          monitor='val_loss',  
                          verbose=1)

In [None]:
es_callback = keras.callbacks.EarlyStopping(monitor='val_loss',
                                            patience=5,
                                            verbose=1)

In [None]:
hist = model2.fit(train_dataset, epochs=5, validation_data=test_dataset,
                  callbacks=[mc_callback, es_callback])

In [None]:
new_model5 = keras.models.load_model(saved_model_path)

In [None]:
new_model5.evaluate(test_dataset)