# **실습 3-3 : MNIST RNN Advanced, Bi-directional RNN** 


## **Import Module**

In [0]:
%tensorflow_version 2.x
import tensorflow as tf
  
import tensorflow.keras as keras

import numpy as np
import matplotlib.pyplot as plt

tf.__version__

TensorFlow 2.x selected.


'2.0.0'

## **DataSet**

### Load

In [0]:
#(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()
(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0
sample, sample_label = x_train[0], y_train[0]

## **Model**

### Define

In [0]:
# Each MNIST image batch is a tensor of shape (batch_size, 28, 28).
# Each input sequence will be of size (28, 28) (height is treated like time).
input_dim = 28

units = 16
output_size = 10  # labels are from 0 to 9

## Build the RNN model
def model_RNN():
  lstm_layer = keras.layers.LSTM(units,     # keras.lyaer.LSTM
                     input_shape=(None, input_dim))
#
  model = keras.models.Sequential(name="Basic-RNN")
  model.add(lstm_layer)
#  model.add(keras.layers.BatchNormalization())
  model.add(keras.layers.Dense(output_size, activation='softmax'))
  return model

## Build the Bi-RNN model
def model_BRNN():
  lstm_layer = keras.layers.Bidirectional(  # keras.layers.Bidirectional
                  keras.layers.LSTM(units), # LSTM 
                        input_shape=(None, input_dim))
#
  model = keras.models.Sequential(name="Bidirectional-RNN")
  model.add(lstm_layer)
#  model.add(keras.layers.BatchNormalization())
  model.add(keras.layers.Dense(output_size, activation='softmax'))
  return model

### Compile

In [0]:
# model_R : RNN
model_R = model_RNN()
model_R.compile(loss='sparse_categorical_crossentropy', 
              optimizer='adam',
              metrics=['accuracy'])

# model_Bi : bi-RNN
model_Bi = model_BRNN()
model_Bi.compile(loss='sparse_categorical_crossentropy', 
              optimizer='adam',
              metrics=['accuracy'])

model_R.summary()
model_Bi.summary()

Model: "Basic-RNN"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm (LSTM)                  (None, 16)                2880      
_________________________________________________________________
dense (Dense)                (None, 10)                170       
Total params: 3,050
Trainable params: 3,050
Non-trainable params: 0
_________________________________________________________________
Model: "Bidirectional-RNN"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
bidirectional (Bidirectional (None, 32)                5760      
_________________________________________________________________
dense_1 (Dense)              (None, 10)                330       
Total params: 6,090
Trainable params: 6,090
Non-trainable params: 0
_________________________________________________________________


### Fit

Epoch 30/30
60000/60000 [==============================] - 5s 81us/sample - loss: 0.0992 - accuracy: 0.9701 - val_loss: 0.1091 - val_accuracy: 0.9658
CPU times: user 3min 58s, sys: 10.3 s, total: 4min 8s

Wall time: 2min 28s (@Edit-Notebook Setting-GPU)

##기록

epoch 30
batch 128
val accuracy: 0.8613



In [0]:
%%time
batch_size = 32
history_R = model_R.fit(x_train, y_train,
          validation_data=(x_test, y_test),
          batch_size=batch_size,
          epochs=50)

 

Train on 60000 samples, validate on 10000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50
CPU times: user 8min 6s, sys: 37.5 s, total: 8min 43s
Wall time: 6min 37s


In [0]:
print(np.max(history_R.history['val_accuracy']))

0.88


[Advanced model]  
Epoch 30/30
60000/60000 [==============================] - 8s 131us/sample - loss: 0.0484 - accuracy: 0.9852 - val_loss: 0.0572 - val_accuracy: 0.9818
CPU times: user 6min 54s, sys: 23.7 s, total: 7min 18s

Wall time: 4min 9s (@Edit-Notebook Setting-GPU)

In [0]:
%%time
# advanced model
history_Bi = model_Bi.fit(x_train, y_train,
          validation_data=(x_test, y_test),
          batch_size=batch_size,
          epochs=30)

Train on 60000 samples, validate on 10000 samples
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30

## **Analysis**

### Plot

In [0]:
print(history_Bi.history.keys())

In [0]:
losses_Bi = history_Bi.history['loss']
val_loss_Bi = history_Bi.history['val_loss']
losses_R = history_R.history['loss']
val_loss_R = history_R.history['val_loss']

acc_Bi = history_Bi.history['accuracy']
val_acc_Bi = history_Bi.history['val_accuracy']
acc_R = history_R.history['accuracy']
val_acc_R = history_R.history['val_accuracy']

plt.figure(figsize=(10, 16))
plt.subplot(2, 1, 1)
plt.semilogy(losses_Bi, label='loss_Bi')
plt.semilogy(val_loss_Bi, label='val_loss_Bi')
plt.semilogy(losses_R, label='loss_R')
plt.semilogy(val_loss_R, label='val_loss_R')
plt.grid(True)
plt.legend(loc='best')
plt.title("LOSS")

plt.subplot(2, 1, 2)
plt.semilogy(acc_Bi, label='accuracy_Bi')
plt.semilogy(val_acc_Bi, label='val_accur_Bi')
plt.semilogy(acc_R, label='accuracy_R')
plt.semilogy(val_acc_R, label='val_accur_R')
#plt.ylim(0.8,1)
plt.grid(True)
plt.legend(loc='best')
plt.title("Accuracy")
plt.show()  


## **실습 과제**

### 과제 1. `model_R.fit()`에서 `batch_size=`와 `epochs='값을 조정하여 최적의 값을 찾아 보자
#### -- batch_size 를 32,128,512,1024로 바꾸면서 accuracy값을 비교해 보자 
#### -- 최고의 결과를 낼 batch_size를 예상하고 그 이유를 적어보자 
#### -- 실험 결과와 예상결과를 비교하고, 분석하자 : 



 

### 과제 2. epochs를 30,100,200등으로 바꾸어 보자 
####-- batch_size도 같이 조정하여 최적의 조건을 찾아보자 : 


##과제 1 및 2답안

batch_size가 작은 방향으로 갔을 때 조금 더 좋은 값으로 가지 않을까 싶습니다.

돌려봤을 때 64 가량에서 효율이 제일 괜찮게 나왔고, batch size가 200 선 일때 88.38로 valid accuracy가 가장 높은 값이 나오는 것을 확인했습니다. epoch와 batch 사이즈 간에도 상관관계가 있어 보이는 것이, batch_size가 64보다 작은 경우에는 epoch를 늘렸을 때 그 결과값이 87.08~88.12(batch_size==32)로 뚜렷한 증가추세를 보인 반면 64보다 큰 경우에는 85.18~87.15(batch_size==1024)로 상대적으로 증가 추세가 둔감화되는 것을 확인할 수 있었습니다. 

즉 데이터를 학습시키는 총량이 정해져 있을 때 batch_size와 epoch간에 적정한 최적값이 있다는 것을 알 수 있고, 이 경우에는 batch_size가 64, epoch가 200인 경우임을 알 수 있다.

다만 이 이상 학습 시켰을 때 더 이상 효용을 보지 못할 것으로 보인다. 그 근거로 들 수 있는 것 중 하나는 학습 효율의 향상이다. batch_size가 64, epoch가 150일 때 valid accuracy가 88.34, epoch가 200일때 valid accuracy가 88.35로 사실상 학습 효율이 임계에 달했음을 확인할 수 있다.

이를 통해서 알 수 있는 것은 각 데이터간에 loss function을 계산해 cost를 도출해내는 과정에서 본 데이터의 경우에는 batch_size를 64로 할때 그 오차를 최소화할 수 있다는 것이고, epoch의 경우에는 사실상 200선이 최대로, 그 이상으로 올라갈 경우에는 학습 효율을 기대할 수 없을 것으로 보이며, 오히려 오버 피팅이 일어날 것으로 생각된다.


