## The performance  of RNN(Vanilla) and RNN(LSTM) depending on the number hidden layers and hidden units.
                                                                                        Hyungwon Yang
                                                                                             04.21.17
                                                                                            EMCS Labs
### Task
Hidden layer와 Hidden unit의 개수를 조정하여 각각 RNN(Vanilla)와 RNN(LSTM)에서의 성능 변화를 관찰 및 비교한다.
- 영어 character 단위의 데이터셋을 이용하여 훈련한 뒤, 훈련에 사용하지 않은 테스트 셋으로 결과를 추출하여 두 모델 성능을 비교한다.
- 본 실험에서 결과에 영향을 주는 요인은 2가지로 각각 Hidden layer의 개수와 Hidden unit의 개수이다. 
 1. Hidden layer (3가지) : 1개, 2개, 3개
 2. Hidden unit  (5가지) : 100개, 200개, 300개, 400개, 500개
- 위 조합에서 나올 수 있는 경우의 수는 총 15가지가 되며, 이 15가지의 경우의 수가 RNN(Vanilla)와 RNN(LSTM)에서 각각 적용되어 훈련되었다.


### Training Corpus
- Project Gutenberg's The Divine Comedy, Complete, by Dante Alighieri
This eBook is for the use of anyone anywhere at no cost and with almost no restrictions whatsoever. You may copy it, give it away or re-use it under the terms of the Project Gutenberg License included with this eBook or online at www.gutenberg.org
The part of the corpus was extracted for training.

### Experimental Setting.
- Python 3.6.0
- Tnesorflow 1.0.1
- Ubuntu 16.04.2

### Data Preprocessing.
- 이전 report에서 보고하였던 것으로 갈음한다.

### RNN(Vanilla) Training

- Hidden layer와 Hidden unit의 개수를 변경하며 실험을 진행했으며, 자세한 설정사항은 아래와 같다.
- 설정값
 1. 훈련에 사용된 데이터: 8,500 - 20 - 38 (# of examples, # of time steps ,# of input features)
 2. 테스트에 사용된 데이터 : 1,650 - 20 - 38 (# of examples, # of time steps ,# of input features)
 3. 본 실험에서는 사용하지 않았지만 리포트 상에서는 Accuracy의 변화를 보여주고자 훈련에 사용되는 데이터중 20%를 validation 셋(1,700개)으로 구성하였다. 이 validation은 epoch가 진행됨에 따라 변화되는 accuracy(인풋 케릭터에 대한 아웃풋 케릭터 결과)를 보여준다. 
 4. Parameters
   * Epoch        : 200 (고정) 
   * Learning Rate: 0.001 
   * Cost Function: AdamOptimizer
   * Dropout      : on
   * The number of hidden layers and hidden units:
   
|           Trials           |  1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9  |  10 |  11 |  12 |  13 |  14 |  15 |
|:--------------------------:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| The number of hidden layer |  1  |  1  |  1  |  1  |  1  |  2  |  2  |  2  |  2  |  2  |  3  |  3  |  3  |  3  |  3  |
| The number of hidden units | 100 | 200 | 300 | 400 | 500 | 100 | 200 | 300 | 400 | 500 | 100 | 200 | 300 | 400 | 500 |

- 참고사항
  * 리포트 상의 코드(Jupyter notebook)는 훈련 진행의 변화를 쉽게 인지하도록 임의의 설정값을 이용해 진행하였으며, 본 실험과는 차이가 있을 수 있다.

In [1]:
import sys
# HY_python_NN absolute directory.
my_absdir = "/Users/hyungwonyang/Google_Drive/Python/HY_python_NN"
sys.path.append(my_absdir)

import numpy as np
import main.setvalues as set
import main.rnnnetworkmodels as net

# import data.
# data directory.
rnn_data = np.load(my_absdir+'/train_data/pg8800_lstm_char_data.npz')
train_input = rnn_data['train_input']
train_output = rnn_data['train_output']
test_input = rnn_data['test_input']
test_output = rnn_data['test_output']

In [2]:
# parameters
problem = 'classification' # classification, regression
rnnCell = 'rnn' # rnn, lstm, gru
trainEpoch = 20
learningRate = 0.001
learningRateDecay = 'off' # on, off
batchSize = 100
dropout = 'on'
hiddenLayers = [200]
timeStep = 20
costFunction = 'adam' # gradient, adam
validationCheck = 'on' # if validationCheck is on, then 20% of train data will be taken for validation.

rnn_values = set.RNNParam(inputData=train_input,
                           targetData=train_output,
                           timeStep=timeStep,
                           hiddenUnits=hiddenLayers
                           )

In [3]:
# Setting hidden layers: weightMatrix and biasMatrix
rnn_weightMatrix = rnn_values.genWeight()
rnn_biasMatrix = rnn_values.genBias()
rnn_input_x,rnn_input_y = rnn_values.genSymbol()

In [4]:
rnn_net = net.RNNModel(inputSymbol=rnn_input_x,
                        outputSymbol=rnn_input_y,
                        rnnCell=rnnCell,
                        problem=problem,
                        hiddenLayer=hiddenLayers,
                        trainEpoch=trainEpoch,
                        learningRate=learningRate,
                        learningRateDecay=learningRateDecay,
                        timeStep=timeStep,
                        batchSize=batchSize,
                        dropout=dropout,
                        validationCheck=validationCheck,
                        weightMatrix=rnn_weightMatrix,
                        biasMatrix=rnn_biasMatrix)

# Generate a RNN(vanilla) network.
rnn_net.genRNN()

########## RNN Setting #########
Task          : classification
Cell Type     : rnn
Hidden Layers : 1
Hidden Units  : [200]
Train Epoch   : 20
Learning Rate : 0.001
Time Steps    : 20
Batch Size    : 100
Drop Out      : on
Validation    : on
########## RNN Setting #########
RNN structure is generated.


In [5]:
# Train the RNN(vanilla) network.
# In this tutorial, we will run only 20 epochs.
rnn_net.trainRNN(train_input,train_output)

Activating training process.
Epoch:   1 /  20, Cost : 2.875499, Validation Accuracy: 34.77%
Epoch:   2 /  20, Cost : 2.270617, Validation Accuracy: 35.88%
Epoch:   3 /  20, Cost : 2.196919, Validation Accuracy: 36.14%
Epoch:   4 /  20, Cost : 2.167982, Validation Accuracy: 36.26%
Epoch:   5 /  20, Cost : 2.152596, Validation Accuracy: 36.42%
Epoch:   6 /  20, Cost : 2.143033, Validation Accuracy: 36.56%
Epoch:   7 /  20, Cost : 2.136388, Validation Accuracy: 36.61%
Epoch:   8 /  20, Cost : 2.131507, Validation Accuracy: 36.64%
Epoch:   9 /  20, Cost : 2.127721, Validation Accuracy: 36.77%
Epoch:  10 /  20, Cost : 2.124676, Validation Accuracy: 36.78%
Epoch:  11 /  20, Cost : 2.122190, Validation Accuracy: 36.75%
Epoch:  12 /  20, Cost : 2.120118, Validation Accuracy: 36.76%
Epoch:  13 /  20, Cost : 2.118306, Validation Accuracy: 36.79%
Epoch:  14 /  20, Cost : 2.116636, Validation Accuracy: 36.83%
Epoch:  15 /  20, Cost : 2.115082, Validation Accuracy: 36.83%
Epoch:  16 /  20, Cost : 2

In [6]:
# Test the trained RNN(vanilla) network.
rnn_net.testRNN(test_input,test_output)

Activating Testing Process
Tested with 1650 datasets.
Test Accuracy: 37.40 %


In [7]:
# Save the trained parameters.
vars = rnn_net.getVariables()
# Terminate the session.
rnn_net.closeRNN()

Variable list as a dictionary format.
>> weight, bias, y_hat, optimizer, cost

RNN training session is terminated.


### RNN(LSTM) Training

- Hidden layer와 Hidden unit의 개수를 변경하며 실험을 진행했으며, 자세한 설정사항은 아래와 같다.
- 설정값
 1. 훈련에 사용된 데이터: 8,500 - 20 - 38 (# of examples, # of time steps ,# of input features)
 2. 테스트에 사용된 데이터 : 1,650 - 20 - 38 (# of examples, # of time steps ,# of input features)
 3. 본 실험에서는 사용하지 않았지만 리포트 상에서는 Accuracy의 변화를 보여주고자 훈련에 사용되는 데이터중 20%를 validation 셋(1,700개)으로 구성하였다. 이 validation은 epoch가 진행됨에 따라 변화되는 accuracy(인풋 케릭터에 대한 아웃풋 케릭터 결과)를 보여준다. 
 4. Parameters
   * Epoch        : 200 (고정) 
   * Learning Rate: 0.001 
   * Dropout      : on
   * Cost Function: AdamOptimizer
   * The number of hidden layers and hidden units:
   
|           Trials           |  1  |  2  |  3  |  4  |  5  |  6  |  7  |  8  |  9  |  10 |  11 |  12 |  13 |  14 |  15 |
|:--------------------------:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
| The number of hidden layer |  1  |  1  |  1  |  1  |  1  |  2  |  2  |  2  |  2  |  2  |  3  |  3  |  3  |  3  |  3  |
| The number of hidden units | 100 | 200 | 300 | 400 | 500 | 100 | 200 | 300 | 400 | 500 | 100 | 200 | 300 | 400 | 500 |

- 참고사항
  * 리포트 상의 코드(Jupyter notebook)는 훈련 진행의 변화를 쉽게 인지하도록 임의의 설정값을 이용해 진행하였으며, 본 실험과는 차이가 있을 수 있다.

In [8]:
import numpy as np
import main.setvalues as set
import main.rnnnetworkmodels as net

# import data.
# data directory.
lstm_data = np.load(my_absdir+'/train_data/pg8800_lstm_char_data.npz')
train_input = lstm_data['train_input']
train_output = lstm_data['train_output']
test_input = lstm_data['test_input']
test_output = lstm_data['test_output']

In [9]:
# parameters
problem = 'classification' # classification, regression
rnnCell = 'lstm' # rnn, lstm, gru
trainEpoch = 20
learningRate = 0.001
learningRateDecay = 'off' # on, off
batchSize = 100
dropout = 'on'
hiddenLayers = [200]
timeStep = 20
costFunction = 'adam' # gradient, adam
validationCheck = 'on' # if validationCheck is on, then 20% of train data will be taken for validation.

lstm_values = set.RNNParam(inputData=train_input,
                           targetData=train_output,
                           timeStep=timeStep,
                           hiddenUnits=hiddenLayers
                           )

In [10]:
# Setting hidden layers: weightMatrix and biasMatrix
lstm_weightMatrix = lstm_values.genWeight()
lstm_biasMatrix = lstm_values.genBias()
lstm_input_x,lstm_input_y = lstm_values.genSymbol()

In [11]:
lstm_net = net.RNNModel(inputSymbol=lstm_input_x,
                        outputSymbol=lstm_input_y,
                        rnnCell=rnnCell,
                        problem=problem,
                        hiddenLayer=hiddenLayers,
                        trainEpoch=trainEpoch,
                        learningRate=learningRate,
                        learningRateDecay=learningRateDecay,
                        timeStep=timeStep,
                        batchSize=batchSize,
                        dropout=dropout,
                        validationCheck=validationCheck,
                        weightMatrix=lstm_weightMatrix,
                        biasMatrix=lstm_biasMatrix)

# Generate a RNN(lstm) network.
lstm_net.genRNN()

########## RNN Setting #########
Task          : classification
Cell Type     : lstm
Hidden Layers : 1
Hidden Units  : [200]
Train Epoch   : 20
Learning Rate : 0.001
Time Steps    : 20
Batch Size    : 100
Drop Out      : on
Validation    : on
########## RNN Setting #########
RNN structure is generated.


In [12]:
# Train the RNN(lstm) network.
# In this tutorial, we will run only 20 epochs.
lstm_net.trainRNN(train_input,train_output)

Activating training process.
Epoch:   1 /  20, Cost : 3.000563, Validation Accuracy: 29.29%
Epoch:   2 /  20, Cost : 2.487978, Validation Accuracy: 32.98%
Epoch:   3 /  20, Cost : 2.325643, Validation Accuracy: 34.48%
Epoch:   4 /  20, Cost : 2.245832, Validation Accuracy: 35.90%
Epoch:   5 /  20, Cost : 2.192866, Validation Accuracy: 36.53%
Epoch:   6 /  20, Cost : 2.151267, Validation Accuracy: 37.42%
Epoch:   7 /  20, Cost : 2.113395, Validation Accuracy: 38.35%
Epoch:   8 /  20, Cost : 2.078679, Validation Accuracy: 38.96%
Epoch:   9 /  20, Cost : 2.047445, Validation Accuracy: 39.58%
Epoch:  10 /  20, Cost : 2.019518, Validation Accuracy: 40.11%
Epoch:  11 /  20, Cost : 1.994652, Validation Accuracy: 40.54%
Epoch:  12 /  20, Cost : 1.972219, Validation Accuracy: 41.04%
Epoch:  13 /  20, Cost : 1.951622, Validation Accuracy: 41.60%
Epoch:  14 /  20, Cost : 1.932475, Validation Accuracy: 41.99%
Epoch:  15 /  20, Cost : 1.914544, Validation Accuracy: 42.33%
Epoch:  16 /  20, Cost : 1

In [13]:
# Test the trained RNN(lstm) network.
lstm_net.testRNN(test_input,test_output)

Activating Testing Process
Tested with 1650 datasets.
Test Accuracy: 45.30 %


In [14]:
# Save the trained parameters.
vars = lstm_net.getVariables()
# Terminate the session.
lstm_net.closeRNN()

Variable list as a dictionary format.
>> weight, bias, y_hat, optimizer, cost

RNN training session is terminated.


### Comments
- 본 실험에서 Hidden layer와 Hidden Unit 개수를 각각 달리하여 훈련을 진행하였으며, 이 두가지 요인의 변화에 따른 성능변화를 알아보고자 한다.
- 위 실험에서 언급한 파라미터값은 모든 경우의 실험 가지수에서 동일하게 설정하고 진행하였다.

### Result
1. 그래프상에서 RNN(Vanilla)와 RNN(LSTM)간에 훈련 성능차가 뚜렷하게 나타나고 있다. 
2. RNN(Vanilla)의 경우 Hidden Unit이 100과 200일 때 Hidden layer의 개수가 늘어남에 따라 성능이 좋아지는 것을 볼 수 있다. 하지만 Hidden unit의 개수가 늘어나자 300이상으로 늘어날 경우 Hidden layer의 개수와 상관없이 성능이 악화되고 있다. 이는 기계학습에서 전형적으로 나타나는 Overfitting의 문제로 볼 수 있는데, 비록 본 리포트에서는 보고하지 않았지만, RNN(Vanilla)을 통한 데이터 훈련 시 Error값은 계속해서 낮아지고 있었고,  훈련에 사용하지 않은 Validation 세트를 통해 확인해 본 Accuracy는 점차 나빠지고 있었다는 점을 통해 유추할 수 있다.
3. RNN(LSTM)의 경우 RNN(Vanilla)에서와 동일하게 Hidden unit의 개수가 적은 경우 Hidden layer의 개수와 비례해서 성능이 향상되는 양상을 보인다. 하지만 Hidden unit의 개수 자체가 300이상으로 증가했을 경우에는 Hidden layer의 개수와 상관없이 높은 성능 향상을 보여주고 있다. 그리고 RNN(Vanilla)와는 다르게 Hidden layer의 개수가 증가하더라도 ceilling effect만 보일 뿐, Overfitting으로 인한 Accuracy의 하락은 보이지 않는다. 

<br/>
<center>PERFORMANCE TABLE</center>

|           Trials           |   1   |   2   |   3   |   4   |   5   |   6   |   7   |   8   |   9   |   10  |   11  |   12  |   13  |   14  |   15  |
|:--------------------------:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|:-----:|
| The number of hidden layer |   1   |   1   |   1   |   1   |   1   |   2   |   2   |   2   |   2   |   2   |   3   |   3   |   3   |   3   |   3   |
| The number of hidden units |  100  |  200  |  300  |  400  |  500  |  100  |  200  |  300  |  400  |  500  |  100  |  200  |  300  |  400  |  500  |
| RNN(Vanilla) (Accuracy%)   | 48.13 | 50.09 | 43.29 | 41.72 | 39.77 | 52.53 | 54.85 | 48.23 | 41.47 | 40.36 | 55.93 | 58.55 | 48.53 | 43.76 | 40.42 |
| RNN(LSTM) (Accuracy%)      | 56.57 | 72.46 | 86.95 | 87.68 | 87.55 | 65.62 | 86.82 | 87.29 | 87.43 | 86.98 | 71.22 | 86.59 | 87.08 | 87.37 | 87.49 |

<br/>
<center>PERFORMANCE GRAPH</center>

![enter image description here](https://lh3.googleusercontent.com/-4FzZzz2QgHk/WPsamz-HqrI/AAAAAAAAEjc/fitgPT4jJD8hhzEIpi5rH1UYQIAAcVbJwCLcB/s500/Screen+Shot+2017-04-22+at+5.55.05+PM.png "Screen Shot 2017-04-22 at 5.55.05 PM.png")

### Further Task
1. RNN(LSTM)의 성능 향상을 위해 Dropout을 적용하고, 다른 Costfunction을 사용해 보자.

### Github Code

- 다음의 깃헙 코드를 다운받으면 본 실험을 재현할 수 있다.
 - https://github.com/hyung8758/HY_python_NN.git
- Jupyter에서 실행을 원할 경우, 위 코드를 받고 jupyter notebook 최상단쯤에 보이는 absolute directory를 코드 상의 폴더이름(/your/path/to/HY_python_NN)으로 정한 뒤 실행하면 된다.


