# Recurrent Neural Networks (RNNs)

**Note:** 이 `notebook`을 실행하기 이전에 다음과 같은 내용을 설명하고 진행하도록 하겠습니다. 
 1. One-hot encoding 설명
 2. Recurrent Neural Networks의 구조
 
 3. 여러가지 다른 형태의 RNNs 설명
   - 다대다 (각각의 cell이 입력과 출력을 하는 경우)
   - 다대다 (seq2seq: machine translation)
   - 일대다 (img2seq)
   - 다대일 (text classification, sentiment analysis)
 4. Vanilla RNN과 LSTM, GRU cell의 차이점
  
**Note:** 이 `notebook`의 설명과 코드는 **Deep Learning with Keras** 책을 참고하였습니다. 

이번에는 `순환 신경망 (Recurrent Neural Networks; RNNs)`을 이용하여서 문자열을 생성하는 모델을 확인해보도록 하겠습니다. 이 스크립트에서 하는 작업은 이전 단어가 주어졌을 때 현재 단어가 나올 확률을 예측하는 것입니다. 지금은 단어가 아닌 각각의 글자 단위로 언어 모델을 구축해보겠습니다. 

사용할 데이터는 `이상한 나라의 엘리스` 문장입니다. 주어진 텍스트에서 10개의 글자를 입력으로 받아서 다음 글자를 예측하는 모델을 만드는 것을 목적으로 합니다. 단어 단위가 아닌 글자 단위로 학습을 하는 이유는 단어의 갯수보다 글자의 갯수가 적으므로 학습을 더 빠르게 진행할 수 있기 때문입니다. 워크샵에서 단어 단위의 모델을 형성하는 것에는 시간이 오래 걸릴 수 있으므로, 글자 단위의 모델을 만들어 보겠습니다. 

모델이 잘 학습이 된다면 생성된 결과도 좋을 것이고, 모델이 잘 학습이 되지 않을 경우 이상한 문장들을 생성해낼 것입니다. 

## Check the data

데이터를 확인해보겠습니다. 이 데이터는 Project Gutenberg에서 제공하는 `Aclice in the Wonderland`의 일부를 가지고 온 것입니다. 

In [23]:
%%bash
head ./data/11-0.txt

Alice was beginning to get very tired of sitting by her sister on the
bank, and of having nothing to do: once or twice she had peeped into the
book her sister was reading, but it had no pictures or conversations in
it, ���and what is the use of a book,��� thought Alice ���without pictures or
conversations?���

So she was considering in her own mind (as well as she could, for the
hot day made her feel very sleepy and stupid), whether the pleasure
of making a daisy-chain would be worth the trouble of getting up and
picking the daisies, when suddenly a White Rabbit with pink eyes ran


## Import modules

RNN 모델 구축에 필요한 모듈을 불러오겠습니다. 

In [2]:
from keras.layers import Dense, Activation
from keras.layers.recurrent import SimpleRNN
from keras.models import Sequential
from keras.utils.vis_utils import plot_model
import numpy as np

Using TensorFlow backend.


## Preprocessing

이전에 데이터를 확인해 보면 인식되지 않는 기호들이 있고 줄바꿈이 제대로 되어있지 않으므로 전처리가 필요한 데이터임을 알 수 있습니다. 다음과 같이 데이터 전처리를 실행하도록 하겠습니다. 

In [24]:
## Data massage
with open("./data/11-0.txt", "rb") as f:
    lines = []
    for line in f:
        line = line.strip().lower()
        line = line.decode("utf-8", "ignore")
        if len(line) == 0:
            continue
        lines.append(line)
    f.close()
text = " ".join(lines)
print(text)

alice was beginning to get very tired of sitting by her sister on the bank, and of having nothing to do: once or twice she had peeped into the book her sister was reading, but it had no pictures or conversations in it, ‘and what is the use of a book,’ thought alice ‘without pictures or conversations?’ so she was considering in her own mind (as well as she could, for the hot day made her feel very sleepy and stupid), whether the pleasure of making a daisy-chain would be worth the trouble of getting up and picking the daisies, when suddenly a white rabbit with pink eyes ran close by her. there was nothing so very remarkable in that; nor did alice think it so very much out of the way to hear the rabbit say to itself, ‘oh dear! oh dear! i shall be late!’ (when she thought it over afterwards, it occurred to her that she ought to have wondered at this, but at the time it all seemed quite natural); but when the rabbit actually took a watch out of its waistcoat-pocket, and looked at it, and th

결과를 보면 이제 모든 내용이 하나의 긴 글로 연결되어 있음을 알 수 있습니다. 

## Char2Idx

문자 단위의 `RNN` 모델을 만들기 위해서는 사용된 문자들과 그 문자에 해당하는 인덱스를 연결시켜줄 필요가 있습니다. 

주어진 데이터는 총 41개의 문자를 사용하며, 아래 코드를 이용하여 `Character-to-Index` 작업을 하겠습니다. 

**Note:** `enumerate` 함수의 기능을 알면 유용합니다. 

In [25]:
chars = set([c for c in text])
print(len(chars))

num_chars = len(chars)

char2idx = dict((c, i) for i, c in enumerate(chars))

idx2char = dict((i, c) for i, c in enumerate(chars))

print(len(list(char2idx.keys())))
print(list(char2idx.keys())[:10])
print(list(idx2char.keys())[:10])

41
41
['y', ',', 'p', '?', ' ', '.', 'd', 'c', 'k', '‘']
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


## Input/output text

다음으로 입력과 출력에 해당하는 텍스트를 추출하여야합니다. 

이번 `notebook`에서 진행할 과정은 10개의 문자가 주어졌을 때, 다음에 나타날 하나의 문자를 예측하는 것입니다. 

In [26]:
seq_len = 10 # Length of input text
step = 1 # interval between characters

input_chars = []
label_chars = []

for i in range(0, len(text) - seq_len, step):
    input_chars.append(text[i:i + seq_len])
    label_chars.append(text[i + seq_len])
    
for j in range(0, 10):
    print(input_chars[j], "\t=>\t", label_chars[j])

alice was  	=>	 b
lice was b 	=>	 e
ice was be 	=>	 g
ce was beg 	=>	 i
e was begi 	=>	 n
 was begin 	=>	 n
was beginn 	=>	 i
as beginni 	=>	 n
s beginnin 	=>	 g
 beginning 	=>	  


결과를 살펴보면 `input_chars` 리스트에는 10개의 글자가 주어지고, `label_chars`에는 그 다음에 나타날 글자 하나가 들어있는 것을 볼 수 있습니다. 

## Text to Vectors

다음으로는 `input_chars`와 `label_chars`에 들어있는 글자들을 벡터로 변환하여야 합니다. `RNN` 모델에 필요한 `cell`의 갯수는 `seq_len (input의 길이)`와 동일하며, 어휘의 크기는 `num_char`에 의해서 결정됩니다. 그리고 각각의 글자는 `num_char` 크기의 `one-hot encoding`의 형태로 변환되니다. 

결국 `input_chars`는 `input_chars의 길이 x seq_len x num_chars`의 형태를 가진 행렬로 변환되고, `label_chars`는 `input_chars의 길이 x num_chars`의 형태의 행렬로 변환됩니다. 

In [27]:
## Create numpy arrays with zeros
X_data = np.zeros((len(input_chars), seq_len, num_chars), dtype=np.bool)
y_data = np.zeros((len(input_chars), num_chars), dtype=np.bool)

## Replace zero to one for one-hot encoding
for i, input_char in enumerate(input_chars):
    for j, ch in enumerate(input_char):
        X_data[i, j, char2idx[ch]] = 1
    y_data[i, char2idx[label_chars[i]]] = 1

## Create a model

이제 모델을 만들어보도록 하겠습니다. `RNN`의 출력 공간은 **128**로 설정하였습니다. 많은 논문/실험에서 출력 공간을 128, 혹은 128의 배수로 설정하는 것을 볼 수 있습니다. 일반적으로 출력 공간의 크기는 input이나 output의 길이보다는 충분히 길어야합니다. 출력 공간이 너무 작게 설정되면 모델의 수용력이 부족해져서 제대로 학습을 하지 못하는 경우가 있으며, 출력 공간이 너무 클 경우에는 학습을 위해 충분히 많은 양의 데이터를 필요로 합니다. 

`keras`에서 `RNN cell`에는 `return_sequences` 라는 논항이 있습니다. 현재 우리는 문자열이 아니라 하나의 글자를 반환하기를 원하므로, `False`로 설정합니다. 

`RNN`에 입력될 데이터는 `seq_len x num_char`의 형태로 입력될 것입니다. 

`RNN` 모델의 논항 중, `unroll = True`는 `keras` 실행에 사용되는 `tensorflow`의 성능을 향상시키므로 `true`로 설정하여씃ㅂ니다. 

`RNN` 모델의 마지막 단은 `Fully-connected layer`에 연결됩니다. `Fully-connected layer`의 **output**은 `num_char` 만큼의 노드가 잇으며, 각각의 노드는 해당 글자로 나타날 점수를 출력합니다. 다음으로 `softmax` 활성화 함수를 이용하여서 각각의 점수를 확률로 정규화하며, 확률이 가장 높은 문자가 예측값으로 선택됩니다. 예측값과 실제값의 차이는 `categorical_corrsentropy` 함수를 이용하여 계산되며, `Adam` optimizer를 사용하여 `weight` 및 `bias`를 최적화하였습니다. 

In [32]:
## hyperparameters
hidden_dim = 128
batch_size = 128
num_iterations = 50
num_epochs = 5
num_preds = 100

model = Sequential()
model.add(SimpleRNN(hidden_dim, return_sequences=False,
                   input_shape = (seq_len, num_chars),
                   unroll = True))
model.add(Dense(num_chars))
model.add(Activation("softmax"))
model.compile(loss = "categorical_crossentropy", optimizer = "adam")

model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
simple_rnn_6 (SimpleRNN)     (None, 128)               21760     
_________________________________________________________________
dense_6 (Dense)              (None, 41)                5289      
_________________________________________________________________
activation_6 (Activation)    (None, 41)                0         
Total params: 27,049
Trainable params: 27,049
Non-trainable params: 0
_________________________________________________________________


## Train the model

이제 만들어놓은 모델을 주어진 데이터를 이용하여 학습시켜보도록 하겠습니다. 이전에는 주어진 학습 데이터를 통해 모델을 학습시킨 이후, 학습된 모델이 주어진 테스트 데이터에 대해 얼마의 `accuracy (정확도)`를 보이는지, 혹은 실제 값과의 `오차 (loss)`가 얼마나 되는지를 통해 학습 및 평가를 진행하였습니다. 

이번에는 모델을 학습시킨 이후, 실제 문자열을 생성함으로써 얼마나 모델이 잘 학습되었는지 살펴보도록 하겠습니다. 테스트는 `input_chars`중 임의로 하나를 가져온 다음, 해당 문자열 다음에 나타날 하나의 글자를 모델을 통해 예측합니다. 그리고 나서 해당 문자열의 첫 글자를 삭제, 예측한 글자를 해당 문자열의 맨 뒤에 붙인 다음 다시 학습된 모델을 이용하여 예측을 합니다. 이 과정을 **100번** (num_pred) 진행한 이후, 생성된 문자열을 통해 모델이 얼마나 잘 학습되었는지 확인할 수 있습니다. 

In [33]:
for iteration in range(num_iterations):
    print("=" * 50)
    print("Iteration #: %d" % (iteration))
    model.fit(X_data, y_data, batch_size = batch_size, epochs = num_epochs)
    
    ## Test
    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]
    print("Generating from seed: %s" % (test_chars))
    
    print(test_chars, end="")
    for i in range(num_preds):
        Xtest = np.zeros((1, seq_len, num_chars))
        for j, ch in enumerate(test_chars):
            Xtest[0, j, char2idx[ch]] = 1
        pred = model.predict(Xtest, verbose = 0)[0]
        ypred = idx2char[np.argmax(pred)]
        print(ypred, end="")
        test_chars = test_chars[1:] + ypred
    print()

Iteration #: 0
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: the locks 
the locks and the the to the was ao she was ao she was ao she was ao she was ao she was ao she was ao she was 
Iteration #: 1
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: ! how funn
! how funn the was no hing the was no hing the was no hing the was no hing the was no hing the was no hing the
Iteration #: 2
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: g seen suc
g seen suche pitt at ind it tor and to the the the the the the the the the the the the the the the the the the
Iteration #: 3
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: e of the c
e of the callle soo to the foup of the her lithe selleng the for the could the came and the was not ing the wa
Iteration #: 4
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: y rate a b
y rate a bitt of all toon the rould tor anden the to the ked was t

s i shall sall thithan then wey in the loppided or here mace oreed wa chat a vinthe lask, und harse!’ sard hem
Iteration #: 13
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed:  very soon
 very soon finished off the coke ffen oup sayich vas mpton tureli gat withiug thouthorg to loke tipowhe at eel
Iteration #: 14
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: ds and boo
ds and book-sher thei’sd outher amy herrkes werdey why manise to mameno: she lackid )id way ileeshed of the sh
Iteration #: 15
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed:  before,’ 
 before,’ sa d ankere the lakel, tire!) ‘-hadker thams! bhe wasdelped whit leanet ats apor of tof is, ala bug 
Iteration #: 16
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: ping herse
ping herself be aile the severs for lo botllo tarke do thanke thathy weidd an the tonder, had sha rit we, all 
Iteration #: 17
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epo

Generating from seed: s to say.)
s to say.) presently she began and heas aes marker anour tho sabee, ho k-ou no flit me asen th mak way; bof we
Iteration #: 26
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: one listen
one listening, this time she found herself out with trying, the poor little thing sat down and cried. ‘come, t
Iteration #: 27
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: so alice v
so alice ventured to taste it, and found that it led into a small pees as. too the chupent’dl shemp!ne si f rn
Iteration #: 28
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed:  what is t
 what is the use of a bookea toun aromhe mi withand souddong oo sto seratlink tougr dow nity aitellle i souglt
Iteration #: 29
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed:  same size
 same size: to be sure, this generally gave herself very good oppoptiot make fot chow shept; and soushed fan t
Iteration #: 30


Epoch 5/5
Generating from seed: was too sm
was too smuppernust me sith rsinllene it’mi hernkend bof th fure she had plenty of time as she wes got anit fe
Iteration #: 39
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: s marked “
s marked “poison” or not’; for she had read several nice little histories about children who had got burnt, an
Iteration #: 40
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: you to lea
you to leave off this minute!’ she generally gave herself very good opportunity for showing off her knowledge,
Iteration #: 41
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: d opportun
d opportunity for showing off her knowledge, as there was no one to listenito, bhitely ubroa s mementertedong 
Iteration #: 42
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Generating from seed: ticed befo
ticed before, and behind it was a little bottle on it, [‘which certainly was not here before,’ said alice, ‘an
Iterat