# Text Generation using RNN

## Import

In [21]:
import numpy as np
import pandas as pd

from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Dense, SimpleRNN

## RNN을 이용하여 텍스트 생성하기

### Text Preprocessing

In [80]:
text="""경마장에 있는 말이 뛰고 있다\n
그의 말이 법이다\n
가는 말이 고와야 오는 말이 곱다\n
"""

In [62]:
text="""
앞서 배운 신경망들은 전부 은닉층에서 활성화 함수를 지난 값은 오직 출력층 방향으로만 향했습니다. \n
이와 같은 신경망들을 피드 포워드 신경망(Feed Forward Neural Network)이라고 합니다. \n
그런데 그렇지 않은 신경망들이 있습니다. \n
RNN(Recurrent Neural Network) 또한 그 중 하나입니다. \n
RNN은 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로도 보내면서, 다시 은닉층 노드의 다음 계산의 입력으로 보내는 특징을 갖고있습니다.\n
이를 그림으로 표현하면 위와 같습니다. \n
x는 입력층의 입력 벡터, y는 출력층의 출력 벡터입니다. \n
실제로는 편향 b도 입력으로 존재할 수 있지만 앞으로의 그림에서는 생략합니다. \n
RNN에서 은닉층에서 활성화 함수를 통해 결과를 내보내는 역할을 하는 노드를 셀(cell)이라고 합니다. \n
이 셀은 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행하므로 이를 메모리 셀 또는 RNN 셀이라고 표현합니다.\n
은닉층의 메모리 셀은 각각의 시점(time step)에서 바로 이전 시점에서의 은닉층의 메모리 셀에서 나온 값을 자신의 입력으로 사용하는 재귀적 활동을 하고 있습니다. \n
앞으로는 현재 시점을 변수 t로 표현하겠습니다. \n
이는 현재 시점 t에서의 메모리 셀이 갖고있는 값은 과거의 메모리 셀들의 값에 영향을 받은 것임을 의미합니다. \n
그렇다면 메모리 셀이 갖고 있는 이 값은 뭐라고 부를까요?\n
메모리 셀이 출력층 방향으로 또는 다음 시점 t+1의 자신에게 보내는 값을 은닉 상태(hidden state)라고 합니다. \n
다시 말해 t 시점의 메모리 셀은 t-1 시점의 메모리 셀이 보낸 은닉 상태값을 t 시점의 은닉 상태 계산을 위한 입력값으로 사용합니다.\n
RNN을 표현할 때는 일반적으로 위의 그림에서 좌측과 같이 화살표로 사이클을 그려서 재귀 형태로 표현하기도 하지만, 우측과 같이 사이클을 그리는 화살표 대신 여러 시점으로 펼쳐서 표현하기도 합니다. \n
두 그림은 동일한 그림으로 단지 사이클을 그리는 화살표를 사용하여 표현하였느냐, 시점의 흐름에 따라서 표현하였느냐의 차이일 뿐 둘 다 동일한 RNN을 표현하고 있습니다.\n
피드 포워드 신경망에서는 뉴런이라는 단위를 사용했지만, RNN에서는 뉴런이라는 단위보다는 입력층과 출력층에서는 각각 입력 벡터와 출력 벡터, 은닉층에서는 은닉 상태라는 표현을 주로 사용합니다. \n
그래서 사실 위의 그림에서 회색과 초록색으로 표현한 각 네모들은 기본적으로 벡터 단위를 가정하고 있습니다. \n
피드 포워드 신경망과의 차이를 비교하기 위해서 RNN을 뉴런 단위로 시각화해보겠습니다. \n
위의 그림은 입력 벡터의 차원이 4, 은닉 상태의 크기가 2, 출력층의 출력 벡터의 차원이 2인 RNN이 시점이 2일 때의 모습을 보여줍니다.  \n
다시 말해 뉴런 단위로 해석하면 입력층의 뉴런 수는 4, 은닉층의 뉴런 수는 2, 출력층의 뉴런 수는 2입니다. \n
RNN은 입력과 출력의 길이를 다르게 설계 할 수 있으므로 다양한 용도로 사용할 수 있습니다.  \n
위 그림은 입력과 출력의 길이에 따라서 달라지는 RNN의 다양한 형태를 보여줍니다.  \n
위 구조가 자연어 처리에서 어떻게 사용될 수 있는지 예를 들어봅시다.  \n
RNN 셀의 각 시점 별 입, 출력의 단위는 사용자가 정의하기 나름이지만 가장 보편적인 단위는 '단어 벡터'입니다. \n
예를 들어 하나의 입력에 대해서 여러개의 출력(one-to-many)의 모델은 하나의 이미지 입력에 대해서 사진의 제목을 출력하는 이미지 캡셔닝(Image Captioning) 작업에 사용할 수 있습니다.  \n
사진의 제목은 단어들의 나열이므로 시퀀스 출력입니다. \n
또한 단어 시퀀스에 대해서 하나의 출력(many-to-one)을 하는 모델은 입력 문서가 긍정적인지 부정적인지를 판별하는 감성 분류(sentiment classification), 또는 메일이 정상 메일인지 스팸 메일인지 판별하는 스팸 메일 분류(spam detection)에 사용할 수 있습니다.  \n
위 그림은 RNN으로 스팸 메일을 분류할 때의 아키텍처를 보여줍니다.  \n
이러한 예제들은 11챕터에서 배우는 텍스트 분류에서 배웁니다. \n
다 대 다(many-to-many)의 모델의 경우에는 입력 문장으로 부터 대답 문장을 출력하는 챗봇과 입력 문장으로부터 번역된 문장을 출력하는 번역기, 또는 12챕터에서 배우는 개체명 인식이나 품사 태깅과 같은 작업 또한 속합니다.  \n
위 그림은 개체명 인식을 수행할 때의 RNN 아키텍처를 보여줍니다. \n
"""

In [81]:
# 단어 집합을 생성
t = Tokenizer()
t.fit_on_texts([text])

In [82]:
# 케라스 토크나이저의 정수 인코딩은 인덱스가 1부터 시작하지만,
# 케라스 원-핫 인코딩에서 배열의 인덱스가 0부터 시작하기 때문에
# 배열의 크기를 실제 단어 집합의 크기보다 +1로 생성해야하므로 미리 +1 선언
vocab_size = len(t.word_index) + 1 
print("Num of words", vocab_size)

Num of words 12


In [83]:
t.word_index

{'말이': 1,
 '경마장에': 2,
 '있는': 3,
 '뛰고': 4,
 '있다': 5,
 '그의': 6,
 '법이다': 7,
 '가는': 8,
 '고와야': 9,
 '오는': 10,
 '곱다': 11}

In [84]:
# 훈련 데이터 만들기
sequences = list()
for line in text.split("\n"):
    encoded = t.texts_to_sequences([line])[0]
    for i in range(1, len(encoded)):
        sequence = encoded[:i+1]
        sequences.append(sequence)
print("학습에 사용할 샘플 수", len(sequences))

학습에 사용할 샘플 수 11


In [85]:
sequences

[[2, 3],
 [2, 3, 1],
 [2, 3, 1, 4],
 [2, 3, 1, 4, 5],
 [6, 1],
 [6, 1, 7],
 [8, 1],
 [8, 1, 9],
 [8, 1, 9, 10],
 [8, 1, 9, 10, 1],
 [8, 1, 9, 10, 1, 11]]

In [86]:
max_len = max([len(i) for i in sequences])
print("샘플의 최대 길이:", max_len)

샘플의 최대 길이: 6


In [87]:
# add padding
## padding의 인자로 'pre'를 주면 길이가 6보다 짧은 샘플의 앞에 0으로 채웁
sequences = pad_sequences(sequences, maxlen=max_len, padding="pre")
sequences

array([[ 0,  0,  0,  0,  2,  3],
       [ 0,  0,  0,  2,  3,  1],
       [ 0,  0,  2,  3,  1,  4],
       [ 0,  2,  3,  1,  4,  5],
       [ 0,  0,  0,  0,  6,  1],
       [ 0,  0,  0,  6,  1,  7],
       [ 0,  0,  0,  0,  8,  1],
       [ 0,  0,  0,  8,  1,  9],
       [ 0,  0,  8,  1,  9, 10],
       [ 0,  8,  1,  9, 10,  1],
       [ 8,  1,  9, 10,  1, 11]], dtype=int32)

In [88]:
sequences = np.array(sequences)
X = sequences[:,:-1]
y = sequences[:,-1]
X.shape, y.shape

((11, 5), (11,))

In [89]:
y

array([ 3,  1,  4,  5,  1,  7,  1,  9, 10,  1, 11], dtype=int32)

In [90]:
y = to_categorical(y, num_classes=vocab_size)
y.shape

(11, 12)

In [91]:
y

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

### Build RNN model

In [92]:
model = Sequential()
model.add(Embedding(vocab_size, 10, input_length=max_len-1))
model.add(SimpleRNN(32))
model.add(Dense(vocab_size, activation="softmax"))
model.summary()

Model: "sequential_7"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_7 (Embedding)      (None, 5, 10)             120       
_________________________________________________________________
simple_rnn_7 (SimpleRNN)     (None, 32)                1376      
_________________________________________________________________
dense_7 (Dense)              (None, 12)                396       
Total params: 1,892
Trainable params: 1,892
Non-trainable params: 0
_________________________________________________________________


In [93]:
model.compile(
    loss="categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"]
)

In [94]:
model.fit(X, y, epochs=200, verbose=2)

Train on 11 samples
Epoch 1/200
11/11 - 1s - loss: 2.4751 - accuracy: 0.2727
Epoch 2/200
11/11 - 0s - loss: 2.4610 - accuracy: 0.2727
Epoch 3/200
11/11 - 0s - loss: 2.4470 - accuracy: 0.3636
Epoch 4/200
11/11 - 0s - loss: 2.4330 - accuracy: 0.3636
Epoch 5/200
11/11 - 0s - loss: 2.4188 - accuracy: 0.3636
Epoch 6/200
11/11 - 0s - loss: 2.4043 - accuracy: 0.2727
Epoch 7/200
11/11 - 0s - loss: 2.3896 - accuracy: 0.3636
Epoch 8/200
11/11 - 0s - loss: 2.3745 - accuracy: 0.3636
Epoch 9/200
11/11 - 0s - loss: 2.3590 - accuracy: 0.3636
Epoch 10/200
11/11 - 0s - loss: 2.3431 - accuracy: 0.3636
Epoch 11/200
11/11 - 0s - loss: 2.3266 - accuracy: 0.3636
Epoch 12/200
11/11 - 0s - loss: 2.3095 - accuracy: 0.3636
Epoch 13/200
11/11 - 0s - loss: 2.2918 - accuracy: 0.3636
Epoch 14/200
11/11 - 0s - loss: 2.2735 - accuracy: 0.3636
Epoch 15/200
11/11 - 0s - loss: 2.2545 - accuracy: 0.3636
Epoch 16/200
11/11 - 0s - loss: 2.2350 - accuracy: 0.3636
Epoch 17/200
11/11 - 0s - loss: 2.2149 - accuracy: 0.3636
Epo

Epoch 142/200
11/11 - 0s - loss: 0.2562 - accuracy: 1.0000
Epoch 143/200
11/11 - 0s - loss: 0.2510 - accuracy: 1.0000
Epoch 144/200
11/11 - 0s - loss: 0.2458 - accuracy: 1.0000
Epoch 145/200
11/11 - 0s - loss: 0.2407 - accuracy: 1.0000
Epoch 146/200
11/11 - 0s - loss: 0.2358 - accuracy: 1.0000
Epoch 147/200
11/11 - 0s - loss: 0.2310 - accuracy: 1.0000
Epoch 148/200
11/11 - 0s - loss: 0.2262 - accuracy: 1.0000
Epoch 149/200
11/11 - 0s - loss: 0.2216 - accuracy: 1.0000
Epoch 150/200
11/11 - 0s - loss: 0.2171 - accuracy: 1.0000
Epoch 151/200
11/11 - 0s - loss: 0.2127 - accuracy: 1.0000
Epoch 152/200
11/11 - 0s - loss: 0.2083 - accuracy: 1.0000
Epoch 153/200
11/11 - 0s - loss: 0.2041 - accuracy: 1.0000
Epoch 154/200
11/11 - 0s - loss: 0.2000 - accuracy: 1.0000
Epoch 155/200
11/11 - 0s - loss: 0.1959 - accuracy: 1.0000
Epoch 156/200
11/11 - 0s - loss: 0.1920 - accuracy: 1.0000
Epoch 157/200
11/11 - 0s - loss: 0.1881 - accuracy: 1.0000
Epoch 158/200
11/11 - 0s - loss: 0.1843 - accuracy: 1.00

<tensorflow.python.keras.callbacks.History at 0x7f80504bb240>

### Predict

In [95]:
def sentence_generation(model, t, current_word, n): # 모델, 토크나이저, 현재 단어, 반복할 횟수
    init_word = current_word # 처음 들어온 단어도 마지막에 같이 출력하기위해 저장
    sentence = ''
    for _ in range(n): # n번 반복
        encoded = t.texts_to_sequences([current_word])[0] # 현재 단어에 대한 정수 인코딩
        encoded = pad_sequences([encoded], maxlen=5, padding='pre') # 데이터에 대한 패딩
        result = model.predict_classes(encoded, verbose=0)
    # 입력한 X(현재 단어)에 대해서 Y를 예측하고 Y(예측한 단어)를 result에 저장.
        for word, index in t.word_index.items(): 
            if index == result: # 만약 예측한 단어와 인덱스와 동일한 단어가 있다면
                break # 해당 단어가 예측 단어이므로 break
        current_word = current_word + ' '  + word # 현재 단어 + ' ' + 예측 단어를 현재 단어로 변경
        sentence = sentence + ' ' + word # 예측 단어를 문장에 저장
    # for문이므로 이 행동을 다시 반복
    sentence = init_word + sentence
    return sentence

In [96]:
sentence_generation(model, t, "경마장에", 4)

'경마장에 있는 말이 뛰고 있다'

In [97]:
sentence_generation(model, t, "그의", 4)

'그의 말이 법이다 오는 말이'

In [98]:
sentence_generation(model, t, "말이", 4)

'말이 말이 고와야 오는 말이'