지금까지 배운 RNN은 전부 입력과 출력의 단위가 단어 벡터였다. 하지만 입출력의 단위를 단어 레벨(word-level)에서 문자 레벨(character-level)로 변경해서 RNN을 구현할 수도 있다.

![그림 1](./images/section7/그림_1.png)

위의 그림은 문자 단위 RNN을 다 대 다(Many-to-Many) 구조로 구현한 경우, 다 대 일(Many-to-One) 구조로 구현한 경우 두 가지를 보여준다. 이번 세션에선  두 가지 모두 구현해볼 것이다. 

첫번째로 구현할 것은 다 대 다 구조를 이용한 언어 모델이다.

# 1. 문자 단위 RNN 언어 모델(Char RNNLM)
---

이전 시점의 예측 문자를 다음 시점의 입력으로 사용하는 문자 단위 RNN 언어 모델을 구현해보자. 이전 세션에서 배운 단어 단위의 RNN 언어 모델과 다른 점은 **단어 단위가 아니라 문자 단위를 입, 출력으로 사용**하므로 **임베딩층(embedding layer)을 여기서는 사용하지 않는다.** 여기서는 언어 모델의 훈련 과정과 테스트 과정의 차이를 이해하는데 집중한다.

다운로드 링크 : http://www.gutenberg.org/files/11/11-0.txt

고전 소설들은 저작권에 보호받지 않으므로 무료로 다운받을 수 있다. 위의 링크에서 '이상한 나라의 앨리스(Alice’s Adventures in Wonderland)'라는 소설을 다운로드하자.

## 1) 데이터에 대한 이해와 전처리

먼저 데이터를 로드하고 특수문자를 제거하고 단어를 소문자화하는 간단한 전처리를 수행한다.

In [2]:
import numpy as np
import urllib.request
from tensorflow.keras.utils import to_categorical

# 데이터 로드
urllib.request.urlretrieve("http://www.gutenberg.org/files/11/11-0.txt", filename="11-0.txt")

f = open('11-0.txt', 'rb')
sentences = []
for sentence in f: # 데이터로부터 한 줄씩 읽는다.
    sentence = sentence.strip() # strip()을 통해 \r, \n을 제거한다.
    sentence = sentence.lower() # 소문자화.
    sentence = sentence.decode('ascii', 'ignore') # \xe2\x80\x99 등과 같은 바이트 열 제거
    if len(sentence) > 0:
        sentences.append(sentence)
f.close()

In [3]:
sentences[:5]

['the project gutenberg ebook of alices adventures in wonderland, by lewis carroll',
 'this ebook is for the use of anyone anywhere in the united states and',
 'most other parts of the world at no cost and with almost no restrictions',
 'whatsoever. you may copy it, give it away or re-use it under the terms',
 'of the project gutenberg license included with this ebook or online at']

리스트의 원소는 문자열로 구성되어져 있는데, 이것들은 의미있게 문장 토큰화가 된 상태는 아니다. 이를 하나의 문자열로 통합해보자.

In [4]:
total_data = ' '.join(sentences)
print('문자열의 길이 또는 총 문자의 개수: %d' % len(total_data))
print(total_data[:100])

문자열의 길이 또는 총 문자의 개수: 159484
the project gutenberg ebook of alices adventures in wonderland, by lewis carroll this ebook is for t


기존에는 중복을 제거한 단어들의 모음인 단어 집합(vocabulary)을 만들었으나, 이번에 만들 집합은 단어 집합이 아니라 문자 집합이다. 이 문자열로부터 문자 집합을 만들도록 하자. 

In [5]:
char_vocab = sorted(list(set(total_data)))
vocab_size = len(char_vocab)
print('문자 집합의 크기 : {}'.format(vocab_size))
print('Unique한 문자 집합 : ',char_vocab)

문자 집합의 크기 : 56
Unique한 문자 집합 :  [' ', '!', '"', '#', '$', '%', "'", '(', ')', '*', ',', '-', '.', '/', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '?', '[', ']', '_', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']


영어가 훈련 데이터일 때 문자 집합의 크기는 단어 집합을 사용했을 경우보다 집합의 크기가 현저히 작다. 아무리 **훈련 코퍼스에 수십만 개 이상의 많은 영어 단어가 존재한다고 하더라도, 영어 단어를 표현하기 위해서 사용되는 문자는 26개의 알파벳뿐이기 때문**이다. 만약 훈련 데이터의 알파벳이 대, 소문자가 구분된 상태라고 하더라도 모든 영어 단어는 총 52개의 알파벳으로 표현 가능하다.

어떤 방대한 양의 텍스트라도 집합의 크기를 적게 가져갈 수 있다는 것은 구현과 테스트를 굉장히 쉽게 할 수 있다는 이점을 가지므로, RNN의 동작 메커니즘 이해를 위한 토이 프로젝트 용도로 유용하다. 문자 집합의 각 문자에 정수를 부여하고 출력하자.

In [6]:
# 문자에 고유한 인덱스 부여
char_to_index = dict((char, index) for index, char in enumerate(char_vocab))
print('문자 집합 :',char_to_index)

# 인덱스를 문자로
index_to_char = {}
for key, value in char_to_index.items():
    index_to_char[value] = key

문자 집합 : {' ': 0, '!': 1, '"': 2, '#': 3, '$': 4, '%': 5, "'": 6, '(': 7, ')': 8, '*': 9, ',': 10, '-': 11, '.': 12, '/': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, ';': 25, '?': 26, '[': 27, ']': 28, '_': 29, 'a': 30, 'b': 31, 'c': 32, 'd': 33, 'e': 34, 'f': 35, 'g': 36, 'h': 37, 'i': 38, 'j': 39, 'k': 40, 'l': 41, 'm': 42, 'n': 43, 'o': 44, 'p': 45, 'q': 46, 'r': 47, 's': 48, 't': 49, 'u': 50, 'v': 51, 'w': 52, 'x': 53, 'y': 54, 'z': 55}


정수 0부터 28까지는 공백을 포함한 각종 구두점, 특수문자가 존재하고, 정수 29부터 54까지는 a부터 z까지 총 26개의 알파벳 소문자가 문자 집합에 포함되어있다. 

이제 학습 데이터를 구성해보자. 학습 데이터 구성을 위한 간소화된 예를 들겠다. 훈련 데이터에 apple이라는 시퀀스가 있고 입력의 길이를 4라고 정하였을 때, 데이터의 구성은 어떻게 될까? 입력의 길이가 4이므로 입력 시퀀스와 예측해야 하는 출력 시퀀스 모두 길이는 4가 된다. 다시 말해 **RNN은 총 네 번의 시점을(timestep)을 가질 수 있다는 의미**이다. apple은 다섯 글자이지만 입력의 길이는 4이므로 'appl'까지만 입력으로 사용할 수 있다. 그리고 언어 모델은 다음 시점의 입력을 예측해야하는 모델이므로 **'pple'를 예측**하도록 데이터가 구성됩니다.

```python
# appl (입력 시퀀스) -> pple (예측해야하는 시퀀스)
train_X = 'appl'
train_y = 'pple'
```

이제 15만 9천의 길이를 가진 문자열로부터 다수의 샘플들을 만들어보자. **데이터를 만드는 방법은 문장 샘플의 길이를 정하고, 해당 길이만큼 문자열 전체를 등분하는 것**이다. 여기서는 문장의 길이를 60으로 정했는데, 샘플의 수는 15만 9천을 60으로 나눈 수가 된다. 몇 개의 샘플을 만들 수 있을지 그 개수를 계산해보자.

In [7]:
seq_length = 60

# 문자열의 길이를 seq_length로 나누면 전처리 후 생겨날 샘플 수
n_samples = int(np.floor((len(total_data) - 1) / seq_length))
print ('생겨날 샘플의 수 : {}'.format(n_samples))

생겨날 샘플의 수 : 2658


이제 전처리를 진행하자. 전처리가 어떻게 진행되었는지는 전처리 후 얻은 train_X와 train_y를 통해 설명하겠습니다.

In [8]:
train_X = []
train_y = []

for i in range(n_samples):
    # 0:60 -> 60:120 -> 120:180로 loop를 돌면서  60개 문자 단위로 문장 샘플을 1개씩 pick.
    X_sample = total_data[i * seq_length: (i + 1) * seq_length]

    # 정수 인코딩 -> char_to_index로 만들어 놓은 인덱싱을 부여
    X_encoded = [char_to_index[c] for c in X_sample]
    train_X.append(X_encoded)

    # 오른쪽으로 1칸 쉬프트 -> 왜냐하면 입력으로 a p p l 을 넣으면 정답으로 p p l e를 내야하므로
    y_sample = total_data[i * seq_length + 1: (i + 1) * seq_length + 1]
    y_encoded = [char_to_index[c] for c in y_sample]
    train_y.append(y_encoded)

print('X 데이터의 첫번째 샘플 :',train_X[0])
print('y 데이터의 첫번째 샘플 :',train_y[0])
print('-'*50)
print('X 데이터의 첫번째 샘플 디코딩 :',[index_to_char[i] for i in train_X[0]])
print('y 데이터의 첫번째 샘플 디코딩 :',[index_to_char[i] for i in train_y[0]])

X 데이터의 첫번째 샘플 : [49, 37, 34, 0, 45, 47, 44, 39, 34, 32, 49, 0, 36, 50, 49, 34, 43, 31, 34, 47, 36, 0, 34, 31, 44, 44, 40, 0, 44, 35, 0, 30, 41, 38, 32, 34, 48, 0, 30, 33, 51, 34, 43, 49, 50, 47, 34, 48, 0, 38, 43, 0, 52, 44, 43, 33, 34, 47, 41, 30]
y 데이터의 첫번째 샘플 : [37, 34, 0, 45, 47, 44, 39, 34, 32, 49, 0, 36, 50, 49, 34, 43, 31, 34, 47, 36, 0, 34, 31, 44, 44, 40, 0, 44, 35, 0, 30, 41, 38, 32, 34, 48, 0, 30, 33, 51, 34, 43, 49, 50, 47, 34, 48, 0, 38, 43, 0, 52, 44, 43, 33, 34, 47, 41, 30, 43]
--------------------------------------------------
X 데이터의 첫번째 샘플 디코딩 : ['t', 'h', 'e', ' ', 'p', 'r', 'o', 'j', 'e', 'c', 't', ' ', 'g', 'u', 't', 'e', 'n', 'b', 'e', 'r', 'g', ' ', 'e', 'b', 'o', 'o', 'k', ' ', 'o', 'f', ' ', 'a', 'l', 'i', 'c', 'e', 's', ' ', 'a', 'd', 'v', 'e', 'n', 't', 'u', 'r', 'e', 's', ' ', 'i', 'n', ' ', 'w', 'o', 'n', 'd', 'e', 'r', 'l', 'a']
y 데이터의 첫번째 샘플 디코딩 : ['h', 'e', ' ', 'p', 'r', 'o', 'j', 'e', 'c', 't', ' ', 'g', 'u', 't', 'e', 'n', 'b', 'e', 'r', 'g', ' ', 'e',

train_y의 원소는 train_X의 같은 인덱스의 원소에서 오른쪽으로 한 칸 쉬프트 된 문장이다.

이제 train_X와 train_y에 대해서 원-핫 인코딩을 수행하자. 문자 단위 RNN에서는 입력 시퀀스에 대해서 워드 임베딩을 하지 않는다. 다시 말해 임베딩층(embedding layer)을 사용하지 않을 것이므로, 입력 시퀀스인 train_X에 대해서도 원-핫 인코딩을 한다.

**아.. 임베딩층을 사용하면 원-핫을 하지 않아도 되는구나!!**

원-핫 인코딩을 하게되면, 총 샘플의 수만큼 batch가 생성되는 것이고, 학습 데이터의 list에 각각의 원소는 60개씩 들어있으므로, timesteps이 60이라고 볼 수 있다. 그리고 문자의 개수가 총 56개 이므로, 원-핫 인코딩으로 얻게 되는 3D 텐서의 shape은 (2658,60,56)이다.

In [9]:
train_X = to_categorical(train_X)
train_y = to_categorical(train_y)

print('train_X의 크기(shape) : {}'.format(train_X.shape)) # 원-핫 인코딩
print('train_y의 크기(shape) : {}'.format(train_y.shape)) # 원-핫 인코딩

train_X의 크기(shape) : (2658, 60, 56)
train_y의 크기(shape) : (2658, 60, 56)


## 2) 모델 설계하기

다음 조건으로 모델을 설계하라.

* 하이퍼파라미터인 은닉 상태의 크기는 256임.
* 모델은 다 대 다 구조의 LSTM을 사용하며, LSTM 은닉층은 두 개를 사용함.
* 전결합층(Fully Connected Layer)을 출력층으로 문자 집합 크기만큼의 뉴런을 배치하여 모델을 설계.
* 해당 모델은 모든 시점에서 모든 가능한 문자 중 하나의 문자를 예측하는 다중 클래스 분류 문제를 수행하는 모델임을 고려해 출력층의 활성화 함수로는 소프트맥스 함수를 사용하고, 손실 함수로 크로스 엔트로피 함수를 사용.
* Epoch는 80으로 수행.



In [12]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, TimeDistributed

hidden_dim = 256
num_epoch = 80

model = Sequential()
# 여기서 input_shape이 (None,train_X.shape[2])가 되어있다. 이 뜻은 timestep은 어떻게 들어오든 상관 없다.(None) 
# 그러나 문자의 차원은 train_X.shape[2]로 고정이다. 라는 느낌인 것 같다.
model.add(LSTM(hidden_dim,input_shape=(None,train_X.shape[2]),return_sequences=True)) 
model.add(LSTM(hidden_dim,return_sequences=True))

자, 여기서 짚고 넘어가야할 것이 있다. 책에는 따로 설명이 나와있지 않는데.. 이런건 설명해줘야하지 않았나 싶다.
우리가 지금 만들고 있는 모델을 이전 section6에서 배웠던 다 대 일 모델이 아닌 다 대 다 모델이다. 그렇다는 것은 LSTM에서 모든 시점에서 출력 값이 나온다는 이야기다.

만약 다 대 일 모델을 만들고 있었다면 마지막 시점에서만 출력 값이 나와서 Dense layer를 하나만 사용하면 된다. 그런데 다 대 다 모델은 모든 시점에서 출력이 나오니까 모든 시점에 대해 각각 Dense layer를 적용해 줘야한다. 이걸 어떻게 코딩을 해야할까? 바로 **TimeDistributed**를 사용하면 된다!! 그럼 Dense layer를 모든 시점에 대해 뿌려줘서 다 대 다 모델을 만들 수 있는 것이다. 더 자세한 설명이나 예시는 [링크](https://github.com/keras-team/keras-docs-ko/blob/master/sources/layers/wrappers.md)를 참고하자.

In [13]:
model.add(TimeDistributed(Dense(vocab_size,activation='softmax')))
model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
model.fit(train_X,train_y,epochs=num_epoch,verbose=1)

Epoch 1/80
Epoch 2/80
Epoch 3/80
Epoch 4/80
Epoch 5/80
Epoch 6/80
Epoch 7/80
Epoch 8/80
Epoch 9/80
Epoch 10/80
Epoch 11/80
Epoch 12/80
Epoch 13/80
Epoch 14/80
Epoch 15/80
Epoch 16/80
Epoch 17/80
Epoch 18/80
Epoch 19/80
Epoch 20/80
Epoch 21/80
Epoch 22/80
Epoch 23/80
Epoch 24/80
Epoch 25/80
Epoch 26/80
Epoch 27/80
Epoch 28/80
Epoch 29/80
Epoch 30/80
Epoch 31/80
Epoch 32/80
Epoch 33/80
Epoch 34/80
Epoch 35/80
Epoch 36/80
Epoch 37/80
Epoch 38/80
Epoch 39/80
Epoch 40/80
Epoch 41/80
Epoch 42/80
Epoch 43/80
Epoch 44/80
Epoch 45/80
Epoch 46/80
Epoch 47/80
Epoch 48/80
Epoch 49/80
Epoch 50/80
Epoch 51/80
Epoch 52/80
Epoch 53/80
Epoch 54/80
Epoch 55/80
Epoch 56/80
Epoch 57/80
Epoch 58/80
Epoch 59/80
Epoch 60/80
Epoch 61/80
Epoch 62/80
Epoch 63/80
Epoch 64/80
Epoch 65/80
Epoch 66/80
Epoch 67/80
Epoch 68/80
Epoch 69/80
Epoch 70/80
Epoch 71/80
Epoch 72/80
Epoch 73/80
Epoch 74/80
Epoch 75/80
Epoch 76/80
Epoch 77/80
Epoch 78/80
Epoch 79/80
Epoch 80/80


<keras.callbacks.History at 0x7fd884510c10>

#### 특정 문자를 주면 다음 문자를 계속해서 생성해내는 sentence_generation 함수를 구현하자. 

학습된 모델과 문자의 길이를 입력하면, 랜덤하게 시작 문자를 선택해 길이 만큼의 문장을 생성하는 함수이다.

In [16]:
def sentence_generation(model, length):
    # 문자에 대한 랜덤한 정수 생성
    ix = [np.random.randint(vocab_size)]

    # 랜덤한 정수로부터 맵핑되는 문자 생성
    y_char = [index_to_char[ix[-1]]]
    print(ix[-1],'번 문자',y_char[-1],'로 예측을 시작!')

    # (1, length, 55) 크기의 X 생성. 즉, LSTM의 입력 시퀀스 생성
    X = np.zeros((1, length, vocab_size))

    for i in range(length):
        # X[0][i][예측한 문자의 인덱스] = 1, 즉, 예측 문자를 다음 입력 시퀀스에 추가
        X[0][i][ix[-1]] = 1
        print(index_to_char[ix[-1]], end="")
        ix = np.argmax(model.predict(X[:, :i+1, :])[0], 1)
        y_char.append(index_to_char[ix[-1]])
    return ('').join(y_char)

result = sentence_generation(model, 100)
print(result)

51 번 문자 v 로 예측을 시작!
ve herself very good advice, (though she very seldom followed upen the offities of charcious your ver


**이상한 문장이지만 어쨌든, 그럴싸한 문장이 생성되는게 신기하다!!!** 이렇게 다 대 다 모델을 학습해봤다.

<br/><br/>

# 2. 문자 단위 RNN(Char RNN)으로 텍스트 생성하기
---

이번에는 다 대 일 구조의 RNN을 문자 단위로 학습시키고, 텍스트 생성을 해보자.


## 1) 데이터에 대한 이해와 전처리

이번 예제는 책의 저자가 임의로 작성한 엉터리 노래 가사로 주어진다.


In [17]:
import numpy as np
from tensorflow.keras.utils import to_categorical

raw_text = '''
I get on with life as a programmer,
I like to contemplate beer.
But when I start to daydream,
My mind turns straight to wine.

Do I love wine more than beer?

I like to use words about beer.
But when I stop my talking,
My mind turns straight to wine.

I hate bugs and errors.
But I just think back to wine,
And I'm happy once again.

I like to hang out with programming and deep learning.
But when left alone,
My mind turns straight to wine.
'''


위의 텍스트에 존재하는 단락 구분을 없애고 하나의 문자열로 재저장하자.

In [19]:
tokens = raw_text.split()
raw_text = ' '.join(tokens)
print(raw_text)

I get on with life as a programmer, I like to contemplate beer. But when I start to daydream, My mind turns straight to wine. Do I love wine more than beer? I like to use words about beer. But when I stop my talking, My mind turns straight to wine. I hate bugs and errors. But I just think back to wine, And I'm happy once again. I like to hang out with programming and deep learning. But when left alone, My mind turns straight to wine.


단락 구분이 없어지고 하나의 문자열로 재저장되었다. 이로부터 문자 집합을 만들어보자. 기존에는 중복을 제거한 단어들의 모음인 단어 집합(vocabulary)을 만들었으나, 이번에 만들 집합은 단어 집합이 아니라 **문자 집합**임을 잊지말자. 중복을 제거한 문자 집합을 생성하고, 고유 인덱스를 부여하자.


In [24]:
# 중복을 제거한 문자 집합 생성
char_vocab = sorted(list(set(raw_text)))
vocab_size = len(char_vocab)
print('문자 집합 :',char_vocab)
print ('문자 집합의 크기 : {}'.format(vocab_size))
print("--"*20)
char_to_index = dict((char, index) for index, char in enumerate(char_vocab)) # 문자에 고유한 정수 인덱스 부여
print("고유 인덱스 정보 : ",char_to_index)

문자 집합 : [' ', "'", ',', '.', '?', 'A', 'B', 'D', 'I', 'M', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'w', 'y']
문자 집합의 크기 : 33
----------------------------------------
고유 인덱스 정보 :  {' ': 0, "'": 1, ',': 2, '.': 3, '?': 4, 'A': 5, 'B': 6, 'D': 7, 'I': 8, 'M': 9, 'a': 10, 'b': 11, 'c': 12, 'd': 13, 'e': 14, 'f': 15, 'g': 16, 'h': 17, 'i': 18, 'j': 19, 'k': 20, 'l': 21, 'm': 22, 'n': 23, 'o': 24, 'p': 25, 'r': 26, 's': 27, 't': 28, 'u': 29, 'v': 30, 'w': 31, 'y': 32}


두번째 실습의 문자 집합의 경우, 훈련 데이터에 등장한 알파벳의 대/소문자를 구분하고 구두점과 공백을 포함했다. 

이제 학습에 사용할 문장 샘플들을 만들어보자. 여기서는 RNN을 이용한 생성한 텍스트 챕터와 유사하게 데이터를 구성한다. 다만, 단위가 문자 단위라는 점이 다르다. 예를 들어 학습 데이터에 student라는 단어가 있고, 입력 시퀀스의 길이를 5라고 한다면 입력 시퀀스와 예측해야하는 문자는 다음과 같이 구성된다.

* stude -> n
* tuden -> t

이번 실습에선 입력 시퀀스의 길이가 10가 되도록 데이터를 구성한다. 예측 대상인 문자도 필요하므로 길이가 11이 되도록 데이터를 구성하고 나중에 쪼개자.


In [29]:
length = 11
sequences = []
for i in range(length, len(raw_text)):
    seq = raw_text[i-length:i] # 길이 11의 문자열을 지속적으로 만든다.
    sequences.append(seq)
print('총 훈련 샘플의 수: %d' % len(sequences))
print("샘플 10개만 출력해보자.")
for s in sequences[:10] :
    print(s)

총 훈련 샘플의 수: 426
샘플 10개만 출력해보자.
I get on wi
 get on wit
get on with
et on with 
t on with l
 on with li
on with lif
n with life
 with life 
with life a


이제 앞서 만든 char_to_index를 사용하여 전체 데이터에 대해서 정수 인코딩을 수행한다.

In [31]:
encoded_sequences = []
for sequence in sequences :
    temp_sequence = [char_to_index[char] for char in sequence]
    encoded_sequences.append(temp_sequence)

print("샘플 10개만 출력해보자.")
for i in range(10) :
    print("원본 샘플 : ",sequences[i])
    print("정수 인코딩 된 샘플 : ",encoded_sequences[i])
    print("--"*20)

샘플 10개만 출력해보자.
원본 샘플 :  I get on wi
정수 인코딩 된 샘플 :  [8, 0, 16, 14, 28, 0, 24, 23, 0, 31, 18]
----------------------------------------
원본 샘플 :   get on wit
정수 인코딩 된 샘플 :  [0, 16, 14, 28, 0, 24, 23, 0, 31, 18, 28]
----------------------------------------
원본 샘플 :  get on with
정수 인코딩 된 샘플 :  [16, 14, 28, 0, 24, 23, 0, 31, 18, 28, 17]
----------------------------------------
원본 샘플 :  et on with 
정수 인코딩 된 샘플 :  [14, 28, 0, 24, 23, 0, 31, 18, 28, 17, 0]
----------------------------------------
원본 샘플 :  t on with l
정수 인코딩 된 샘플 :  [28, 0, 24, 23, 0, 31, 18, 28, 17, 0, 21]
----------------------------------------
원본 샘플 :   on with li
정수 인코딩 된 샘플 :  [0, 24, 23, 0, 31, 18, 28, 17, 0, 21, 18]
----------------------------------------
원본 샘플 :  on with lif
정수 인코딩 된 샘플 :  [24, 23, 0, 31, 18, 28, 17, 0, 21, 18, 15]
----------------------------------------
원본 샘플 :  n with life
정수 인코딩 된 샘플 :  [23, 0, 31, 18, 28, 17, 0, 21, 18, 15, 14]
----------------------------------------
원본 샘플 :   with life 
정수 인코딩 된 샘

이제 입력 데이터 X_data와 정답 데이터 y_data를 분리해주자. 그리고 X_data와 y_data에 원-핫 인코딩을 수행하자.

In [39]:
encoded_sequences = np.array(encoded_sequences)
X_data = to_categorical(encoded_sequences[:,:-1],num_classes=vocab_size)
y_data = to_categorical(encoded_sequences[:,-1],num_classes=vocab_size)

print(X_data.shape)
print(y_data.shape)

(426, 10, 33)
(426, 33)


X_data는 426의 샘플 수와 10의 timesteps, 그리고 33의 문자의 차원 수를 얻는다. 

## 2) 모델 설계하기

다음의 조건을 갖는 모델을 설계하라.

* 하이퍼파라미터인 은닉 상태의 크기는 64임.
* 모델은 다 대 일 구조의 LSTM을 사용함.
* 전결합층(Fully Connected Layer)을 출력층으로 문자 집합 크기만큼의 뉴런을 배치하여 모델을 설계함.
* 해당 모델은 마지막 시점에서 모든 가능한 문자 중 하나의 문자를 예측하는 다중 클래스 분류 문제를 수행하는 모델이므로 활성화 함수로는 소프트맥스 함수를 사용하고, 손실 함수로 크로스 엔트로피 함수를 사용함.
* Epoch는 100을 수행.

이번엔 다 대 일 이므로 Timedistributed를 사용하지 않아도 된다.

In [45]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM
from tensorflow.keras.preprocessing.sequence import pad_sequences

hidden_dim = 128
num_epoch = 100

model = Sequential()
model.add(LSTM(hidden_dim,input_shape=(None,X_data.shape[2]),return_sequences = False))
model.add(Dense(vocab_size,activation='softmax'))
model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])
model.fit(X_data,y_data,epochs=num_epoch,verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.callbacks.History at 0x7fd7f1b6b670>

문장을 생성하는 함수 sentence_generation을 만들어서 문장을 생성해보자. 해당 함수는 문자열을 입력하면, 해당 문자열로부터 다음 문자를 예측하고 입력 문자열에 쌓아가는 것을 반복하여 최종적으로 문장을 완성한다.

In [46]:
def sentence_generation(model, char_to_index, seq_length, seed_text, n):

    # 초기 시퀀스
    init_text = seed_text
    sentence = ''

    # 다음 문자 예측은 총 n번만 반복.
    for _ in range(n):
        encoded = [char_to_index[char] for char in seed_text] # 현재 시퀀스에 대한 정수 인코딩
        encoded = pad_sequences([encoded], maxlen=seq_length, padding='pre') # 데이터에 대한 패딩
        encoded = to_categorical(encoded, num_classes=len(char_to_index))

        # 입력한 X(현재 시퀀스)에 대해서 y를 예측하고 y(예측한 문자)를 result에 저장.
        result = model.predict(encoded, verbose=0)
        result = np.argmax(result, axis=1)

        for char, index in char_to_index.items():
            if index == result:
                break

        # 현재 시퀀스 + 예측 문자를 현재 시퀀스로 변경
        seed_text = seed_text + char

        # 예측 문자를 문장에 저장
        sentence = sentence + char

    # n번의 다음 문자 예측이 끝나면 최종 완성된 문장을 리턴.
    sentence = init_text + sentence
    return sentence

print(sentence_generation(model, char_to_index, 10, 'I get on w', 80))

I get on with life as a programmer, I like to contemplate beer. But when I start to daydre


ㅋㅋㅋ 뭔가 말이 될 것 같은 문장인데 조금 이상하네~ 어쨌든 뭔가 말이 되는 거 같은 문장을 만들어준다. 신기해~!!