# 글자 단위 RNN 언어 모델(Char RNNLM)
- https://wikidocs.net/48649
- 입출력의 단위를 단어 레벨(word-level)에서 글자 레벨(character-level)로 변경하여 RNN을 구현

## Import

In [20]:
import numpy as np
import urllib.request

from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, TimeDistributed

## Load dataset
- '이상한 나라의 앨리스(Alice’s Adventures in Wonderland)'라는 소설을 다운로드
- 다운로드 링크 : http://www.gutenberg.org/files/11/11-0.txt

In [2]:
urllib.request.urlretrieve("http://www.gutenberg.org/files/11/11-0.txt", filename="11-0.txt")
f = open('11-0.txt', 'rb')
lines=[]
for line in f: 
    line=line.strip() # strip()을 통해 \r, \n을 제거한다.
    line=line.lower() 
    line=line.decode('ascii', 'ignore') # \xe2\x80\x99 등과 같은 바이트 열 제거
    if len(line) > 0:
        lines.append(line)
f.close()

lines[:5]

['the project gutenberg ebook of alices adventures in wonderland, by lewis carroll',
 'this ebook is for the use of anyone anywhere at no cost and with',
 'almost no restrictions whatsoever.  you may copy it, give it away or',
 're-use it under the terms of the project gutenberg license included',
 'with this ebook or online at www.gutenberg.org']

In [3]:
text = " ".join(lines)
print(f"텍스트의 길이/총 글자의 개수: {len(text)}")

텍스트의 길이/총 글자의 개수: 159612


영어가 훈련 데이터일 때 대부분의 경우에서 글자 집합의 크기가 단어 집합을 사용했을 경우보다 집합의 크기가 현저히 작다는 특징이 있습니다. 아무리 훈련 코퍼스에 수십만 개 이상의 많은 영어 단어가 존재한다고 하더라도, 영어 단어를 표현하기 위해서 글자 집합에 포함되는 글자는 26개의 알파벳뿐이기 때문입니다. 만약 훈련 데이터의 알파벳이 대, 소문자가 구분된 상태라고 하더라도 모든 영어 단어는 총 52개의 알파벳으로 표현 가능합니다.

어떤 방대한 양의 텍스트라도 집합의 크기를 적게 가져갈 수 있다는 것은 구현과 테스트를 굉장히 쉽게 할 수 있다는 이점을 가지므로, RNN의 동작 메커니즘 이해를 위한 토이 프로젝트로 굉장히 많이 사용됩니다. 

In [4]:
char_vocab = sorted(list(set(text)))
vocab_size=len(char_vocab)
print(f"글자 집합의 크기:{vocab_size}")

글자 집합의 크기:57


In [6]:
char_to_index = {c:i for i, c in enumerate(char_vocab)}
print(char_to_index)

{' ': 0, '!': 1, '"': 2, '#': 3, '$': 4, '%': 5, "'": 6, '(': 7, ')': 8, '*': 9, ',': 10, '-': 11, '.': 12, '/': 13, '0': 14, '1': 15, '2': 16, '3': 17, '4': 18, '5': 19, '6': 20, '7': 21, '8': 22, '9': 23, ':': 24, ';': 25, '?': 26, '@': 27, '[': 28, ']': 29, '_': 30, 'a': 31, 'b': 32, 'c': 33, 'd': 34, 'e': 35, 'f': 36, 'g': 37, 'h': 38, 'i': 39, 'j': 40, 'k': 41, 'l': 42, 'm': 43, 'n': 44, 'o': 45, 'p': 46, 'q': 47, 'r': 48, 's': 49, 't': 50, 'u': 51, 'v': 52, 'w': 53, 'x': 54, 'y': 55, 'z': 56}


In [7]:
index_to_char = {i:c for c, i in char_to_index.items()}
print(index_to_char)

{0: ' ', 1: '!', 2: '"', 3: '#', 4: '$', 5: '%', 6: "'", 7: '(', 8: ')', 9: '*', 10: ',', 11: '-', 12: '.', 13: '/', 14: '0', 15: '1', 16: '2', 17: '3', 18: '4', 19: '5', 20: '6', 21: '7', 22: '8', 23: '9', 24: ':', 25: ';', 26: '?', 27: '@', 28: '[', 29: ']', 30: '_', 31: 'a', 32: 'b', 33: 'c', 34: 'd', 35: 'e', 36: 'f', 37: 'g', 38: 'h', 39: 'i', 40: 'j', 41: 'k', 42: 'l', 43: 'm', 44: 'n', 45: 'o', 46: 'p', 47: 'q', 48: 'r', 49: 's', 50: 't', 51: 'u', 52: 'v', 53: 'w', 54: 'x', 55: 'y', 56: 'z'}


In [8]:
# text 문자열로부터 다수의 문장 샘플들로 분리
seq_length = 60 # 문장의 길이
n_samples = int(np.floor((len(text) - 1) / seq_length))
print(f"문장 샘플의 수: {n_samples}")

문장 샘플의 수: 2660


In [15]:
x_train = []
y_train = []
for i in range(n_samples):
    x_sample = text[i*seq_length:(i+1)*seq_length]
    x_encoded = [char_to_index[c] for c in x_sample]
    x_train.append(x_encoded)
    
    y_sample = text[i*seq_length+1:(i+1)*seq_length+1]
    y_encoded = [char_to_index[c] for c in y_sample]
    y_train.append(y_encoded)
len(x_train), len(y_train)

(2660, 2660)

In [16]:
x_train = to_categorical(x_train)
y_train = to_categorical(y_train)
x_train.shape, y_train.shape

((2660, 60, 57), (2660, 60, 57))

## build model

In [22]:
model = Sequential()
model.add(LSTM(256, input_shape=(None, x_train.shape[2]), return_sequences=True))
model.add(LSTM(256, return_sequences=True))
model.add(TimeDistributed(Dense(vocab_size, activation="softmax")))
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
lstm (LSTM)                  (None, None, 256)         321536    
_________________________________________________________________
lstm_1 (LSTM)                (None, None, 256)         525312    
_________________________________________________________________
time_distributed (TimeDistri (None, None, 57)          14649     
Total params: 861,497
Trainable params: 861,497
Non-trainable params: 0
_________________________________________________________________


In [24]:
model.compile(
    loss="categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"]
)

In [25]:
model.fit(x_train, y_train, epochs=80, verbose=2)

Train on 2660 samples
Epoch 1/80
2660/2660 - 22s - loss: 3.0684 - accuracy: 0.1830
Epoch 2/80
2660/2660 - 20s - loss: 2.7321 - accuracy: 0.2480
Epoch 3/80
2660/2660 - 21s - loss: 2.3909 - accuracy: 0.3278
Epoch 4/80
2660/2660 - 21s - loss: 2.2405 - accuracy: 0.3654
Epoch 5/80
2660/2660 - 21s - loss: 2.1263 - accuracy: 0.3929
Epoch 6/80
2660/2660 - 21s - loss: 2.0399 - accuracy: 0.4133
Epoch 7/80
2660/2660 - 21s - loss: 1.9688 - accuracy: 0.4321
Epoch 8/80
2660/2660 - 21s - loss: 1.9077 - accuracy: 0.4468
Epoch 9/80
2660/2660 - 21s - loss: 1.8500 - accuracy: 0.4634
Epoch 10/80
2660/2660 - 21s - loss: 1.7999 - accuracy: 0.4774
Epoch 11/80
2660/2660 - 21s - loss: 1.7558 - accuracy: 0.4897
Epoch 12/80
2660/2660 - 21s - loss: 1.7118 - accuracy: 0.5010
Epoch 13/80
2660/2660 - 21s - loss: 1.6704 - accuracy: 0.5115
Epoch 14/80
2660/2660 - 21s - loss: 1.6323 - accuracy: 0.5219
Epoch 15/80
2660/2660 - 21s - loss: 1.5947 - accuracy: 0.5316
Epoch 16/80
2660/2660 - 21s - loss: 1.5621 - accuracy: 0.

<tensorflow.python.keras.callbacks.History at 0x7f82d2e5b908>

In [34]:
def sentence_generation(model, length):
    ix = [np.random.randint(vocab_size)] # 글자에 대한 랜덤 인덱스 생성
    y_char = [index_to_char[ix[-1]]]
    print(f"{ix[-1]}번 글자 {y_char[-1]}로 예측 시작")
    X = np.zeros((1, length, vocab_size))
    
    for i in range(length):
        X[0][i][ix[-1]] = 1
        print(index_to_char[ix[-1]], end="")
        ix = np.argmax(model.predict(X[:,:i+1,:])[0], 1)
        y_char.append(index_to_char[ix[-1]])
    return "".join(y_char)

In [41]:
sentence = sentence_generation(model, 30)
sentence

44번 글자 n로 예측 시작
nd stupid for life to go on in

'nd stupid for life to go on in '