# 훈련 데이터셋 만들기
케라스의 get_file() 을 이용해 셰익스피어 작품을 다운로드합니다.

In [1]:
import tensorflow as tf
from tensorflow import keras

In [2]:
shakespeare_url = 'https://homl.info/shakespeare'
filepath = keras.utils.get_file('shakespeare.txt', shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

Downloading data from https://homl.info/shakespeare


모든 글자를 정수로 인코딩해야합니다.<br>
케라스의 Tokenizer 클래스를 사용하겠습니다.

Tokenizer는 텍스트에서 사용되는 모든 글자를 찾아 각기 다른 글자 ID에 매핑합니다.<br>
이 ID는 1부터 시작해 고유한 글자 개수까지 만들어집니다.

In [3]:
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)
tokenizer.fit_on_texts(shakespeare_text)

char_level=True로 지정하여 단어 수준 인코딩 대신 글자 수준 인코딩을 합니다.<br>
이 클래스는 기본적으로 텍스트를 소문자로 만듭니다. 이를 원하지 않으면 lower=False로 설정합니다.

이제 문장을 글자ID로 인코딩하거나 반대로 디코딩할 수 있습니다.<br>
이를 통해 텍스트의 고유 글자 개수와 전체 글자 개수를 알 수 있습니다.

In [4]:
tokenizer.texts_to_sequences(['FIrst'])

[[20, 6, 9, 8, 3]]

In [5]:
tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])

['f i r s t']

In [6]:
max_id = len(tokenizer.word_index)  # 고유 글자 수
max_id

39

In [8]:
dataset_size = tokenizer.document_count  # 전체 글자 수
dataset_size

1115394

전체 텍스트를 인코딩해 각 글자를 ID로 나타내겠습니다.<br>
1에서 39 대신 0에서 38로 나타내기 위해 1을 빼줬습니다.

In [16]:
import numpy as np
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1
encoded

array([19,  5,  8, ..., 20, 26, 10])

# 순차 데이터셋을 나누는 방법
시계열을 나눌 때는 보통 시간에 따라 나눕니다.<br>
암묵적으로 RNN이 과거에서 학습하는 패턴이 미래에도 등장한다고 가정합니다.

In [17]:
train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

# 순차 데이터를 윈도 여러 개로 가르기
훈련 세트는 백만 개 이상의 글자로 이뤄진 시퀀스 하나입니다.<br>
여기에 신경망을 직접 훈련시키면 백만 개의 층이 있는 심층 신경망을 매우 긴 샘플 하나로 훈련하는 셈입니다.

따라서 데이터셋의 window() 메소드를 사용해 이 긴 시퀀스를 작은 많은 텍스트 윈도로 변환합니다.<br>
이 데이터셋의 각 샘플은 매우 짧은 부분 문자열이고, RNN은 이 부분 문자열 길이만큼만 역전파를 위해 펼쳐집니다.<br>
이를 TBPTT(truncated backpropagation through time)

In [18]:
n_steps = 100
window_length = n_steps + 1  # target = 1글자 앞의 input
dataset = dataset.window(window_length, shift=1, drop_remainder=True)

n_steps를 튜닝할 수 있는데, 짧은 입력 시퀀스에서 RNN을 훈련하는 건 쉽지만<br>
RNN은 n_steps보다 긴 패턴을 학습할 수 없으므로 너무 짧게 만들어서는 안됩니다.

기본적으로 window() 메소드는 윈도를 중복하지 않고 shift=1로 하면 가장 큰 훈련 세트를 만들 수 있습니다.<br>
첫 번째 윈도는 0번째에서 100번째 글자를, 두 번째 윈도는 1번째에서 101번째 글자를 포함하는 식입니다.<br>
모든 윈도가 동일하게 101개의 글자를 포함하도록 drop_remainder=True로 설정합니다.<br>
drop_remainder를 설정해주지 않으면 윈도 100개는 글자 100개, 글자 99개와 같은 식으로 점점 줄어 마지막 윈도는 글자 1개를 포함합니다.

window() 메소드는 각각 하나의 데이터셋으로 표현되는 윈도를 포함하는 데이터셋을 만듭니다.<br>
즉, 중첩 데이터셋인데 이런 구조는 데이터셋 메소드를 호출해 각 윈도를 변환할 때 유용합니다.<br>
하지만 모델은 데이터셋이 아니라 텐서를 기대하므로 훈련에 중첩 데이터셋을 바로 사용할 수 없습니다.

따라서 중첩 데이터셋을 플랫 데이터셋으로 변환하는 flat_map() 메소드를 호출해야 합니다.<br>
flat_map() 메소드는 중첩 데이터셋을 평평하게 만들기 전에 각 데이터셋에 적용할 변환 함수를 매개변수로 받을 수 있습니다.

예를 들어 lambda ds: ds.batch(2)를 flat_map()에 전달하면<br>
중첩 데이터셋 {{1, 2}, {3, 4, 5, 6}}을 플랫 데이터셋 {[1, 2], [3, 4], [5, 6]}으로 만들어줍니다.

In [20]:
dataset = dataset.flat_map(lambda window: window.batch(window_length))

In [21]:
dataset

<FlatMapDataset shapes: (None,), types: tf.int32>

In [23]:
batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size)  # 10000개를 가져오고 섞은 후 batch_size씩 나눈다
dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))  # 입력과 출력을 나눔

일반적으로 범주형 입력 특성은 원-핫 벡터나 임베딩으로 인코딩되어야 합니다.<br>
고유한 글자 수가 적기 때문에 원-핫 벡터를 사용해 글자를 인코딩합니다.

In [24]:
dataset = dataset.map(lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))

In [25]:
dataset = dataset.prefetch(1)

# Char-RNN 모델 만들고 훈련하기
유닛 128개를 가진 GRU 층 두개와 입력과 은닉 상태에 20% 드롭아웃을 사용합니다.<br>
출력층은 TimeDistributed 클래스를 적용한 Dense 층입니다.<br>
텍스트의 고유한 글자 수는 39개이므로 이 층은 39개의 출력을 가져야합니다.

타임 스텝에서 출력 확률의 합은 1이어야 하므로 Dense층의 출력에 소프트맥스 함수를 적용합니다.

그리고 'sparse_categorical_crossentropy' 손실과 Adam 옵티마이저를 사용해 컴파일합니다.

In [26]:
model = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],
                    dropout=0.2, recurrent_dropout=0.2),
    keras.layers.GRU(128, return_sequences=True,
                    dropout=0.2, recurrent_dropout=0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id, activation='softmax'))
])

In [28]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam')
history = model.fit(dataset, epochs=20)

Epoch 1/20


KeyboardInterrupt: 

# Char-RNN 모델 사용하기