### 1. Char-RNN을 사용해 셰익스피어 문체 생성하기

#### 1) 훈련 데이터셋 만들기

In [39]:
from tensorflow import keras
import tensorflow as tf
import numpy as np

In [40]:
# 데이터 불러오기

shakespeare_url = 'https://homl.info/shakespeare'
filepath = keras.utils.get_file('shakespeare.txt', shakespeare_url)

with open(filepath) as f:
    shakespeare_text = f.read()

In [41]:
shakespeare_text[:50]

'First Citizen:\nBefore we proceed any further, hear'

In [42]:
len(shakespeare_text)

1115394

In [43]:
# 글자를 정수(ID)로 인코딩하기 (ID는 1부터 시작)

tokenizer = keras.preprocessing.text.Tokenizer(char_level=True) # 글자수준으로
tokenizer.fit_on_texts(shakespeare_text)  # 이 텍스트에 훈련하기

In [44]:
# tokenizer 작동 확인

tokenizer.texts_to_sequences(['First'])

[[20, 6, 9, 8, 3]]

In [45]:
tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])

['f i r s t']

In [46]:
max_id = len(tokenizer.word_index) # 고유 글자 개수
dataset_size = tokenizer.document_count # 전체 글자 개수

max_id, dataset_size

(39, 1115394)

In [47]:
# 전체 텍스트를 인코딩하여 글자를 ID로 나타내기
# ID를 0부터 시작하기 위해 1을 빼줌

[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1

# [encoded]를 해주는 이유 : 그냥 encoded하면 [[19, ...]]이렇게 되는데,
# 리스트 하나를 빼주려고

In [48]:
encoded

array([19,  5,  8, ..., 20, 26, 10])

#### 2) 순차 데이터셋 나누기

In [64]:
# 90%를 훈련 데이터셋으로 사용하기

train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])
  # 한 번에 한 글자씩 반환하는 tf.data.Dataset 객체 

In [65]:
# tf.data.Dataset.from_tensor_slices 작동 방식

# t = tf.constant([[1, 2], [3, 4]])
# ds = tf.data.Dataset.from_tensors(t)   # [[1, 2], [3, 4]]

# t = tf.constant([[1, 2], [3, 4]])
# ds = tf.data.Dataset.from_tensor_slices(t)   # [1, 2], [3, 4]

#### 3) 순차 데이터를 윈도 여러개로 자르기
<img src='img/16_1.png' width='400'>

In [66]:
### 윈도로 끊어주기

n_steps = 100
window_length = n_steps + 1
dataset = dataset.window(window_length, shift=1, drop_remainder=True)

## drop_remainder=False 이면
# ds = tf.data.Dataset.range(6) 
# ds = ds.window(5, shift=1, drop_remainder=False)
# for d in ds:
#     print(list(d.as_numpy_iterator()))

# [[0, 1, 2, 3, 4],
# [1, 2, 3, 4, 5],
# [2, 3, 4, 5],
# [3, 4, 5],
# [4, 5],
# [5]]

In [67]:
### 중첩 데이터(nested data)를 flat 데이터로 만들어주기

# 이때, batch() 함수를 사용해 윈도 길이로 끊어주기
# {{1, 2}, {3, 4, 5, 6}} (중첩 data) -> {[1, 2], [3, 4], [5, 6]} (flat data)

dataset = dataset.flat_map(lambda window: window.batch(window_length))

In [68]:
### 훈련 data 섞고, 배치로 만든 후, X와 y 분리하기
# 섞는 이유 : data가 iid일 때, 경사하강법이 가장 잘 작동하기 때문

batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size)
    # shuffle의 파라미터는 buffer_size 적당히 큰 수를 해줘야 랜덤하게 잘 뽑음
dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))

In [69]:
### 원핫 인코딩

dataset = dataset.map(
    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))
dataset = dataset.prefetch(1)

#### 4) 모델만들고 훈련하기

In [70]:
model = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],
                    dropout=0.2, recurrent_dropout=0.2),
    keras.layers.GRU(128, return_sequences=True,
                    dropout=0.2, recurrent_dropout=0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id, activation='softmax'))
])

In [71]:
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam')

In [73]:
# 오래 걸림

history = model.fit(dataset, epochs=20) 

Epoch 1/20
   2504/Unknown - 1015s 405ms/step - loss: 1.8346

KeyboardInterrupt: 

#### 5) 모델 사용하기

In [75]:
def preprocess(text):
    X = np.array(tokenizer.text_to_sequences(text)) - 1
    return tf.one_hot(X, max_id)

# 토큰화 해주고, 원핫인코딩 해주기

In [None]:
# 에측하기

X_new = preprocess(['How are yo'])
Y_pred = model.predict_classes(X_new)
tokenizer.sequences_to_text(Y_pred + 1)[0][-1]  # 첫번째 문장, 마지막 글자

#### 6) 가짜 셰익스피어 텍스트 생성하기

In [None]:
def next_chat(text temperature=1):
    X_new = preprocess([text])
    y_proba = model.predict(X_new)[0, -1:, :]
    rescale_logits = tf.math.log(y_proba) / temperature
    char_id = tf.random.categorical(rescaled_logtis, num_samples=1) + 1
    return tokenizer.sequences._to_text(char_id.numpy())[0]