In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Is this notebook running on Colab or Kaggle?
IS_COLAB = "google.colab" in sys.modules
IS_KAGGLE = "kaggle_secrets" in sys.modules

if IS_COLAB:
    %pip install -q -U tensorflow-addons
    %pip install -q -U transformers

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# TensorFlow ≥2.0 is required
import tensorflow as tf
from tensorflow import keras
assert tf.__version__ >= "2.0"

if not tf.config.list_physical_devices('GPU'):
    print("No GPU was detected. LSTMs and CNNs can be very slow without a GPU.")
    if IS_COLAB:
        print("Go to Runtime > Change runtime and select a GPU hardware accelerator.")
    if IS_KAGGLE:
        print("Go to Settings > Accelerator and select GPU.")

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)
tf.random.set_seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "nlp"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

No GPU was detected. LSTMs and CNNs can be very slow without a GPU.


# 1. Char-RNN을 사용해 셰익스피어 문체 생성하기
- https://github.com/karpathy/char-rnn 셰익스피어 작품을 모두 다운로드 가능


## 1.1 훈련 데이터셋 만들기

In [2]:
# 자료 다운

shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)

with open(filepath) as f:
    shakespeare_text = f.read()

Downloading data from https://homl.info/shakespeare


In [3]:
# 모든 글자를 정수로 인코딩해야 함
# 사용자 정의 전처리 층을 만드는 것이 한 방법, 여기에서는 더 간단하게 케라스의 Tokenizer클래스를 사용
# 이 클래스는 기본적으로 텍스트를 소문자로 바꿈, (원치 않는 경우 lower=False로 지정)
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True) 
# char_level=True로 지정하여 단어 수준 인코딩 대신 글자수준 인코딩을 만듬

tokenizer.fit_on_texts(shakespeare_text)

- 이제 문자을 (또는 문장의 리스트를 ) 그랒 ID로 인코딩하거나 반대로 디코딩할 수 있음. 
- 이를 통해 텍스트에 있는 고유 글자 개수와 전체 글자 개수를 알 수 있음

In [4]:
tokenizer.texts_to_sequences(["first"])

[[20, 6, 9, 8, 3]]

In [6]:
tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])

['f i r s t']

In [9]:
max_id = len(tokenizer.word_index) # 고유 글자 개수
dataset_size = tokenizer.document_count # 전체 글자 개수

In [10]:
# 전체 텍스트를 인코딩하여 각 글자를 1D로 나타내 봄
# 1 ~ 39까지 대신 0 ~ 38까지 1D를 얻기 위해 1을 빼줌

[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1

## 1. 2 순차 데이터셋을 나누는 방법
- 훈련세트, 검증세트, 테스트 세트가 중복되지 않도록 만드는 것이 중요!

In [11]:
# 90%를 훈련 세트로 사용
# 한 번에 한 그랒식 반환하는 tf.data.Dataset 객체를 만듬

train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

## 1.3 순차 데이터를 윈도 여러 개로 자르기
- 훈련세트는 백만 개 이상의 글자로 이루어진 시퀀스 하나임. 여기에 신경망을 직접 훈련시킬 수 없음
- 데이터셋의 window() 메서드를 사용해 이 긴 시퀀스를 작은 많은 텍스트 윈도로 변환합니다.
- 이 데이터셋의 각 샘플은 전체 텍스트엣 매우 짧은 부분 문자열임
- RNN은 이 부분 문자열 길이만큼만 역전파를 위해 펼쳐짐. 이를 TBPTT(Truncated BackPropagation Through Time)

In [12]:
# window() 메서드를 호출하여 짧은 텍스트 윈도를 갖는 데이터셋을 만듬

n_steps = 100
window_length = n_steps + 1
dataset = dataset.window(window_length, shift=1, drop_remainder=True)

# tip : n_steps는 튜닝 가능, 짧은 입력 시퀀스에서 RNN을 훈련하는 것은 쉽지만 당연히 이 RNN은 n_steps보다 긴 패턴을 학습할 수 없음 
# 따라서 너무 짧게 만들어서는 안된다.
# shift = 1로 지정하면 가장 큰 훈련세트를 만들 수 있음

In [13]:
dataset = dataset.flat_map(lambda window: window.batch(window_length)) # 윈도마다 batch(window_lenght)를 호출

In [15]:
batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size)
dataset = dataset.map(lambda windows:(windows[:, :-1], windows[:, 1:]))

- 일반저으로 범주형 입력 특성은 원-핫 벡터나 임베딩으로 인코딩 되어야 함. 여기에서는 고유한 글자수가 적기 때문에(39개) 원-핫 벡터를
- 글자를 인코딩합니다.

In [16]:
dataset = dataset.map(lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))

--- 
- 데이터셋 준비 완료!

## 1.4 Char-RNN 모델 만들고 훈련하기
- 이전 글자 100개를 기반으로 다음 글자를 예측하기 우해 유닛 128개를 가진 GRU층 2개와 입력(dropout)과 은닉 상태(recurrent_dropout)에 20% 드롭아웃을 사용
- 출력층은 TimeDistributed 클래스르 적용한 Dense 층입니다.
- 텍스트에 있는고유한 글자 수가 39개이므로 이 층은 39개의 유닛(max_id)을 가져야 함

In [19]:
model = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences=True, input_shape=[None, max_id],
                     dropout=0.2),
    keras.layers.GRU(128, return_sequences=True,
                     dropout=0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id,
                                                    activation="softmax"))
])
model.compile(loss="sparse_categorical_crossentropy", optimizer="adam")
history = model.fit(dataset, epochs=2)

Epoch 1/2
Epoch 2/2


## 1.5 Char-RNN 모델 사용하기
- 위 모델에 새로운 텍스트를 주입하려면 앞에서와 같은 전처리를 해야 한다.

In [20]:
# 텍스트 전처리 함수

def preprocess(texts):
    X = np.array(tokenizer.texts_to_sequences(texts)) - 1
    return tf.one_hot(X, max_id)

In [25]:
# 모델을 사용해 어떤 텍스트이 다음 글자를 예측

X_new = preprocess(["How are yo"])
Y_pred = np.argmax(model(X_new), axis=-1)
tokenizer.sequences_to_texts(Y_pred + 1)[0][-1] # 첫 번째 문장, 마지막 글자


# 정확하게 맞힌것을 확인할 수 있음

'u'

## 1.6 가짜 셰익스피어 텍스트를 생성하기


In [26]:
def next_char(text, temperature=1):
    X_new = preprocess([text])
    y_proba = model.predict(X_new)[0, -1:, :]
    rescaled_logits = tf.math.log(y_proba) / temperature
    char_id = tf.random.categorical(rescaled_logits, num_samples=1) + 1
    return tokenizer.sequences_to_texts(char_id.numpy())[0]

# 그 다음 next_char()함수를 반복 호출하여 다음 글자를 얻고 텍스트에 추가하는 작음 함수를 만듬

In [27]:
def complete_text(text, n_chars=50, temperature=1):
    for _ in range(n_chars):
        text += next_char(text, temperature)
    return text

In [28]:
# 온도를 다르게 하며 테스트 해보기

print(complete_text("t", temperature=0.2))

the more to her and servant,
i will be good and sig


In [29]:
print(complete_text("w", temperature=1))

wtruns, my lord, and was the worship no clows
to gu


In [30]:
print(complete_text("w", temperature=2))

wore. i bise! i know he.
fayh, nih,
standsirousewsc


- 이 셰익스피어 모델은 1에 가까운 온도에서 가장 잘 작동됨. 조금 더 좋은 텍스트를 생성하려면 GRU 층과 층의 뉴런 수를 늘리고 더 오래 훈련하거나 규제(예를 들어 GRU 층을 recurrent_dropout=0.3으로 지정할 수 있음)를 추가. 
- 윈도를 크게할 수 있지만 훈련이 더 어려워짐

## 1.7 상태가 있는 RNN
- RNN이 한 훈련 배치를 처리한 후에 마지막 상태를 다음 훈련 배치의 초기상태로 사용하면 어떨까??
- 이렇게 하면 역전파는 짧은 시퀀스에서 일어나지만 모델이 장기간 패턴을 학습할 수 있음 이를 **상태가 있는 RNN**이라고 함