In [2]:
import sys
import sklearn
import tensorflow as tf
from tensorflow import keras
import numpy as np
import os

%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 1. 문자단위(Char-RNN)

### 1.1data preparing

In [3]:
# 셰익스피어 작품 다운로드
shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

Downloading data from https://homl.info/shakespeare


In [5]:
# fitting tokenizer
tokenizer = keras.preprocessing.text.Tokenizer(char_level = True) # char level encoding
tokenizer.fit_on_texts(shakespeare_text)

In [11]:
print(
    tokenizer.texts_to_sequences(["First"]) # 각 알파벳이 숫자 ID로 인코딩
)
print(
    tokenizer.sequences_to_texts([[20,6,9,8,3]]) # 숫자 ID를 알파벳으로 디코딩
)

print( len(tokenizer.word_index) ) # 고유한 문자의 개수
print( sorted(set(shakespeare_text.lower())) ) # 고유한 문자들
print( tokenizer.document_count ) # fit된 텍스트에 포함된 전체 문자 개수

[[20, 6, 9, 8, 3]]
['f i r s t']
39
['\n', ' ', '!', '$', '&', "'", ',', '-', '.', '3', ':', ';', '?', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z']
1115394


In [10]:
# encoding overall text
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1

In [29]:
# split
dataset_size = tokenizer.document_count

train_size = dataset_size * 10 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

In [30]:
# truncate sequence
n_steps = 100
# target은 모든 input문자들을 1씩 앞당긴 문자열
# 모델의 실제 출력은 현재 타임 스텝에서의 다음 문자
window_length = n_steps + 1
dataset = dataset.repeat().window(window_length, shift = 1, drop_remainder = True)

window()메서드는 각각 하나의 데이터셋으로 표현되는 윈도우를 포함하는 데이터셋을 만든다.  
리스트의 리스트와 비슷한 중첩 데이터셋(nested dataset)이다.  
모델은 입력으로 텐서를 기대하기 때문에 훈련전에 이 중첩 데이터셋을 플랫 데이터셋으로 변환해야한다.

In [31]:
# flatten하는 과정에서 각 윈도우마다 적용할 함수를 설정할 수 있다.
dataset = dataset.flat_map(lambda window : window.batch(window_length))

In [32]:
batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size) # 데이터셔플 & 배치화
dataset = dataset.map(lambda windows: (windows[:,:-1], windows[:,1:])) # input과 target을 분리

In [33]:
# one-hot encoding for inputs
# 이 데이터셋에서는 사용되는 문자 수가 39개로 많은편이 아니여서 원핫인코딩을 진행한다.
max_id = len(tokenizer.word_index)

dataset = dataset.map(
    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth = max_id), Y_batch)
)

# prefetch
dataset = dataset.prefetch(1)

### 1.2 Model

In [34]:
model = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences = True, input_shape = [None, max_id],
                     dropout = 0.2, recurrent_dropout = 0.2),
    keras.layers.GRU(128, return_sequences = True,
                     dropout = 0.2, recurrent_dropout = 0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id, activation = "softmax"))  
])
model.compile(loss = "sparse_categorical_crossentropy", optimizer = "adam")
history = model.fit(dataset, steps_per_epoch = train_size // batch_size,
                    epochs = 5)

Train for 3485 steps
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [35]:
# 텍스트를 받아 id들로 매핑하여 id의 시퀀스로 바꾸고 원핫인코딩하는 전처리기
def preprocess(texts):
    X = np.array(tokenizer.texts_to_sequences(texts)) - 1
    return tf.one_hot(X, max_id)

In [36]:
# 글자단위 예측
X_new = preprocess(["How are yo"])
Y_pred = model.predict_classes(X_new)
tokenizer.sequences_to_texts(Y_pred + 1)[0][-1]

'u'

In [42]:
print(Y_pred) # input 길이 = output 길이
print(tokenizer.sequences_to_texts(Y_pred + 1))
print(tokenizer.sequences_to_texts(Y_pred + 1)[0])
print(tokenizer.sequences_to_texts(Y_pred + 1)[0][-1])

[[ 1 13  0  2  8  1  0  2  3 13]]
['e u   t r e   t o u']
e u   t r e   t o u
u


### 1.3 text generate

In [47]:
# 단일 문자 생성
def next_char(text, temperature = 1): # temperature : 확률반영비율 제어
    X_new = preprocess([text])
    y_proba = model.predict(X_new)[0, -1:, :]
    
    rescaled_logits = tf.math.log(y_proba) / temperature
    char_id = tf.random.categorical(rescaled_logits, num_samples = 1) + 1
    
    return tokenizer.sequences_to_texts(char_id.numpy())[0]

# input 시퀀스에 n_chars 길이의 생성 문자열을 더해 반환
def complete_text(text, n_chars = 50, temperature = 1):
    for _ in range(n_chars):
        text += next_char(text, temperature)
    return text

tf.random.set_seed(42)

print(complete_text("t", temperature = 0.5))
print(complete_text("t", temperature = 1))
print(complete_text("t", temperature = 2))

there with the people,
and i think it shall be some
thing! are you
curbs your poor his briend he may be
th roow! pratenc; repeat:
re! towuld it'slike. 
pom


### 1.4 stateful RNN

In [56]:
batch_size = 32
encoded_parts = np.array_split(encoded[:train_size], batch_size)
datasets = []
for encoded_part in encoded_parts:
    dataset = tf.data.Dataset.from_tensor_slices(encoded_part)
    dataset = dataset.window(window_length, shift=n_steps, drop_remainder=True)
    # 한 배치에 하나의 윈도우만 포함되도록
    dataset = dataset.flat_map(lambda window: window.batch(window_length))
    datasets.append(dataset)
dataset = tf.data.Dataset.zip(tuple(datasets)).map(lambda *windows: tf.stack(windows))
dataset = dataset.repeat().map(lambda windows: (windows[:, :-1], windows[:, 1:]))
dataset = dataset.map(
    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))
dataset = dataset.prefetch(1)

In [57]:
model = keras.models.Sequential([
    keras.layers.GRU(128, return_sequences = True, stateful = True,
                     dropout = 0.2, recurrent_dropout = 0.2,
                     # 입력은 어떠한 길이도 가질 수 있음. max_id는 그 입력의 인코딩 차원
                     batch_input_shape = [batch_size, None, max_id]), 
    keras.layers.GRU(128, return_sequences = True, stateful = True,
                     dropout = 0.2, recurrent_dropout = 0.2),
    keras.layers.TimeDistributed(keras.layers.Dense(max_id, activation = "softmax"))
])

In [58]:
# epoch가 끝나면(모든 훈련 set에 대한 훈련) 상태 reset
class ResetStatesCallback(keras.callbacks.Callback):
    def on_epoch_begin(self, epoch, logs):
        self.model.reset_states()

In [60]:
model.compile(loss = "sparse_categorical_crossentropy", optimizer = "adam")
steps_per_epoch = train_size // batch_size // n_steps
history = model.fit(dataset, steps_per_epoch = steps_per_epoch, epochs = 10,
                    callbacks = [ResetStatesCallback()])

Train for 34 steps
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


# 2. 감성분석(sentiment analysis)

### 2.1 IMDb dataset

In [4]:
(X_train, y_train), (X_test, y_test) = keras.datasets.imdb.load_data()

In [75]:
# 각 리뷰는 정수 리스트로 이루어져 있으며, 각 정수는 하나의 단어를 나타낸다.
# 구두점이 모두 제거되었고, 단어들은 소문자로 변환된 후 다음 공백을 기준으로 나누어 빈도에 따라 인덱스 붙임
# 낮은 정수일수록 자주 등장하는 단어에 해당한다.
X_train[0][:10] 

[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65]

In [5]:
# 구체적인 리뷰 내용을 보려면 아래와 같이 디코딩
word_index = keras.datasets.imdb.get_word_index()
# key = id, value = word
id_to_word = {id_ + 3 : word for word, id_ in word_index.items()} 
for id_, token in enumerate(("<pad>", "<sos>", "<unk>")):
    id_to_word[id_] = token

print(" ".join([id_to_word[id_] for id_ in X_train[0][:10]]))

<sos> this film was just brilliant casting location scenery story


### 2.2 preprocessing implement

In [3]:
# loading
import tensorflow_datasets as tfds

datasets, info = tfds.load("imdb_reviews", as_supervised = True, with_info = True)
train_size = info.splits["train"].num_examples


# preprocessor
def preprocess(X_batch, y_batch):
    # 1. 각 리뷰에서 처음 300글자만 남긴다. - 훈련속도 높일 수 있음
    # 일반적으로 처음 한두 문장에서 리뷰가 긍정인지 부정인지 판단가능하므로 성능에 큰 영향 안미침
    X_batch = tf.strings.substr(X_batch, 0, 300) 
    # 2. 정규식을 사용하여 <br />태그를 공백으로 바꾼다.
    X_batch = tf.strings.regex_replace(X_batch, rb"<br\s*/?>", b" ")
    # 3. 정규식으로 문자와 작은 따옴푝 아닌 다른 모든 문자를 공백으로 바꾼다.
    X_batch = tf.strings.regex_replace(X_batch, b"[^a-zA-Z']", b" ")
    # 4. 그 이후 리뷰를 공백으로 나눈다.
    X_batch = tf.strings.split(X_batch)
    # 5. ragged tensor를 dense tensor로 바꾸고 길이를 맞추기 위해 <pad>토큰으로 모든 리뷰를 패딩한다.
    return X_batch.to_tensor(default_value = b"<pad>"), y_batch


# define vocabulary
from collections import Counter

vocabulary = Counter()
# 모든 훈련 셋을 순회하며 전처리 함수를 적용시킨다.
for X_batch, y_batch in datasets["train"].batch(32).map(preprocess):
    # 각 리뷰에서 등장하는 단어들을 누적 count한다.
    for review in X_batch:
        vocabulary.update(list(review.numpy()))

# truncate vocab
vocab_size = 10000
truncated_vocabulary = [
    word for word, count in vocabulary.most_common()[:vocab_size]
]


# create Lookup table (word to id)
words = tf.constant(truncated_vocabulary)
word_ids = tf.range(len(truncated_vocabulary), dtype = tf.int64) # id 생성
vocab_init = tf.lookup.KeyValueTensorInitializer(words, word_ids) 
num_oov_buckets = 1000 # 단어장에 없는 서로다른 처음보는 단어 1000개 까지 수용하도록
table = tf.lookup.StaticVocabularyTable(vocab_init, num_oov_buckets) # 룩업테이블 생성


# 훈련데이터 배치화, 전처리 수행 후 ID로 encoding
def encode_words(X_batch, y_batch):
    return table.lookup(X_batch), y_batch

train_set = datasets["train"].batch(32).map(preprocess)
train_set = train_set.map(encode_words).prefetch(1)

In [78]:
print(vocabulary.most_common()[:3],'\n')
print(table.lookup(tf.constant([b"This movie was faaaaaaantastic".split()])))

[(b'<pad>', 214309), (b'the', 61137), (b'a', 38564)] 

tf.Tensor([[   22    12    11 10770]], shape=(1, 4), dtype=int64)


### 2.3 Model

모델 학습 시 실제로 의미있는 단어들에만 집중할 수 있도록 패딩토큰을 무시하게 하는것이 좋다.  
-> masking

In [20]:
embed_size = 128
model = keras.models.Sequential([
    # vocab_size + num_oov = # of word IDs
    keras.layers.Embedding(vocab_size + num_oov_buckets, embed_size,
                           mask_zero=True, 
                           input_shape=[None]),
    keras.layers.GRU(128, return_sequences=True),
    keras.layers.GRU(128),
    keras.layers.Dense(1, activation="sigmoid")
])
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
history = model.fit(train_set, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [4]:
# for example in datasets["test"]:
#     print(example[0].numpy())
#     print(example[1].numpy())
#     exit()

()

### 2.4 reusing pre-trained embeddings

In [19]:
!pip install --upgrade tensorflow_hub
import tensorflow_hub as hub
import tensorflow_datasets as tfds

datasets, info = tfds.load("imdb_reviews", as_supervised=True, with_info=True)
train_size = info.splits["train"].num_examples
batch_size = 32
train_set = datasets["train"].repeat().batch(batch_size).prefetch(1)


model = keras.Sequential([
    hub.KerasLayer("https://tfhub.dev/google/tf2-preview/nnlm-en-dim50/1",
                   dtype=tf.string, input_shape=[], output_shape=[50]),
    keras.layers.Dense(128, activation="relu"),
    keras.layers.Dense(1, activation="sigmoid")
])
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])
history = model.fit(train_set, steps_per_epoch=train_size // batch_size, epochs=5)

Collecting tensorflow_hub
  Downloading tensorflow_hub-0.11.0-py2.py3-none-any.whl (107 kB)
Installing collected packages: tensorflow-hub
Successfully installed tensorflow-hub-0.11.0
Train for 781 steps
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


In [22]:
model.evaluate(datasets["test"].batch(25000)) # loss & acc

      1/Unknown - 5s 5s/step - loss: 0.5110 - accuracy: 0.7468

[0.5110410451889038, 0.7468]

In [24]:
info

tfds.core.DatasetInfo(
    name='imdb_reviews',
    full_name='imdb_reviews/plain_text/1.0.0',
    description="""
    Large Movie Review Dataset.
    This is a dataset for binary sentiment classification containing substantially more data than previous benchmark datasets. We provide a set of 25,000 highly polar movie reviews for training, and 25,000 for testing. There is additional unlabeled data for use as well.
    """,
    config_description="""
    Plain text
    """,
    homepage='http://ai.stanford.edu/~amaas/data/sentiment/',
    data_path='C:\\Users\\user\\tensorflow_datasets\\imdb_reviews\\plain_text\\1.0.0',
    download_size=80.23 MiB,
    dataset_size=129.83 MiB,
    features=FeaturesDict({
        'label': ClassLabel(shape=(), dtype=tf.int64, num_classes=2),
        'text': Text(shape=(), dtype=tf.string),
    }),
    supervised_keys=('text', 'label'),
    splits={
        'test': <SplitInfo num_examples=25000, num_shards=1>,
        'train': <SplitInfo num_examples=25000