In [1]:
# Python ≥3.5 is required
import sys
assert sys.version_info >= (3, 5)

# Is this notebook running on Colab or Kaggle?
IS_COLAB = "google.colab" in sys.modules
IS_KAGGLE = "kaggle_secrets" in sys.modules

if IS_COLAB:
    %pip install -q -U tensorflow-addons
    %pip install -q -U transformers

# Scikit-Learn ≥0.20 is required
import sklearn
assert sklearn.__version__ >= "0.20"

# TensorFlow ≥2.0 is required
import tensorflow as tf
from tensorflow import keras
assert tf.__version__ >= "2.0"

if not tf.config.list_physical_devices('GPU'):
    print("No GPU was detected. LSTMs and CNNs can be very slow without a GPU.")
    if IS_COLAB:
        print("Go to Runtime > Change runtime and select a GPU hardware accelerator.")
    if IS_KAGGLE:
        print("Go to Settings > Accelerator and select GPU.")

# Common imports
import numpy as np
import os

# to make this notebook's output stable across runs
np.random.seed(42)
tf.random.set_seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Where to save the figures
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "nlp"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
os.makedirs(IMAGES_PATH, exist_ok=True)

def save_fig(fig_id, tight_layout=True, fig_extension="png", resolution=300):
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    print("Saving figure", fig_id)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(path, format=fig_extension, dpi=resolution)

# 字符RNN：Char-RNN

## 打乱一个序列的移动窗口，再将乱序的窗口放到不同的很多不同的批次里

例如，一个0-14的序列，窗口长为5，窗口移动步长为2(如,`[0, 1, 2, 3, 4]`, `[2, 3, 4, 5, 6]`, 等等...)，打乱每个窗口的顺序，然后从每个窗口中划分出输入inputs(窗口内前4个步长)和目标targets(窗口内前4个步长) (如窗口, `[2, 3, 4, 5, 6]` 将会被划分成 `[[2, 3, 4, 5], [3, 4, 5, 6]]`)，之后要创建3个这样的input/target对，如下:

In [2]:
np.random.seed(42)
tf.random.set_seed(42)

n_steps = 5
dataset = tf.data.Dataset.from_tensor_slices(tf.range(15))
# window()方法会创建包含窗口的数据集，数据集中的每个窗口也表示为一个数据集
# 也即是说它创建的是一个嵌套数据集，类似于列表的列表
# 使用嵌套数据集的好处是：
# 通过调用窗口的数据集方法，可以同时对所有窗口进行操作，例如混洗或批处理
dataset = dataset.window(n_steps, shift=2, drop_remainder=True)
# 但是RNN不接收嵌套的数据集，它接收的是张量。所以接下来需要使用flat_map()方法将其展开
# 例如有一个嵌套数据集{{1, 2}, {3, 4, 5, 6}}，可将其展平为{1, 2, 3, 4, 5, 6}
# flat_map()方法还可以接收一个函数作为参数，它允许在嵌套数据集展平前变换嵌套数据集中的每个窗口
# 比如传入函数lambda ds: ds.batch(2)，这将是嵌套数据集展开为张量长度为2的数据集: {[1, 2], [3, 4], [5, 6]}
dataset = dataset.flat_map(lambda window: window.batch(n_steps))
dataset = dataset.shuffle(10).map(lambda window: (window[:-1], window[1:]))
dataset = dataset.batch(3).prefetch(1)
for index, (X_batch, Y_batch) in enumerate(dataset):
    print("_" * 20, "Batch", index, "\nX_batch")
    print(X_batch.numpy())
    print("=" * 5, "\nY_batch")
    print(Y_batch.numpy())

____________________ Batch 0 
X_batch
[[6 7 8 9]
 [2 3 4 5]
 [4 5 6 7]]
===== 
Y_batch
[[ 7  8  9 10]
 [ 3  4  5  6]
 [ 5  6  7  8]]
____________________ Batch 1 
X_batch
[[ 0  1  2  3]
 [ 8  9 10 11]
 [10 11 12 13]]
===== 
Y_batch
[[ 1  2  3  4]
 [ 9 10 11 12]
 [11 12 13 14]]


## 载入数据 & 数据预处理

In [3]:
# 载入莎士比亚的作品集
shakespeare_url = "https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

In [4]:
print(shakespeare_text[:148])

First Citizen:
Before we proceed any further, hear me speak.

All:
Speak, speak.

First Citizen:
You are all resolved rather to die than to famish?



In [5]:
"".join(sorted(set(shakespeare_text.lower())))

"\n !$&',-.3:;?abcdefghijklmnopqrstuvwxyz"

我们可以使用第13 章的内容使用预处理层将字符编码，或者可以使用Tokenizer函数来处理字符数据

In [6]:
# 需要设定char_level=True，不然默认按照单词级别进行编码
# 在真正对字符进行编码前，需要先fit
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)
tokenizer.fit_on_texts(shakespeare_text)

In [7]:
tokenizer.texts_to_sequences(["First"])

[[20, 6, 9, 8, 3]]

In [8]:
tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])

['f i r s t']

在字符编码fit完成之后就可以通过tokenizer对象来查看字符的数量 或 字符总数量等信息了

In [9]:
# 不重复字符数量
max_id = len(tokenizer.word_index)
# 字符总数量
dataset_size = tokenizer.document_count

In [10]:
# 因为Tokenizer默认以数字1开始编码，如果想要从0开始编码的话，就手动减1
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1
train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])

**注意**: 在以前，我们需要使用 `dataset.repeat()` 来使数据集 "无限"，然后在调用 `model.fit()` 时还需要设置 `steps_per_epoch` 参数。 以前不这么做会出现很多的Tensorflow的bug。 然而现在这些bug都被修复了，可以简化代码了，再也不需要 `dataset.repeat()` 或者 `steps_per_epoch` 了。

In [11]:
# RNN不可能在整个序列上进行循环，所以需要将其分成很多小序列
# 数据集中的实例将是一个个短的固定长度的字符串，RNN将会在这些短字符串的长度展开
# 这就是时间截断反向传播
# n_steps越小，RNN学习就越容易，但是RNN不能学习比n_steps更长的模式，所以n_steps不要太短
n_steps = 100
window_length = n_steps + 1 # target = input shifted 1 character ahead
dataset = dataset.window(window_length, shift=1, drop_remainder=True)
dataset = dataset.flat_map(lambda window: window.batch(window_length))

In [12]:
np.random.seed(42)
tf.random.set_seed(42)

batch_size = 32
dataset = dataset.shuffle(10000).batch(batch_size)
dataset = dataset.map(lambda windows: (windows[:, :-1], windows[:, 1:]))
# 为什么这里需要使用独热编码？
# 1、首先RNN在处理顺序序列时，其实会隐含地假设当前学到的模式在以后会一直重复的出现；
# 2、在学习中，若训练集中示例相互独立且分布相同时，梯度下降的效果最好。
# 在这里，每行字符串只有39个字符(时间序列中是featrues)，所以可以考虑使用独热编码
dataset = dataset.map(
    lambda X_batch, Y_batch: (tf.one_hot(X_batch, depth=max_id), Y_batch))
dataset = dataset.prefetch(1)

In [13]:
for X_batch, Y_batch in dataset.take(1):
    print(X_batch.shape, Y_batch.shape)

(32, 100, 39) (32, 100)
