## Text generation with an RNN
将使用Andrej Karpathy的《循环神经网络的不可思议的有效性》中的莎士比亚作品数据集。给定来自该数据的字符序列(“Shakespear”)，训练一个模型来预测序列中的下一个字符(“e”)。通过反复调用模型可以生成更长的文本序列。

虽然有些句子合乎语法，但大多数都没有意义。模型没有学习单词的意思，但是考虑:
* 该模型是基于字符的。当训练开始时，模型不知道如何拼写英语单词，甚至不知道单词是文本的一个单位。
* 输出的结构类似于一个积木块，文本块通常以说话人的名字开头，所有的大写字母与数据集相似。
* 如下所示，该模型在小批量文本(每个文本100个字符)上进行训练，并且仍然能够生成具有连贯结构的更长的文本序列。

### 配置


In [2]:
import tensorflow as tf

import numpy as np
import os
import time

### 下载莎士比亚数据集


In [3]:
path_to_file = tf.keras.utils.get_file('shakespeare.txt', 'https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt')

Downloading data from https://storage.googleapis.com/download.tensorflow.org/data/shakespeare.txt


### 阅读数据


In [4]:
# Read, then decode for py2 compat.
text = open(path_to_file, 'rb').read().decode(encoding='utf-8')
# length of text is the number of characters in it
print(f'Length of text: {len(text)} characters')

Length of text: 1115394 characters


In [5]:
# 查看前250个字符
print(text[:250])

First Citizen:
Before we proceed any further, hear me speak.

All:
Speak, speak.

First Citizen:
You are all resolved rather to die than to famish?

All:
Resolved. resolved.

First Citizen:
First, you know Caius Marcius is chief enemy to the people.



In [6]:
# 文件中唯一的字符（将text装入set中，相当于计数文本中一共有多少个词（去重））
vocab = sorted(set(text))
print(f'{len(vocab)} unique characters')

65 unique characters


### 处理数据

#### 向量化文本
在训练之前，您需要将字符串转换为数字表示形式。
 tf.keras.layers.StringLookup层可以将每个字符转换为数字ID。它只需要首先将文本拆分为标记。

In [7]:
example_texts = ['abcdefg', 'xyz']

chars = tf.strings.unicode_split(example_texts, input_encoding='UTF-8')
chars

<tf.RaggedTensor [[b'a', b'b', b'c', b'd', b'e', b'f', b'g'], [b'x', b'y', b'z']]>

In [12]:
# 现在创建tf.keras.layers.StringLookup层:
ids_from_chars = tf.keras.layers.StringLookup(
    vocabulary=list(vocab), mask_token=None)

AttributeError: module 'tensorflow.keras.layers' has no attribute 'StringLookup'