## 11.5 从序列到序列

到目前为止,我们已经接触过了大多数 nlp 任务所需要的工具,然而我们只在处理过一类 nlp 任务--文本分类,这一节我们将接触另一种序列到序列的模型.

序列到序列模型是将一个序列作为输入(可以是一个句子或一段文字)并将其翻译成不同的序列,这是许多 nlp 的核心任务.

- 机器翻译: 将源样本的段落转换为目标语言的对应段落.
- 文本汇总: 将长文本进行总结,只保留最重要信息.
- 问题问答: 输入问题,返回答案
- 聊天机器人: 输入对话/历史聊天记录等等转换为下一个回复
- 文本生成: 将输入文本转换为一个完整的段落.
- 等等...


![seq2seq](seq2seq.png)

上图显示了序列到序列模型工作的一般流程

训练期

- 一个编码器将源序列转换为一种中间表示.
- 通过查看之前的标记和源序列,解码器被用来预测下一个标记.

预测,预测时我们无法接触到目标序列,我们不得不一次生成一个标记.

- 编码器将源序列编码转换
- 解码器查看源序列和初始'种子'标记(图中是 '[start]'),并预测下一个真实标记.
- 将真实标记送入解码器推动下一次预测,直到生成一个停止标记(图中是 '[end]').


## 一个机器翻译例子

我们将在一个机器翻译的问题上演示序列到序列的模型.机器翻译正是 Transformer 开发的目的,从一个递归的序列模型开始,我们最终会用到完整的 Transformer 模型.


In [None]:
# !wget http://storage.googleapis.com/download.tensorflow.org/data/spa-eng.zip
# !unzip -q spa-eng.zip

英语到西班牙语的样本数据.

- 文本的每一行都是一个例子
- 英语 制表符 西班牙语


In [4]:
text_file = "spa-eng/spa.txt"
with open(text_file, encoding='UTF-8') as f:
    lines = f.read().split("\n")[:-1]
text_pairs = []
for line in lines:
    english, spanish = line.split("\t")
    spanish = "[start] " + spanish + " [end]"
    text_pairs.append((english, spanish))

In [5]:
import random
print(random.choice(text_pairs))

("There wasn't much traffic.", '[start] No había mucho tráfico. [end]')


一个样本示例


In [6]:
import random

random.shuffle(text_pairs)  #随机排序
num_val_samples = int(0.15 * len(text_pairs))  #15%的验证数据
num_train_samples = len(text_pairs) - 2 * num_val_samples
train_pairs = text_pairs[:num_train_samples]  #70%的训练数据
val_pairs = text_pairs[num_train_samples:num_train_samples +
                       num_val_samples]  #15%的验证数据
test_pairs = text_pairs[num_train_samples + num_val_samples:]  #15%的测试数据


将整个样本分割: 70:15:15 训练:验证:测试


In [19]:
from tensorflow.keras.layers.experimental.preprocessing import TextVectorization
import tensorflow as tf
import string
import re

strip_chars = string.punctuation + "¿"  # strip_chars = string.punctuation(所有标点符号) + ¿
strip_chars = strip_chars.replace("[", "")  #不替换 [
strip_chars = strip_chars.replace("]", "")  #不替换 ]


def custom_standardization(input_string):  #全部小写,删除除 '[' ']' 以外的全部标点
    lowercase = tf.strings.lower(input_string)  #小写
    #                 按照正则表达式替换          格式化字符串 re.escape 自动添加转义
    return tf.strings.regex_replace(lowercase, f"[{re.escape(strip_chars)}]",
                                    "")


vocab_size = 15000  #设置最大词汇量
sequence_length = 20  #设置最大句子长度

source_vectorization = TextVectorization(  #英语
    max_tokens=vocab_size,  #最大的词汇量
    output_mode="int",
    output_sequence_length=sequence_length,
)
target_vectorization = TextVectorization(  #西班牙语
    max_tokens=vocab_size,  #最大的词汇量
    output_mode="int",
    output_sequence_length=sequence_length +
    1,  #生成具有额外标记的西班牙语句子,我们需要在训练时将句子偏转一步(进行预测时 [start] 和 [end] 的缘故)
    standardize=custom_standardization,
)
train_english_texts = [pair[0] for pair in train_pairs]
train_spanish_texts = [pair[1] for pair in train_pairs]
source_vectorization.adapt(train_english_texts)  #学习
target_vectorization.adapt(train_spanish_texts)

因为语言差别,西班牙语和英语需要互相独立处理.西班牙语处理要传入自定义的字符串格式化函数.

- 保留 '[' 和 ']',默认情况下 '[' 和 ']' 都会被删除,但是为了区分 `start` 和 `[start]` 我们需要保留 '[' 和 ']'.(这里是仅西班牙语中有)
- 不同语言的标点符号有差别,如果英语中我们选择去掉标点符号,那么对应的西班牙语中的 `¿` 也需要删除.

**警告**: 对于应用在生产环境的模型,一般应该将标点符号映射为独立的标记,而不是直接删除.如果直接删除,那输出译文不会有正确的标点符号.在我们的例子中仅仅是为了简化代码而删除了标点符号.


In [20]:
batch_size = 64  #批次大小


def format_dataset(eng, spa):
    eng = source_vectorization(eng)  #英文 转换为向量
    spa = target_vectorization(spa)  #西班牙文 转换为向量
    return (
        {
            "english": eng,
            "spanish": spa[:, :-1],  #输入西班牙语句子 不包括最好一个字符,保证输入与目标相同的长度
        },
        spa[:, 1:])  #目标西班牙语句子 提前一步, 输入/输出依然是相同的长度.


def make_dataset(pairs):  #构造数据集
    eng_texts, spa_texts = zip(*pairs)
    eng_texts = list(eng_texts)
    spa_texts = list(spa_texts)
    dataset = tf.data.Dataset.from_tensor_slices((eng_texts, spa_texts))
    dataset = dataset.batch(batch_size)
    dataset = dataset.map(format_dataset)
    return dataset.shuffle(2048).prefetch(16).cache()


train_ds = make_dataset(train_pairs)
val_ds = make_dataset(val_pairs)

数据集是一个元组 (inputs, target),inputs 是字典,两个 key `encoder_inputs`(英语) 和 `decoder_inputs`(西班牙语)

In [21]:
for inputs, targets in train_ds.take(1):
    print(f"inputs['english'].shape: {inputs['english'].shape}")
    print(f"inputs['spanish'].shape: {inputs['spanish'].shape}")
    print(f"targets.shape: {targets.shape}")

inputs['english'].shape: (64, 20)
inputs['spanish'].shape: (64, 20)
targets.shape: (64, 20)


至此数据准备完毕.


## RNN 序列到序列模型

RNN 在 2015~2017 年主导了序列到序列模型的开发,然后其地位被 Transformer 取代.当时 RNN 是许多现实世界机器翻译系统的基础,例如 2017 年时 google 翻译就是由 7 个大型 ltsm 层堆叠的网络.但是今天这样的模型依旧值得学习,它提供了一个理解序列到序列模型的简单入口.


In [23]:
import tensorflow.keras as keras
import tensorflow.keras.layers as layers

In [24]:
inputs = keras.Input(shape=(sequence_length, ), dtype="int64")
x = layers.Embedding(input_dim=vocab_size, output_dim=128)(inputs)
x = layers.LSTM(32, return_sequences=True)(x)  #LSTM 返回序列
outputs = layers.Dense(vocab_size, activation="softmax")(x)  #输出
model = keras.Model(inputs, outputs)

最直观的使用 rnn 的序列到序列模型就是每个迭代后,保持 rnn 的输出.但是这样做有几个问题

- 目标序列长度必须和源序列长度一致,这在实际条件下非常少见,但是我们随时可以对序列进行填充到两者长度一致,因此这不是关键问题.
- 由于 rnn 的特点,这样的模型预测目标序列 `0~N` 只关注源序列 `0~N` 的标记,则在翻译任务中无法适用.一个例子: 'he weather is nice today' 翻译为法语 'Il fait beau aujourd’hui'.模型需要仅通过  `The` 就能翻译出 `Il` ,通过 `The weather`  翻译出 `Il fait`,这几乎是不可能完成的.

如果是人类译者,应该都会在写下译文前通读整个句子,特别是处理的语言在语序上非常不同时(例如: 英文和日文).而这也是标准序列到序列模型需要做的事情.


![rnn_seq2seq](rnn_seq2seq.png)

如上图所示:

- 首先要使用编码器(RNN),将输入整个源序列转换成单一张量(或一组张量).
- 然后将这个张量(或者一组张量)传递给另外一个解码器(RNN),作为解码器的初始状态,它将查看目标序列的 0~N,并尝试预测目标序列到 N+1.


In [25]:
from tensorflow import keras
from tensorflow.keras import layers

embed_dim = 256  #词向量维度
latent_dim = 1024  #隐藏层维度

source = keras.Input(shape=(None, ), dtype="int64", name="english")
x = layers.Embedding(vocab_size, embed_dim, mask_zero=True)(source)
encoded_source = layers.Bidirectional(layers.GRU(latent_dim),
                                      merge_mode="sum")(x)


这里编码器的实现: 使用 gru 代替了 ltsm 因为 gru 更加简单,只有一个状态向量.


In [26]:
past_target = keras.Input(shape=(None, ), dtype="int64", name="spanish")
x = layers.Embedding(vocab_size, embed_dim, mask_zero=True)(past_target)  #词嵌入
decoder_gru = layers.GRU(latent_dim, return_sequences=True)
x = decoder_gru(x, initial_state=encoded_source)  #gru
x = layers.Dropout(0.5)(x)  #dropout 层
target_next_step = layers.Dense(vocab_size, activation="softmax")(
    x)  #密集层 每个输出步骤尝试西班牙语词的概率分布
seq2seq_rnn = keras.Model([source, past_target], target_next_step)

解码器实现: 一个简单的 gru 层,gru 层将编码后的英文序列作为初始状态,在 gru 之后又接入了一个密集层,为每个步骤产生一个西班牙语词汇的概率分布.

训练过程中,解码器将整个目标序列作为输入,但是由于 rnn 所以解码器是只看 0~N 预测标记 N,这个过程和前文处理时序数据时意义相同,即 rnn 中我们只能使用 '过去' 的数据预测 '未来',绝对不能打破这个过程,否则我们的模型无法完成翻译工作.


In [27]:
seq2seq_rnn.compile(optimizer="rmsprop",
                    loss="sparse_categorical_crossentropy",
                    metrics=["accuracy"])
seq2seq_rnn.fit(train_ds, epochs=15, validation_data=val_ds)

Epoch 1/15
Epoch 2/15
Epoch 3/15
Epoch 4/15
Epoch 5/15
Epoch 6/15
Epoch 7/15
Epoch 8/15
Epoch 9/15
Epoch 10/15
Epoch 11/15
Epoch 12/15
Epoch 13/15
Epoch 14/15
Epoch 15/15


<tensorflow.python.keras.callbacks.History at 0x1f3b937a310>

这里看准确率是 64.4%: 64% 的时间内正确预测了西班牙语的下一个单词...

但是评价机器翻译,但是预测下一个词的正确率这个标准并不适合.特别是这个标准的一个假设前提: 预测前 N+1 个标记时,已经知道 0~N 的正确目标标记了.实际上在预测过程中,我们是从头生成目标序列,不能依赖以前生成标记是 100% 准确的.

在现实世界中考察机器翻译,一般会使用 BLEU 分数,这个是考察整个生成序列的指标,似乎与人类对翻译质量的感知正相关.


In [28]:
import numpy as np

spa_vocab = target_vectorization.get_vocabulary()
spa_index_lookup = dict(zip(range(len(spa_vocab)), spa_vocab))
max_decoded_sentence_length = 20


def decode_sequence(input_sentence):
    tokenized_input_sentence = source_vectorization([input_sentence])
    decoded_sentence = "[start]"
    for i in range(max_decoded_sentence_length):
        tokenized_target_sentence = target_vectorization([decoded_sentence])
        next_token_predictions = seq2seq_rnn.predict(
            [tokenized_input_sentence, tokenized_target_sentence])
        sampled_token_index = np.argmax(next_token_predictions[0, i, :])
        sampled_token = spa_index_lookup[sampled_token_index]
        decoded_sentence += " " + sampled_token
        if sampled_token == "[end]":
            break
    return decoded_sentence


test_eng_texts = [pair[0] for pair in test_pairs]
for _ in range(20):  #随机取了 20组
    input_sentence = random.choice(test_eng_texts)
    print("-")
    print(input_sentence)
    print(decode_sequence(input_sentence))

-
The enemy dropped bombs on the factory.
[start] el profesor se dijo en la guerra [end]
-
She had white shoes on.
[start] ella tenía los zapatos [UNK] [end]
-
The letter does not say what time she will come up to Tokyo.
[start] la carta no se va a decir que ella había ido a tokio [end]
-
We are having a mild winter.
[start] estamos en un año [end]
-
What are your responsibilities?
[start] cuál son tus cosas [end]
-
Tom fed the goats.
[start] tom de [UNK] a las [UNK] [end]
-
Tom has a pain in his big toe on his right foot.
[start] tom tiene un gran en su [UNK] en su gran estoy de la un todo el trabajo [end]
-
New Zealand is pretty incredible.
[start] [UNK] nueva es [UNK] [end]
-
I found a place to live.
[start] encontré un lugar para vivir [end]
-
They all left.
[start] todos se [UNK] [end]
-
Japan is not as large as Canada.
[start] japón no es tan grande como un aquí [end]
-
Tom isn't sure.
[start] tom no está seguro [end]
-
Tom is a thirteen-year-old boy.
[start] tom es un hombre de 

这里直接取了 20 组结果,看不懂西班牙文,所以无法人肉评价.书上作者的评价是作为一个玩具而言,效果还可以,尽管还有很多错误.

注意: 这里的代码非常简单,但是效率却很低,我们每次采样一个新词就会重新处理整个源序列和整个生成的目标序列,实际应用中会将编码器和解码器拆开成两个独立模型,解码器每次标记采样迭代时只运行一个步骤,重用其中的内部状态.


关于这个玩具模型的改进

- 编码器/解码器 堆叠更多的 rnn 层.
- 使用 ltsm 而不是 gru
- 等等

然而 rnn 的序列到序列模型有一些天然的劣势

- 源序列必须完全保存在编码器的状态向量中,这对模型能够翻译的句子大小和复杂性有非常大的限制.这有点像人类翻译句子仅凭记忆的知识,而不是多看几遍原句.
- rnn 在比较难以处理长序列.rnn 常常会遗忘过去.当你的序列长度超过 100 时,第 100 个标记输入模型,然而此时模型几乎没有序列一开始输入的信息了.这意味着 rnn 模型无法长时间保持上下文,这个缺点翻译长篇文章是致命的.

上面的限制是 2017 年以后业内从 rnn 大量转向 Transformer 的原因.
