![](../img/chinahadoop.png)

# seq2seq
**[小象学院](http://www.chinahadoop.cn/course/landpage/15)《机器学习集训营》课程资料 by [@寒小阳](https://www.chinahadoop.cn/user/49339/about)**

## seq2seq（序列到序列模型）简介
对于很多自然语言处理任务，比如**聊天机器人，机器翻译，自动文摘，智能问答**等，传统的解决方案都是**检索式(从候选集中选出答案)**，这对素材的完善程度要求很高，随着深度学习的发展，研究界将深度学习技术应用与自然语言的生成和自然语言的理解的方面的研究，并取得了一些突破性的成果，比如，Sequence-to-sequence (seq2seq) 模型，它是目前自然语言处理技术中非常重要和流行的一个模型，该技术突破了传统的固定大小输入问题框架，开通了将经典深度神经网络模型运用于翻译与职能问答这一类序列型任务的先河，并且被证实在各主流语言之间的相互翻译以及语音助手中人机短问快答的应用中有着非常好的表现，我们在这个notebook中主要给大家以动图的方式展示一下seq2seq模型的一些细节。

参考资料:[Visualizing A Neural Machine Translation Model](https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)

## 动态图解seq2seq
序列到序列的模型是非常有意思的NLP模型，我们的很多NLP任务，是文本到文本的映射(对应)，这个过程就像是下面图里展示的过程。当然seq2seq模型不仅仅是用在NLP中的模型，它的输入也可以是语音信号或者图像表示。

![](../img/L10/[1]_seq2seq_1.gif)

更具体一点，在NLP的任务中，其实输入的是文本序列，输出的很多时候也是文本序列，下图所示的是一个典型的机器翻译任务中，输入的文本序列(源语言表述)到输出的文本序列(目标语言表述)之间的变换。

![](../img/L10/[2]_seq2seq_2.gif)

更细节一点的结构是一个“编码解码器”结构，编码器处理输入序列中的每个元素(在这里可能是1个词)，将捕获的信息编译成向量（称为上下文内容向量）。在处理整个输入序列之后，编码器将上下文发送到解码器，解码器逐项开始产生输出序列。

![](../img/L10/[3]_seq2seq_3.gif)

在机器翻译的场景下，是下面这样的。

![](../img/L10/[4]_seq2seq_4.gif)

所谓的上下文向量其实就是

![](../img/L10/context.png)

输入的数据(文本序列)中的每个元素(词)通常会被编码成一个稠密的向量，这个过程叫做word embedding，如下图所示

![](../img/L10/embedding_seq2seq.png)

我们的encoder和decoder都会借助于循环神经网络(RNN)这类特殊的神经网络完成，循环神经网络会接受每个位置(时间点)上的输入，同时经过处理进行信息融合，并可能会在某些位置(时间点)上输出。如下图所示。

![](../img/L10/[5]_RNN_1.gif)

所以动态地展示整个编码器和解码器，分拆的步骤过程大概是下面这个样子。

![](../img/L10/[6]_seq2seq_6.gif)

更详细地展开，其实是这样的。

![](../img/L10/[7]_seq2seq_7.gif)

在更多的时候，我们考虑到提升效果，不会寄希望于把所有的内容都放到一个上下文向量(context vector)中，而是会采用一个叫做**注意力模型**的模型来动态处理和解码，动态的图如下所示。

![](../img/L10/[8]_seq2seq_8.gif)

所谓的注意力机制，可以粗略地理解为是一种对于输入的信息，根据重要程度进行不同权重的加权处理(通常加权的权重来源于softmax后的结果)的机制，如下图所示，是一个在解码阶段，简单地对编码器中的hidden states进行不同权重的加权处理的过程。

![](../img/L10/[9]_seq2seq_9.gif)

更详细一点的**注意力解码**过程如下图所示。

- 带注意力的解码器RNN接收<END>的嵌入(embedding)和一个初始的解码器隐藏状态(hidden state)。
- RNN处理输入，产生输出和新的隐藏状态向量（h4），输出被摒弃不用。
- attention的步骤：使用编码器隐藏状态(hidden state)和h4向量来计算该时间步长的上下文向量（C4）。
- 把h4和C4拼接成一个向量。
- 把拼接后的向量连接全连接层和softmax完成解码
- 每个时间点上重复这个操作

![](../img/L10/attention_tensor_dance.gif)

也可以把这个动态解码的过程展示成下述图所示的过程。

![](../img/L10/[11]_seq2seq_9.gif)

注意力机制是一个很神奇地可以学习源语言和目标语言之间词和词对齐关系的方式。如下图所示。

![](../img/L10/attention_sentence.png)

## 图解seq2seq计算细节
内容参考自[图解seq2seq](https://zhuanlan.zhihu.com/p/40920384)

seq2seq 是一个Encoder–Decoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。

![](../img/L10/pic1-edit.jpg)

输入： $x = (x_1,...,x_{T_x})$

输出： $y = (y_1,...,y_{T_y})$

(1) $h_t = RNN_{enc}(x_t, h_{t-1})$ , Encoder方面接受的是每一个单词word embedding，和上一个时间点的hidden state。输出的是这个时间点的hidden state。

(2) $s_t = RNN_{dec}(\hat{y_{t-1}},s_{t-1})$ ， Decoder方面接受的是目标句子里单词的word embedding，和上一个时间点的hidden state。

(3) $c_i = \sum_{j=1}^{T_x} \alpha_{ij}h_j$ , context vector是一个对于encoder输出的hidden states的一个加权平均。

(4) $\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}$ , 每一个encoder的hidden states对应的权重。

(5) $e_{ij} = score(s_i, h_j)$ , 通过decoder的hidden states加上encoder的hidden states来计算一个分数，用于计算权重(4)

(6) $\hat{s_t} = tanh(W_c[c_t;s_t])$, 将context vector 和 decoder的hidden states 串起来。

(7) $p(y_t|y_{<t},x) = softmax(W_s\hat{s_t})$ ，计算最后的输出概率。

![](../img/L10/pic2-edit.jpg)

(1) $h_t = RNN_{enc}(x_t, h_{t-1})$ , Encoder方面接受的是每一个单词word embedding，和上一个时间点的hidden state。输出的是这个时间点的hidden state。

![](../img/L10/pic3-edit.jpg)

(2) $s_t = RNN_{dec}(\hat{y_{t-1}},s_{t-1})$ ， Decoder方面接受的是目标句子里单词的word embedding，和上一个时间点的hidden state。

![](../img/L10/pic4-edit.jpg)

(3) $c_i = \sum_{j=1}^{T_x} \alpha_{ij}h_j$ , context vector是一个对于encoder输出的hidden states的一个加权平均。

(4) $\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^{T_x}exp(e_{ik})}$ , 每一个encoder的hidden states对应的权重。

(5) $e_{ij} = score(s_i, h_j)$ , 通过decoder的hidden states加上encoder的hidden states来计算一个分数，用于计算权重(4)

![](../img/L10/pic5-edit.jpg)

下一个时间点

![](../img/L10/pic6-edit.jpg)

(6) $\hat{s_t} = tanh(W_c[c_t;s_t])$, 将context vector 和 decoder的hidden states 串起来。

(7) $p(y_t|y_{<t},x) = softmax(W_s\hat{s_t})$ ，计算最后的输出概率。

![](../img/L10/pic7-edit.jpg)

在luong中提到了三种score的计算方法。这里图解前两种：
![](../img/L10/score.png)

#### 第1种
输入是encoder的所有hidden states H: 大小为(hid dim, sequence length)。decoder在一个时间点上的hidden state， s： 大小为（hid dim, 1）。

第一步：旋转H为（sequence length, hid dim) 与s做点乘得到一个 大小为(sequence length, 1)的分数。

第二步：对分数做softmax得到一个合为1的权重。

第三步：将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

![](../img/L10/pic8-edit.jpg)

#### 第2种
输入是encoder的所有hidden states H: 大小为(hid dim1, sequence length)。decoder在一个时间点上的hidden state， s： 大小为（hid dim2, 1）。此处两个hidden state的纬度并不一样。

第一步：旋转H为（sequence length, hid dim1) 与 Wa [大小为 hid dim1, hid dim 2)] 做点乘， 再和s做点乘得到一个 大小为(sequence length, 1)的分数。

第二步：对分数做softmax得到一个合为1的权重。

第三步：将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

![](../img/L10/pic9-edit.jpg)