<font color='red'>注：此处是文档第226页</font>

写在前面：这个模型在“[09-混合前端的seq2seq模型部署-聊天机器人](../09-%E6%B7%B7%E5%90%88%E5%89%8D%E7%AB%AF%E7%9A%84seq2seq%E6%A8%A1%E5%9E%8B%E9%83%A8%E7%BD%B2-%E8%81%8A%E5%A4%A9%E6%9C%BA%E5%99%A8%E4%BA%BA.ipynb)”中已经实现过一遍了，这次相当于换数据再次实现，所以应该尝试自己实现一下，这里写的模型说明很详细。

# 聊天机器人教程

在本教程中，我们探索一个好玩有趣的循环的序列到序列（sequence-to-sequence）的模型用例。我们将用[Cornell Movie-Dialogs Corpus](https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html)处的电影剧本来训练一个简单的聊天机器人。

在人工智能研究领域中，对话模型是一个非常热门的话题。聊天机器人可以在各种设置中找到，包括客户服务应用和在线帮助。这些机器人通常 由基于检索的模型提供支持，这些模型的输出是某些形式问题预先定义的响应。在像公司IT服务台这样高度受限制的领域中，这些模型可能足够了， 但是，对于更一般的用例它们还不够健壮。让一台机器与多领域的人进行有意义的对话是一个远未解决的研究问题。最近，深度学习热潮已经允许 强大的生成模型，如谷歌的神经对话模型[Neural Conversational Model](https://arxiv.org/abs/1506.05869)，这标志着向多领域生成对话模型迈出了一大步。 在本教程中，我们将在PyTorch中实现这种模型。

**教程要点**
- 对[Cornell Movie-Dialogs Corpus](https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html)数据集的加载和预处理
- 用[Luong attention mechanism(s)](https://arxiv.org/abs/1508.04025)实现一个sequence-to-sequence模型
- 使用小批量数据联合训练解码器和编码器模型
- 实现贪婪搜索解码模块
- 与训练好的聊天机器人互动

**大致流程**
- 数据预处理：将文本数据处理成适合格式化处理的格式
- 数据编码
- 编码器：使用RNN的GRU实现编码器
- 注意力模块：用于解码器
- 解码器
- 编码器训练方法
- 解码器训练方法
- 整合编码器与解码器到一个模型中
- 模型使用方法
- 模型评估

## 1.下载数据文件
下载数据文件点击[这里](https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html)并将其放入到当前目录下的 `data/` 文件夹下。之后我们引入一些必须的包。

In [2]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function
from __future__ import unicode_literals
import torch
from torch.jit import script, trace
import torch.nn as nn
from torch import optim
import torch.nn.functional as F

import pandas as pd
import csv
import random
import re
import os
import unicodedata
import codecs
from io import open
import itertools
import math

USE_CUDA = torch.cuda.is_available()
device = torch.device("cuda" if USE_CUDA else "cpu")

## 2.加载和预处理数据
下一步就是格式化处理我们的数据文件并将数据加载到我们可以使用的结构中。 [Cornell MovieDialogs Corpus](https://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html)是一个丰富的电影角色对话数据集： 
* 10,292 对电影角色之间的220,579次对话 
* 617部电影中的9,035个电影角色 
* 总共304,713发言量

这个数据集庞大而多样，在语言形式、时间段、情感上等都有很大的变化。我们希望这种多样性使我们的模型能够适应多种形式的输入和查询。

首先，我们通过数据文件的某些行来查看原始数据的格式

In [3]:
corpus_name = "cornell movie-dialogs corpus"
corpus = os.path.join("../../data/", corpus_name)

def printLines(file, n=10):
    with open(file, "rb") as f:
        lines = f.readlines()
    for i in lines[:n]:
        print(i)

printLines(os.path.join(corpus, "movie_lines.txt"))

b'L1045 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ They do not!\n'
b'L1044 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ They do to!\n'
b'L985 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ I hope so.\n'
b'L984 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ She okay?\n'
b"L925 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Let's go.\n"
b'L924 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ Wow\n'
b"L872 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Okay -- you're gonna need to learn how to lie.\n"
b'L871 +++$+++ u2 +++$+++ m0 +++$+++ CAMERON +++$+++ No\n'
b'L870 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ I\'m kidding.  You know how sometimes you just become this "persona"?  And you don\'t know how to quit?\n'
b'L869 +++$+++ u0 +++$+++ m0 +++$+++ BIANCA +++$+++ Like my fear of wearing pastels?\n'


### 2.1 创建格式化数据文件
为了方便起见，我们将创建一个格式良好的数据文件，其中每一行包含一个由 tab 制表符分隔的查询语句和响应语句对。

以下函数便于解析原始 movie_lines.txt 数据文件。 
* loadLines: 将文件的每一行拆分为字段(lineID, characterID, movieID, character, text) 组合的字典 
* loadConversations: 根据movie_conversations.txt 将 loadLines 中的每一行数据进行归类 
* extractSentencePairs: 从对话中提取句子对

In [4]:
def loadLines(fileName, fields):
    # 结构：{lineID: {field: value, ...}, ...}
    # 没办法用pd.read_csv 实现
    # fields: lineID, characterID, movieID, character, text
    lines = {}
    with open(fileName, "r", encoding="iso-8859-1") as f:
        for line in f:
            values = line.split(" +++$+++ ")
            lineObj = {}
            for value, field in zip(values, fields):
                lineObj[field] = value
            lines[lineObj['lineID']] = lineObj
    return lines


def loadConversations(fileName, lines, fields):
    # 结构：[{field: value, "lines": lines[utteranceID]}]
    # utteranceIDs=eval(values[-1])
    conversations = []
    with open(fileName, 'r', encoding='iso-8859-1') as f:
        for line in f:
            values = line.split(" +++$+++ ")
            # Extract fields
            convObj = {}
            for value, field in zip(values, fields):
                convObj[field] = value
            convObj["lines"] = [lines[i] for i in eval(convObj["utteranceIDs"])]
            conversations.append(convObj)
    return conversations


# 从对话中提取一对句子
def extractSentencePairs(conversations):
    # 结构：[[q_text, a_text], ...]
    qa_pairs = []
    for conversation in conversations:
        for i in range(len(conversation['lines']) - 1):
            inputLine = conversation['lines'][i]['text'].strip()
            targetLine = conversation['lines'][i+1]['text'].strip()
            if inputLine and targetLine:
                qa_pairs.append([inputLine, targetLine])
    return qa_pairs

现在我们将调用这些函数来创建文件，我们命名为formatted_movie_lines.txt 。

In [5]:
datafile = os.path.join(corpus, "formatted_movie_lines.txt")
delimiter = '\t'
delimiter = str(codecs.decode(delimiter, "unicode_escape"))

# 初始化行dict，对话列表和字段ID
lines = {}
conversations = []
MOVIE_LINES_FIELDS = ["lineID", "characterID", "movieID", "character", "text"]
MOVIE_CONVERSATIONS_FIELDS = ["character1ID", "character2ID", "movieID", "utteranceIDs"]

movie_lines_file = os.path.join(corpus, "movie_lines.txt")
movie_lines = loadLines(movie_lines_file, fields=MOVIE_LINES_FIELDS)

# 加载行和进程对话
print("\nProcessing corpus...")
lines = loadLines(os.path.join(corpus, "movie_lines.txt"), MOVIE_LINES_FIELDS)
print("\nLoading conversations...")
conversations = loadConversations(os.path.join(corpus, "movie_conversations.txt"), 
                                  lines, MOVIE_CONVERSATIONS_FIELDS)
pd.DataFrame(extractSentencePairs(conversations)).to_csv(
    datafile, sep='\t', line_terminator="\n", encoding='utf-8', header=False, index=False
)


Processing corpus...

Loading conversations...


In [6]:
printLines(datafile)

b"Can we make this quick?  Roxanne Korrine and Andrew Barrett are having an incredibly horrendous public break- up on the quad.  Again.\tWell, I thought we'd start with pronunciation, if that's okay with you.\n"
b"Well, I thought we'd start with pronunciation, if that's okay with you.\tNot the hacking and gagging and spitting part.  Please.\n"
b"Not the hacking and gagging and spitting part.  Please.\tOkay... then how 'bout we try out some French cuisine.  Saturday?  Night?\n"
b"You're asking me out.  That's so cute. What's your name again?\tForget it.\n"
b"No, no, it's my fault -- we didn't have a proper introduction ---\tCameron.\n"
b"Cameron.\tThe thing is, Cameron -- I'm at the mercy of a particularly hideous breed of loser.  My sister.  I can't date until she does.\n"
b"The thing is, Cameron -- I'm at the mercy of a particularly hideous breed of loser.  My sister.  I can't date until she does.\tSeems like she could get a date easy enough...\n"
b'Why?\tUnsolved mystery.  She used t

### 2.2 加载和清洗数据
我们下一个任务是创建词汇表并将查询/响应句子对（对话）加载到内存。
注意我们正在处理**词序**，这些词序没有映射到离散数值空间。因此，我们必须通过数据集中的单词来创建一个索引。

为此我们创建了一个 `Voc` 类,它会
+ 存储从单词到索引的映射、
+ 索引到单词的反向映射、
+ 每个单词的计数和总单词量。
+ 这个类提供向词汇表中添加单词的方法( `addWord` )、
+ 添加所有单词到句子中的方法 ( `addSentence` ) 
+ 和清洗不常见的单词方法( `trim` )。

更多的数据清洗在后面进行。

In [7]:
# 默认词向量
PAD_token = 0 # Used for padding short sentences
SOS_token = 1 # Start-of-sentence token
EOS_token = 2 # End-of-sentence token

class Voc:
    
    def __init__(self, name):
        self.name = name
        self.trimmed = False
        self.word2index = {}
        self.word2count = {}
        self.index2word = {PAD_token: "PAD", SOS_token: "SOS", EOS_token: "EOS"}
        self.num_words = 3
    
#     def select_index(self, word):
#         """由于去除了低频词以及实际使用时可能会遇到新词，
#         因此将这部分词，作为空值返回"""
#         if word in self.word2index:
#             return self.word2index[word]
#         return PAD_token
    
    def addSentnce(self, sentence):
        for word in sentence.split(" "):
            self.addWord(word)
    
    def addWord(self, word):
        if word not in self.word2index.keys():
            self.word2index[word] = self.num_words
            self.word2count[word] = 1
            self.index2word[self.num_words] = word
            self.num_words += 1
        else:
            self.word2count[word] += 1
    
    def trim(self, min_count):
        """删除低于计数阈值的单词"""
        if self.trimmed:
            return
        self.trimmed = True
        keep_words = []
        for k, v in self.word2count.items():
            if v >= min_count:
                keep_words.append(k)
                
        print('keep_words {} / {} = {:.4f}'.format(
            len(keep_words), len(self.word2index), 
            len(keep_words) / len(self.word2index)
        ))
        
        self.word2index = {}
        self.word2count = {}
        self.index2word = {PAD_token: "PAD", SOS_token: "SOS", EOS_token: "EOS"}
        self.num_words = 3
        
        for word in keep_words:
            self.addWord(word)

现在我们可以组装词汇表和查询/响应语句对。在使用数据之前，我们必须做一些预处理。

首先，我们必须使用 unicodeToAscii 将 unicode 字符串转换为 ASCII。然后，我们应该将所有字母转换为小写字母并清洗掉除基本标点之 外的所有非字母字符 ( normalizeString )。最后，为了帮助训练收敛，我们将过滤掉长度大于MAX_LENGTH 的句子 ( filterPairs )。

In [8]:
MAX_LENGTH = 10


# 将Unicode字符串转换为纯ASCII，多亏了
# https://stackoverflow.com/a/518232/2809427
def unicodeToAscii(s):
    """Málaga转换成Malaga"""
    return "".join(
        c for c in unicodedata.normalize("NFD", s)
        if unicodedata.category(c) != "Mn"
    )


# 小写并删除非字母字符
def normalizeString(s):
    s = s.lower()
    s = re.sub(r"([.!?])", r" \1", s)  # 基础符号与句子空格隔开
    s = re.sub(r"[^a-zA-Z.!?]+", r" ", s)  # 其他符号替换成空格
    return s


# 初始化Voc对象 和 格式化pairs对话存放到list中
def readVocs(datafile, corpus_name):
    print("Reading lines...")
    lines = open(datafile, encoding="utf-8").read().strip().split("\n")
    pairs = [[normalizeString(s) for s in l.split('\t')] for l in lines]
    voc = Voc(corpus_name)
    return voc, pairs


# 如果对 'p' 中的两个句子都低于 MAX_LENGTH 阈值，则返回True
def filterPair(p):
    # Input sequences need to preserve the last word for EOS token
    return len(p[0].split(" ")) < MAX_LENGTH and len(p[1].split(" ")) < MAX_LENGTH


# 过滤满足条件的 pairs 对话
def filterPairs(pairs):
    return [pair for pair in pairs if filterPair(pair)]


# 使用上面定义的函数，返回一个填充的voc对象和对列表
def loadPrepareData(corpus, corpus_name, datafile, save_dir):
    voc, pairs = readVocs(datafile, corpus_name)
    print("Read {!s} sentence pairs".format(len(pairs)))
    pairs = filterPairs(pairs)
    print("Trimmed to {!s} sentence pairs".format(len(pairs)))
    print("Counting words...")
    for pair in pairs:
        voc.addSentnce(pair[0])
        voc.addSentnce(pair[1])
    print("Counted words:", voc.num_words)
    return voc, pairs


save_dir = os.path.join("../../data/", "save")
voc, pairs = loadPrepareData(corpus, corpus_name, datafile, save_dir)
print('\npairs:')
for pair in pairs[:10]:
    print(pair)

Reading lines...
Read 221282 sentence pairs
Trimmed to 63436 sentence pairs
Counting words...
Counted words: 17755

pairs:
['there .', 'where ?']
['you have my word . as a gentleman', 'you re sweet .']
['hi .', 'looks like things worked out tonight huh ?']
['you know chastity ?', 'i believe we share an art instructor']
['have fun tonight ?', 'tons']
['well no . . .', 'then that s all you had to say .']
['then that s all you had to say .', 'but']
['but', 'you always been this selfish ?']
['do you listen to this crap ?', 'what crap ?']
['what good stuff ?', ' the real you . ']


另一种有利于让训练更快收敛的策略是去除词汇表中很少使用的单词。减少特征空间也会降低模型学习目标函数的难度。我们通过以下两个步 骤完成这个操作: 
* 使用 voc.trim 函数去除MIN_COUNT 阈值以下单词 。 
* 如果句子中包含词频过小的单词，那么整个句子也被过滤掉。

In [9]:
MIN_COUNT = 3  # 剪裁的最小字数阈值


def trimHareWords(voc: Voc, pairs, min_count=MIN_COUNT):
    voc.trim(min_count)
    keep_pairs = []
    for pair in pairs:
        input_sentence = pair[0]
        output_sentence = pair[1]
        keep_input = True
        keep_output = True
        
        for word in input_sentence.split(" "):
            if word not in voc.word2index:
                keep_input = False
                break
        
        for word in output_sentence.split(" "):
            if word not in voc.word2index:
                keep_output = False
                break
        
        if keep_input and keep_output:
            keep_pairs.append(pair)
    
    print("Trimmed from {} pairs to {}, {:.4f} of total".format(
        len(pairs),len(keep_pairs), len(keep_pairs) / len(pairs)))
    return keep_pairs


pairs = trimHareWords(voc, pairs, MIN_COUNT)

keep_words 7700 / 17752 = 0.4338
Trimmed from 63436 pairs to 52460, 0.8270 of total


## 3.为模型准备数据

尽管我们已经投入了大量精力来准备和清洗我们的数据，将它变成一个很好的词汇对象和一系列的句子对，但我们的模型最终希望数据以 numerical torch 张量作为输入。可以在seq2seq translation tutorial 中找到为模型准备处理数据的一种方法。 在该教程中，我们使用 batch size大小为1，这意味着我们所要做的就是将句子对中的单词转换为词汇表中的相应索引，并将其提供给模型。但是，如果你想要加速训练或者想要利用GPU并行计算能力，则需要使用小批量 mini-batches 来训练。

使用小批量 mini-batches 也意味着我们必须注意批量处理中句子长度的变化。为了容纳同一batch中不同大小的句子，我们将使我们的批量输入张量大小 (max_length，batch_size)，其中短于**max_length**的句子在**EOS_token**之后进行零填充（zero padded）。

如果我们简单地将我们的英文句子转换为张量，通过将单词转换为索引indicesFromSentence 和零填充 zero-pad ，我们的张量的大小将是(batch_size，max_length) ，并且索引第一维将在所有时间步骤中返回完整序列。但是，我们需要沿着时间对我们批量数据进行索引并且包括批量数据中所有序列。因此，我们将输入批处理大小转换为 (max_length，batch_size) ，以便跨第一维的索引返回批处理中所有句子的时间步长。 我们在 zeroPadding 函数中隐式处理这个转置。

![image-2.png](attachment:image-2.png)

inputvar 函数是处理将句子转换为张量的过程，最终创建正确大小的零填充张量。它还返回批处理中每个序列的长度张量(tensor of lengths)， 长度张量稍后将传递给我们的解码器。

outputvar 函数执行与 inputvar 类似的函数，但他不返回长度张量，而是返回二进制 mask tensor 和最大目标句子长度。二进制 mask tensor 的大小与输出目标张量的大小相同，但作为PAD_token 的每个元素都是0而其他元素都是1。

batch2traindata 只需要取一批句子对，并使用上述函数返回输入张量和目标张量。

In [10]:
def indexesFromSentence(voc: Voc, sentence):
    return [voc.word2index[i] for i in sentence.split(" ")] + [EOS_token]


# zip 对数据进行合并了，相当于行列转置了
def zeroPadding(l, fillvalue=PAD_token):
    return list(itertools.zip_longest(*l, fillvalue=fillvalue))


# 记录 PAD_token的位置为0， 其他的为1
def binaryMatrix(l, value=PAD_token):
    m = []
    for i, seq in enumerate(l):
        m.append([])
        for token in seq:
            if token == value:
                m[i].append(0)
            else:
                m[i].append(1)
    return m


# 返回填充前（加入结束index EOS_token做标记）的长度 和 填充后的输入序列张量
def inputVar(l, voc):
    indexes_batch = [indexesFromSentence(voc, sentence) 
                     for sentence in l]
    lengths = torch.tensor([len(indexes) for indexes in indexes_batch])
    padList = zeroPadding(indexes_batch)
    padVar = torch.LongTensor(padList)
    return padVar, lengths


# 返回填充前（加入结束index EOS_token做标记）最长的一个长度 和 填充后的输入序列张量, 和 填充后的标记 mask
def outputVar(l, voc):
    indexes_batch = [indexesFromSentence(voc, sentence) 
                     for sentence in l]
    max_target_len = max(len(indexes) for indexes in indexes_batch)
    padList = zeroPadding(indexes_batch)
    mask = binaryMatrix(padList)
    mask = torch.ByteTensor(mask)
    padVar = torch.LongTensor(padList)
    return padVar, mask, max_target_len


# 返回给定batch对的所有项目
def batch2TrainData(voc, pair_batch):
    pair_batch.sort(key=lambda x: len(x[0].split(" ")), reverse=True)
    input_batch, output_batch = [], []
    for pair in pair_batch:
        input_batch.append(pair[0])
        output_batch.append(pair[1])
    inp, lengths = inputVar(input_batch, voc)
    output, mask, max_target_len = outputVar(output_batch, voc)
    return inp, lengths, output, mask.bool(), max_target_len


small_batch_size = 5
batches = batch2TrainData(voc, [random.choice(pairs) for _ in 
                                range(small_batch_size)])
input_variable, lengths, target_variable, mask, max_target_len = batches

print("input_variable:", input_variable)
print("lengths:", lengths)
print("target_variable:", target_variable)
print("mask:", mask)
print("max_target_len:", max_target_len)

input_variable: tensor([[  61,   65,   25,   25,  319],
        [  61,    5,  234,  384,    4],
        [  61,  116,   99,    7,    2],
        [  61,   54, 1321,    4,    0],
        [  61, 4495,    4,    2,    0],
        [  67,    6,    2,    0,    0],
        [  67,    2,    0,    0,    0],
        [  67,    0,    0,    0,    0],
        [  67,    0,    0,    0,    0],
        [   2,    0,    0,    0,    0]])
lengths: tensor([10,  7,  6,  5,  3])
target_variable: tensor([[ 102,  288,    7,    7,   25],
        [  37, 7106,  234,   14,  133],
        [ 267,  123,   40,  862,  251],
        [1157,   54,  219,    4,  420],
        [ 387, 2241,    9,    2,    7],
        [  67, 2997,  859,    0,    4],
        [   2,   77,  145,    0,    2],
        [   0,    4,   84,    0,    0],
        [   0,    2,    6,    0,    0],
        [   0,    0,    2,    0,    0]])
mask: tensor([[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True],
        [ True,  True,  True,  

In [11]:
input_variable[0].size()

torch.Size([5])

## 4.定义模型
### 4.1 Seq2Seq模型
Seq2Seq模型：我们聊天机器人的大脑是序列到序列（seq2seq）模型。seq2seq模型的目标是将可变长度序列作为输入，并使用固定大小的模型将可变长度序 列作为输出返回。

[Sutskever et al](https://arxiv.org/abs/1409.3215).发现通过一起使用两个独立的RNN，我们可以完成这项任务。第一个RNN充当**编码器**，其将可变长度输入序列编码为固定长度上下文向量。理论上，该上下文向量（RNN的最终隐藏层）将包含关于输入到机器人的查询语句的语义信息。第二个RNN是一个**解码器**，它接收输入文字和上下文矢量，并返回序列中下一句文字的概率和在下一次迭代中使用的隐藏状态。
![image.png](attachment:image.png)
图片来源: [https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/](https://jeddy92.github.io/JEddy92.github.io/ts_seq2seq_intro/)

### 4.2 编码器
编码器RNN每次迭代中输入一个语句输出一个token（例如，一个单词），同时在这时间内输出“输出”向量和“隐藏状态”向量。然后将隐藏 状态向量传递到下一步，并记录输出向量。编码器将其在序列中的每一点处看到的上下文转换为高维空间中的一系列点，解码器将使用这些点 为给定任务生成有意义的输出。

我们的编码器的核心是由[Cho et al](https://arxiv.org/pdf/1406.1078v3.pdf).等人发明的多层门循环单元。在2014年，我们将使用 GRU的双向变体，这意味着基本上有两个独立的RNN：一个以正常的顺序输入输入序列，另一个以相反的顺序输入输入序列。每个网络的输出在 每个时间步骤求和。使用双向GRU将为我们提供编码过去和未来上下文的优势。

双向RNN：
![image.png](attachment:image.png)
图片来源: [https://colah.github.io/posts/2015-09-NN-Types-FP/](https://colah.github.io/posts/2015-09-NN-Types-FP/)
>注意: `embedding` 层用于在任意大小的特征空间中对我们的单词索引进行编码。对于我们的模型，此图层会将每个单词映射到大小为 `hidden_size` 的特征空间。训练后，这些值会被编码成和他们相似的有意义词语。

最后，如果将填充的一批序列传递给RNN模块，我们必须分别使用`torch.nn.utils.rnn.pack_padded_sequence` 和`torch.nn.utils.rnn.pad_packed_sequence` 在RNN传递时分别进行填充和反填充。

`计算图`

1. 将单词索引转换为词嵌入 embeddings。
2. 为RNN模块打包填充batch序列。
3. 通过GRU进行前向传播。
4. 反填充。
5. 对双向GRU输出求和。
6. 返回输出和最终隐藏状态。

`输入`
- input_seq ：一批输入句子; shape =（max_length，batch_size
- input_lengths ：batch中每个句子对应的句子长度列表;shape=(batch_size)
- hidden :隐藏状态;shape =(n_layers x num_directions，batch_size，hidden_size)

`输出`
- outputs ：GRU最后一个隐藏层的输出特征（双向输出之和）;shape =（max_length，batch_size，hidden_size）
- hidden ：从GRU更新隐藏状态;shape =（n_layers x num_directions，batch_size，hidden_size）

In [12]:
class EncoderRNN(nn.Module):
    
    def __init__(self, hidden_size, embedding, n_layers=1, dropout=0):
        super(EncoderRNN, self).__init__()
        self.n_layers = n_layers
        self.hidden_size = hidden_size
        self.embedding = embedding
        
        self.gru = nn.GRU(hidden_size, hidden_size, n_layers, 
                          dropout=(0 if n_layers == 1 else dropout),
                          bidirectional=True)
        
    def forward(self, input_seq, input_lengths, hidden=None):
        embedding = self.embedding(input_seq)
        packed = nn.utils.rnn.pack_padded_sequence(embedding, input_lengths)
        outputs, hidden = self.gru(packed, hidden)
        outputs, _ = nn.utils.rnn.pad_packed_sequence(outputs)
        outputs = outputs[:, :, :self.hidden_size] + outputs[:, :, self.hidden_size:]
        return outputs, hidden

### 4.3 解码器
解码器RNN以**token-by-token**的方式生成响应语句。它使用编码器的上下文向量和内部隐藏状态来生成序列中的下一个单词。它持续生成单词，直到输出是**EOS_token**，这个表示句子的结尾。

一个 vanilla seq2seq 解码器的常见问题是，如果我们只依赖于上下文向量来编码整个输入序列的含义，那么我们很可能会丢失信息。尤其是在处理长输入序列时，这极大地限制了我们的解码器的能力。

为了解决这个问题，[Bahdanau et al](https://arxiv.org/abs/1409.0473).等人创建了一种“attention mechanism”，允许解码器关注输入序列的某些部分，而不是在每一步都使用完全固定的上下文。

在一个高的层级中，用解码器的当前隐藏状态和编码器输出来计算注意力。输出注意力的权重与输入序列具有相同的大小，允许我们将它们乘 以编码器输出，给出一个加权和，表示要注意的编码器输出部分。[Sean Robertson](https://github.com/spro)的图片很好地描述了这一点：
![image.png](attachment:image.png)
[Luong et al](https://arxiv.org/abs/1508.04025).通过创造“Global attention”，改善了[Bahdanau et al](https://arxiv.org/abs/1409.0473). 的基础工作。关键的区别在于，对于“Global attention”，我们考虑所有编码器的隐藏状态，而不是 Bahdanau 等人的“Local attention”，它只考虑当前步中编码器的隐藏状态。另一个区别在于，通过“Global attention”，我们仅使用当前步的解码器的隐藏状态来计算注意力权重 （或者能量）。Bahdanau 等人的注意力计算需要知道前一步中解码器的状态。 此外，Luong等人提供各种方法来计算编码器输出和解码器输出之间的注意权重（能量），称之为“score functions”：
![image-2.png](attachment:image-2.png)
其中$h_t$=当前目标解码器状态，$\bar{h}_s$=所有编码器状态。

总体而言，Global attention机制可以通过下图进行总结。请注意，我们将“Attention Layer”用一个名为 Attn 的 nn.Module 来单独实现。 该模块的输出是经过softmax标准化后权重张量的大小**（batch_size，1，max_length）**。
![image-3.png](attachment:image-3.png)

In [13]:
class Attn(nn.Module):
    def __init__(self, method, hidden_size):
        super(Attn, self).__init__()
        self.method = method
        if self.method not in ["dot", "general", "concat"]:
            raise ValueError(self.method, "is not an appropriate attentionmethod.")
        self.hidden_size = hidden_size
        if self.method == "general":
            self.attn = nn.Linear(self.hidden_size, hidden_size)
        elif self.method  == "concat":
            self.attn = nn.Linear(self.hidden_size * 2, hidden_size)
            self.v = nn.Parameter(torch.FloatTensor(hidden_size))
        
    def dot_score(self, hidden, encoder_output):
        # h1 * h2
        return torch.sum(hidden * encoder_output, dim=2)

    def general_score(self, hidden, encoder_output):
        # w * h2
        energy = self.attn(encoder_output)
        # h1 * w * h2
        return torch.sum(hidden * energy, dim=2)

    def concat_score(self, hidden, encoder_output):
        # tanh(w * [h1; h2])
        energy = self.attn(torch.cat((
            hidden.expand(encoder_output.size(0), -1, -1), 
            encoder_output), 2
        )).tanh()
        # v * tanh(w * [h1; h2])
        return torch.sum(self.v * energy, dim=2)

    def forward(self, hidden, encoder_outputs):
        if self.method == "dot":
            attn_energies = self.dot_score(hidden, encoder_outputs)
        elif self.method == "general":
            attn_energies = self.general_score(hidden, encoder_outputs)
        elif self.method  == "concat":
            attn_energies = self.concat_score(hidden, encoder_outputs)
        
        # 转置max_length和batch_size尺寸
        attn_energies = attn_energies.t()
        
        # 返回softmax归一化概率分数(添加维度)
        # unsqueeze(1)在指定维度增加一维
        return F.softmax(attn_energies, dim=1).unsqueeze(1)

In [14]:
class LuongAttnDecoderRNN(nn.Module):
    def __init__(self, attn_model, embedding, hidden_size, output_size, 
                 n_layers=1, dropout=0.1):
        super(LuongAttnDecoderRNN, self).__init__()
        
        self.attn_model = attn_model
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.n_layers = n_layers
        self.dropout = dropout
        
        self.embedding = embedding
        self.embedding_dropout = nn.Dropout(dropout)
        self.gru = nn.GRU(hidden_size, hidden_size, n_layers, 
                          dropout=(0 if n_layers == 1 else dropout))
        self.concat = nn.Linear(hidden_size * 2, hidden_size)
        self.out = nn.Linear(hidden_size, output_size)

        self.attn = Attn(attn_model, hidden_size)
        
    def forward(self, input_step, last_hidden, encoder_outputs):
        embedded = self.embedding(input_step)
        embedded = self.embedding_dropout(embedded)
        rnn_output, hidden = self.gru(embedded, last_hidden)
        # 从当前GRU输出计算注意力
        attn_weights = self.attn(rnn_output, encoder_outputs)
        # 将注意力权重乘以编码器输出以获得新的“加权和”上下文向量
        context = attn_weights.bmm(encoder_outputs.transpose(0, 1))
        # 使用Luong的公式五连接加权上下文向量和GRU输出
        rnn_output = rnn_output.squeeze(0)
        context = context.squeeze(1)
        concat_input = torch.cat((rnn_output, context), 1)
        concat_output = torch.tanh(self.concat(concat_input))
        # 使用Luong的公式6预测下一个单词
        output = self.out(concat_output)
        output = F.softmax(output, dim=1)
        # 返回输出和在最终隐藏状态
        return output, hidden

## 5.定义训练步骤
### 5.1 Masked 损失
[https://zhuanlan.zhihu.com/p/77737758](https://zhuanlan.zhihu.com/p/77737758)

由于我们处理的是批量填充序列，因此在计算损失时我们不能简单地考虑张量的所有元素。我们定义 maskNLLLoss 可以根据解码器的输出张量、 描述目标张量填充的 binary mask 张量来计算损失。该损失函数计算与 mask tensor 中的1对应的元素的平均负对数似然。

In [15]:
def maskNLLLoss(inp, target, mask):
    """
    :param inp: 
    :param target: 
    :param mask: 
    :return: 
    """
    nTotal = mask.sum()
    crossEntropy = -torch.log(torch.gather(inp, 1, target.view(-1, 1)).squeeze(1))
    loss = crossEntropy.masked_select(mask).mean()
    loss = loss.to(device)
    return loss, nTotal.item()

### 5.2 单次训练迭代

In [16]:
def train(input_variable, lengths, target_variable, mask, 
          max_target_len,encoder, decoder, embedding, 
          encoder_optimizer, decoder_optimizer, batch_size, clip,
          max_length=MAX_LENGTH):
    """
    :param input_variable: torch.LongTensor，输入变量（特征变量）,X
    :param lengths: torch.tensor，各个句子的单词数量
    :param target_variable: torch.LongTensor，目标变量,y
    :param mask: torch.ByteTensor，掩码，标记哪个位置有值
    :param max_target_len: 最长的目标变量的长度（单词数量）
    :param encoder: 编码器模型
    :param decoder: 解码器模型
    :param embedding: 嵌入层模型
    :param encoder_optimizer: 编码器优化器
    :param decoder_optimizer: 解码器优化器
    :param batch_size: 批次宽度，从数据中选择batch_size组对话，传入模型训练模型，相当于随机梯度下降
    :param clip: 梯度裁剪
    :param max_length: 整个数据集的最大文本长度
    :return: loss
    """
    # 零化梯度
    encoder_optimizer.zero_grad()
    decoder_optimizer.zero_grad()
    # 设置备选项
    input_variable = input_variable.to(device)
    lengths = lengths.to(device)
    target_variable = target_variable.to(device)
    mask = mask.to(device)

    # 初始化变量
    loss = 0
    print_losses = []
    n_totals = 0
    
    # 正向传递编码器
    encoder_outputs, encoder_hidden = encoder(input_variable, lengths)
    
    # 创建初始解码器输入（从每个句子的SOS令牌开始）
    decoder_input = torch.LongTensor([[SOS_token for _ in range(batch_size)]])
    decoder_input = decoder_input.to(device)
    
    # 将初始解码器隐藏状态设置为编码器的最终隐藏状态
    decoder_hidden = encoder_hidden[:decoder.n_layers]

    # 确定我们是否此次迭代使用`teacher forcing`
    use_teacher_focing = random.random() < teacher_forcing_ratio
    
    # 通过解码器一次一步地转发一批序列
    if use_teacher_focing:
        for t in range(max_target_len):
            decoder_output, decoder_hidden = decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            # Teacher forcing: 下一个输入是当前的目标
            decoder_input = target_variable[t].view(1, -1)
            # 计算并累计损失
            mask_loss, nTotal = maskNLLLoss(decoder_output, target_variable[t], mask[t])
            loss += mask_loss
            print_losses.append(mask_loss.item() * nTotal)
            n_totals += nTotal
    else:
        for t in range(max_target_len):
            decoder_output, decoder_hidden = decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            # No teacher forcing: 下一个输入是解码器自己的当前输出
            _, topi = decoder_output.topk(1)
            decoder_input = torch.LongTensor([[topi[i][0] for i in range(batch_size)]])
            decoder_input = decoder_input.to(device)
            # 计算并累计损失
            mask_loss, nTotal = maskNLLLoss(decoder_output, target_variable[t], mask[t])
            loss += mask_loss
            print_losses.append(mask_loss.item() * nTotal)
            n_totals += nTotal
    
    # 执行反向传播
    loss.backward()
    
    # 剪切模型权重
    _ = torch.nn.utils.clip_grad_norm_(encoder.parameters(), clip)
    _ = torch.nn.utils.clip_grad_norm_(decoder.parameters(), clip)
    
    # 调整权重
    encoder_optimizer.step()
    decoder_optimizer.step()
    
    return sum(print_losses) / n_totals
    

# # 测试用，记得删除
# trainIters(
#     model_name, voc, pairs, encoder, decoder, 
#     encoder_optimizer, decoder_optimizer, embedding, 
#     encoder_n_layers, decoder_n_layers, save_dir, n_iteration, 
#     batch_size, print_every, save_every, clip, corpus_name, 
#     loadFilename
# )

### 5.3 训练迭代

In [17]:
def trainIters(model_name, voc, pairs, encoder, decoder, 
               encoder_optimizer,decoder_optimizer, embedding, 
               encoder_n_layers, decoder_n_layers, save_dir, 
               n_iteration, batch_size, print_every, save_every, 
               clip, corpus_name, loadFilename):
    """
    :param model_name: 模型名
    :param voc: VOC词集
    :param pairs: 处理好的对话原句
    :param encoder: 编码器模型
    :param decoder: 解码器模型
    :param encoder_optimizer: 编码器优化器
    :param decoder_optimizer: 解码器优化器
    :param embedding: 嵌入层模型
    :param encoder_n_layers: 编码器层数
    :param decoder_n_layers: 解码器层数
    :param save_dir: 存储路径
    :param n_iteration: 执行轮次，进行n_iteration轮训练
    :param batch_size: 批次宽度，从数据中选择batch_size组对话，传入模型训练模型，相当于随机梯度下降
    :param print_every: 隔多少次循环打印每一次日志
    :param save_every: 为了防止模型训练过程中中断，每隔save_every轮训练就报存一下模型
    :param clip: 梯度裁剪
    :param corpus_name: 语料库名称
    :param loadFilename: 模型存储位置（当模型中断时可以从此处继续执行模型）
    :return:
    """
    training_batches = [batch2TrainData(
        voc, [random.choice(pairs) for _ in range(batch_size)]
    ) for _ in range(n_iteration)]
    
    # 初始化
    print("Initializing ...")
    start_iteration = 1
    print_loss = 0  # 总损失（误差）
    if loadFilename:
        start_iteration = checkpoint['iteration'] + 1
    
    # 循环训练
    print("Training...")
    for iteration in range(start_iteration, n_iteration + 1):
        training_batch = training_batches[iteration - 1]
        # 从batch中提取字段
        # 输入变量（特征变量），对话数量，目标变量，掩码（是否有值），最大结果长度
        input_variable, lengths, target_variable, mask, max_target_len = training_batch
        
        # 使用batch运行测试迭代
        loss = train(
            input_variable, lengths, target_variable, mask, 
            max_target_len, encoder, decoder, embedding, 
            encoder_optimizer, decoder_optimizer, batch_size, clip
        )
        
        print_loss += loss
        # 打印进度
        if iteration % print_every == 0:
            print_loss_avg = print_loss / print_every
            # 第几轮，执行进度，输出目前为止的平均误差
            print("Iteration: {}; Percent complete: {:.1f}%; Average loss: {:.4f}".format(
                iteration, iteration / n_iteration * 100, 
                print_loss_avg))

        # 保存checkpoint
        if iteration % save_every == 0:
            directory = os.path.join(
                save_dir, model_name, corpus_name, "{}-{}_{}".format(
                    encoder_n_layers, decoder_n_layers, hidden_size))
            if not os.path.exists(directory):
                os.makedirs(directory)
            torch.save({
                "iteration": iteration,
                "en": encoder.state_dict(),
                "de": decoder.state_dict(),
                "en_opt": encoder_optimizer.state_dict(),
                "de_opt": decoder_optimizer.state_dict(),
                "loss": loss,
                "voc_dict": voc.__dict__,
                "embedding": embedding.state_dict()
            }, os.path.join(directory, "{}_{}.tar".format(
                iteration, "checkpoint")))

## 6.评估定义
在训练模型后，我们希望能够自己与机器人交谈。首先，我们必须定义我们望模型如何解码编码输入。

### 6.1 贪婪解码

In [18]:
class GreedySearchDecoder(nn.Module):
    def __init__(self, encoder, decoder):
        super(GreedySearchDecoder, self).__init__()
        self.encoder = encoder
        self.decoder = decoder
        
    def forward(self, input_seq, input_length, max_length):
        # 通过编码器模型转发输入
        encoder_outputs, encoder_hidden = self.encoder(input_seq, input_length)
        # 准备编码器的最终隐藏层作为解码器的第一个隐藏输入
        decoder_hidden = encoder_hidden[:self.decoder.n_layers]
        # 使用SOS_token初始化解码器输入
        decoder_input = torch.ones(1, 1, device=device, dtype=torch.long) * SOS_token
        # 初始化张量以将解码后的单词附加到
        all_tokens = torch.zeros([0], device=device, dtype=torch.long)
        all_scores = torch.zeros([0], device=device)
        # 一次迭代地解码一个词tokens
        for _ in range(max_length):
            # 正向通过解码器
            decoder_output, decoder_hidden = self.decoder(
                decoder_input, decoder_hidden, encoder_outputs)
            # 获得最可能的单词标记及其softmax分数
            decoder_scores, decoder_input = torch.max(decoder_output, dim=1)
            # 记录token和分数
            all_tokens = torch.cat((all_tokens, decoder_input), dim=0)
            all_scores = torch.cat((all_scores, decoder_scores), dim=0)
            # 准备当前令牌作为下一个解码器输入（添加维度）
            decoder_input = torch.unsqueeze(decoder_input, 0)
        return all_tokens, all_scores

### 6.2 评估我们的文本

In [19]:
def evaluate(encoder, decoder, searcher, voc, sentence, max_length=MAX_LENGTH):
    """
    :param encoder: 
    :param decoder: 
    :param searcher: 
    :param voc: 
    :param sentence: 
    :param max_length: 
    :return: 
    """
    ### 格式化输入句子作为batch
    # words -> indexes
    indexs_betch = [indexesFromSentence(voc, sentence)]
    # 创建lengths张量
    lengths = torch.tensor([len(indexes) for indexes in indexs_betch])
    # 转置batch的维度以匹配模型的期望
    input_batch = torch.LongTensor(indexs_betch).transpose(0, 1)
    # 使用合适的设备
    input_batch = input_batch.to(device)
    lengths = lengths.to(device)
    # 用searcher解码句子
    tokens, scores = searcher(input_batch, lengths, max_length)
    # indexes -> words
    decoded_words = [voc.index2word[token.item()] for token in tokens]
    return decoded_words

In [20]:
def evaluateInput(encoder, decoder, searcher, voc):
    """
    :param encoder: 
    :param decoder: 
    :param searcher: 
    :param voc: 
    :return: 
    """
    input_sentence = ""
    while True:
        try:
            # 获取输入句子
            input_sentence = input("> ")
            # 检查是否退出
            if input_sentence.lower() in ["q", "quit"]:
                break
            # 规范化句子
            input_sentence = normalizeString(input_sentence)
            # 评估句子
            output_words = evaluate(encoder, decoder, searcher, 
                                    voc, input_sentence)
            # 格式化和打印回复句
            output_words[:] = [x for x in output_words if x not in ["EOS", "PAD"]]
            print("Bot:", " ".join(output_words))
        except KeyError:
            print("Error: Encountered unknown word.")

## 7.运行模型
最后，是时候运行我们的模型了！

无论我们是否想要训练或测试聊天机器人模型，我们都必须初始化各个编码器和解码器模型。在接下来的部分，我们设置所需要的配置，选择从头开始或设置检查点以从中加载，并构建和初始化模型。您可以随意使用不同的配置来优化性能。

In [21]:
# 配置模型
model_name = "cb_model"  # 模型名
attn_model = "dot"  # 注意力算法
# attn_model = "gengeral"
# attn_model = "concat"
hidden_size = 500  # 隐藏层宽度
encoder_n_layers = 2  # 编码器层数
decoder_n_layers = 2  # 解码器层数
dropout = 0.1  # 随机剔除10%的数据
batch_size = 64

# 设置检查点以加载; 如果从头开始，则设置为None
loadFilename = None
checkpoint_iter = 4000

loadFilename = os.path.join(
    save_dir, model_name, corpus_name, 
    '{}-{}_{}'.format(encoder_n_layers, decoder_n_layers, hidden_size), 
    '{}_checkpoint.tar'.format(checkpoint_iter))
if not os.path.isfile(loadFilename):
    loadFilename = None

# 如果提供了loadFilename，则加载模型
if loadFilename:
    #  如果在同一台机器上加载，则对模型进行训练
    checkpoint = torch.load(loadFilename)
    # If loading a model trained on GPU to CPU
    # checkpoint = torch.load(loadFilename, map_location=torch.device('cpu'))
    encoder_sd = checkpoint["en"]
    decoder_sd = checkpoint['de']
    encoder_optimizer_sd = checkpoint['en_opt']
    decoder_optimizer_sd = checkpoint['de_opt']
    embedding_sd = checkpoint['embedding']
    voc.__dict__ = checkpoint['voc_dict']

print("Buinding encoder and decoder ...")
# 初始化词向量
embedding = nn.Embedding(voc.num_words, hidden_size)
if loadFilename:
    embedding.load_state_dict(embedding_sd)

# 初始化编码器 & 解码器模型
encoder = EncoderRNN(hidden_size, embedding, 
                     n_layers=encoder_n_layers, dropout=dropout)
decoder = LuongAttnDecoderRNN(attn_model, embedding, hidden_size, 
                              voc.num_words, decoder_n_layers, dropout)
if loadFilename:
    encoder.load_state_dict(encoder_sd)
    decoder.load_state_dict(decoder_sd)

encoder = encoder.to(device)
decoder = decoder.to(device)
print("Models built and ready to go!")

Buinding encoder and decoder ...
Models built and ready to go!


### 7.1 执行训练
如果要训练模型，请运行以下部分。

首先我们设置训练参数，然后初始化我们的优化器，最后我们调用 trainIters 函数来运行我们的训练迭代。

In [30]:
# 配置训练/优化
clip = 0.5
teacher_forcing_ratio = 1.0
learning_rate = 0.0001
decoder_learning_ratio = 5.0
n_iteration = 4000
print_every = 1
save_every = 500

# 确保dropout layers在训练模型中
encoder.train()
decoder.train()

# 初始化优化器
print("Building optimizers ...")
encoder_optimizer = optim.Adam(encoder.parameters(), lr=learning_rate)
decoder_optimizer = optim.Adam(decoder.parameters(), lr=learning_rate * decoder_learning_ratio)

if loadFilename:
    encoder_optimizer.load_state_dict(encoder_optimizer_sd)
    decoder_optimizer.load_state_dict(decoder_optimizer_sd)

print("Starting Training!")
trainIters(
    model_name, voc, pairs, encoder, decoder, 
    encoder_optimizer, decoder_optimizer, embedding, 
    encoder_n_layers, decoder_n_layers, save_dir, n_iteration, 
    batch_size, print_every, save_every, clip, corpus_name, 
    loadFilename
)

Building optimizers ...
Starting Training!
Initializing ...
Training...


### 7.2 运行评估
要与您的模型聊天，请运行以下代码：

In [29]:
# 将dropout layers设置为eval模式
encoder.eval()
decoder.eval()

# 初始化搜索模块
searcher = GreedySearchDecoder(encoder, decoder)
# 开始聊天（取消注释并运行以下行开始）
evaluateInput(encoder, decoder, searcher, voc)

> hello
Bot: hello . . . up .
> q


## 8 总结

原本打算自己动手实现该教程的整个流程,但发现对于其中的数据格式转换、参数维度并不了解，因此还是选择参照教程一步步实现，力求做到完全理解。

在此已笔记的方式记录学习心得，避免之后又忘记了：

**在实现思路方面：** 该教程实现的聊天机器人使用seq2seq模型，两端都是采用RNN的GRU模型实现的，在中间额外加入了注意力模型，模型并未考虑连续对话场景，采用一问一答的模式，因为是学习用的，因此在数据处理时为了提高训练速度，对数据进行了一些过度的处理，且针对未收录词采用直接不处理的粗暴方式解决。总结如下：
+ 模型无法处理连续对话
+ 模型无法处理包含未收录词的句子

**在数据预处理方面：** 首先将原始数据处理成一组组的对话，因为我们实际训练模型时好像并未用到其他信息，然后对对话分词填入到Voc中，并在其中对词进行一系列的预处理，Voc的主要功能时句子与句子向量之间的转换，词的预处理，并添加了开始、结束、空字符用于模型判断句子开始结束以及填充句子使其长度相同。这里采用的预处理包括：
+ 去除过长的对话：提高模型回归速度
+ 去除低频词：提高模型回归速度，但一些低频词可能对句子有更重要的作用
+ 去除特殊符号：无意义
+ 词与符号分离：减少低频词，且符号一般是句子的结尾，可以更容易训练到句子结束标识（个人理解，不确定）
+ 带音标的字符转换回普通字母：减少低频词
+ 大写转小写：减少低频词

**在模型搭建方面：** 模型的Encoder端采用一个RNN的GRU模型实现，输入为词向量，隐含层（默认随机初始）和句子长度，其中添加了嵌入层，以及打包数据和解包数据的层；Encoder的执行结果会作为Decoder模型的参数使用，在Decoder模型中除了输入的词向量（默认为空），隐含层外，还有就是Encoder的输出，而其隐含层初始状态就是Encoder的隐含层，在Decoder模型中处理GRU外，还需执行一个注意力模型，与GRU的输出一同组成最终结果。重点信息如下：
+ Encoder层需要对嵌入层输出的数据压缩、使用、再解压
+ Decoder层中有注意力模型，会与GRU一同生成结果
+ Encoder的输出会作为Decoder的一个输入参数使用
+ Decoder的输入的隐含层初始值为Encoder的输出
+ Encoder的隐含层初始状态默认为随机，可以通过其他模型迁移学习赋予其初始值

**在参数维度方面：**
+ 两个模型的输入都是一维词向量，经过嵌入层转换为二维矩阵
+ 两个模型的隐含层都是两个二维矩阵,即其中一个维度是2的三维矩阵（未验证）
+ Encoder输入到Decoder的输出为与嵌入层处理过的输入层维度一样的结果

**在模型细节方面：**
+ 模型中加入了dropout，以增加模型的泛化能力，因此在训练模型和使用模型是要注意用train和eval来切换状态。

**在模型训练与应用方面：**
+ 模型加入了teacher_focing策略以提高模型的收敛速度，可以设置概率选择对部分步骤使用或不使用
    + teacher_focing：适用正确结果作为下一轮拟合的输入，从而提高模型拟合效率的方法
+ 加入了断点续传功能，自动保存中间结果，从而保证训练中途模型退出，可以从断点继续训练
+ 针对每个Tensor参数都加了to(device),灵活的配置使用CPU还是GPU