<font color='red'>注：此处是文档第211页</font>

# 序列模型和长短句记忆（LSTM）模型

- 前馈网络

之前我们已经学过了许多的前馈网络。所谓前馈网络, 就是网络中不会保存状态。然而有时这并不是我们想要的效果。在自然语言处理 (**NLP**, Natural Language Processing) 中, 序列模型是一个核心的概念。

- 序列模型

所谓序列模型, 即输入依赖于时间信息的模型。一个典型的序列模型是隐马尔科夫模型 (**HMM**,Hidden Markov Model)。另一个序列模型的例子是条件随机场 (**CRF**, Conditional Random Field)。

- 循环神经网络
循环神经网络是指可以保存某种状态的神经网络。比如说, 神经网络中上个时刻的输出可以作为下个时刻的输入的一部分, 以此信息就可以通过序列在网络中一直往后传递。对于**LSTM** (LongShort Term Memory, 长短期记忆模型) 来说, 序列中的每个元素都有一个相应的隐状态,该隐状态原则上可以包含序列当前结点之前的任一节点的信息。我们可以使用隐藏状态来预测语言模型中的单词, 词性标签以及其他。

## 1.Pytorch中的LSTM
在正式学习之前，有几个点要说明一下，Pytorch中 LSTM 的输入形式是一个 3D 的Tensor，每一个维度都有重要的意义，第一个维度就是序列本身， 第二个维度是 `mini-batch` 中实例的索引，第三个维度是输入元素的索引，我们之前没有接触过 `mini-batch` ，所以我们就先忽略它并假设第二维的维度是1。如果要用“`The cow jumped`”这个句子来运行一个序列模型，那么就应该把它整理成如下的形式：
![image.png](attachment:image.png)

除了有一个额外的大小为1的第二维度。

此外, 你还可以向网络逐个输入序列, 在这种情况下, 第一个轴的大小也是1。

来看一个简单的例子。

In [74]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
torch.manual_seed(1)

<torch._C.Generator at 0x19bce7b8610>

In [75]:
lstm = nn.LSTM(3, 3) # 输入维度为3维，输出维度为3维
# 生成一个长度为5的序列
inputs = [torch.rand(1, 3) for _ in range(5)]
# print(inputs)

# 初始化隐藏状态.
hidden = (torch.rand(1, 1, 3), 
          torch.rand(1, 1, 3))
# print(hidden)
for i in inputs:
    # 将序列中的元素逐个输入到LSTM.
    # 经过每步操作,hidden 的值包含了隐藏状态的信息.
    out, hidden = lstm(i.view(1, 1, -1), hidden)
#     print("---------------------")
#     print(out)
#     print(hidden)

# 另外我们可以对一整个序列进行训练.
# LSTM第一个返回的第一个值是所有时刻的隐藏状态
# 第二个返回值是最后一个时刻的隐藏状态
#(所以"out"的最后一个和"hidden"是一样的)
# 之所以这样设计:
# 通过"out"你能取得任何一个时刻的隐藏状态，而"hidden"的值是用来进行序列的反向传播运算, 
# 具体方式就是将它作为参数传入后面的 LSTM 网络.

# 增加额外的第二个维度.
inputs = torch.cat(inputs).view(len(inputs), 1, -1)
hidden = (torch.randn(1, 1, 3), torch.randn(1, 1, 3))  # 清空隐藏状态.
out, hidden = lstm(inputs, hidden)
print(out)
print(hidden)

tensor([[[-0.0437, -0.1007, -0.1756]],

        [[-0.0606, -0.1475, -0.1155]],

        [[-0.0350, -0.1847, -0.1103]],

        [[-0.0884, -0.1826, -0.1026]],

        [[-0.1029, -0.2488, -0.0803]]], grad_fn=<StackBackward>)
(tensor([[[-0.1029, -0.2488, -0.0803]]], grad_fn=<StackBackward>), tensor([[[-0.2216, -0.4428, -0.4077]]], grad_fn=<StackBackward>))


## 2.例子:用LSTM来进行词性标注
在这部分, 我们将会使用一个 `LSTM` 网络来进行词性标注。在这里我们不会用到维特比算法, 前向-后向算法或者任何类似的算法,而是将这部分内容作为一个 (有挑战) 的练习留给读者, 希望读者在了解了这部分的内容后能够实现如何将维特比算法应用到 LSTM 网络中来。

该模型如下:输入的句子是$w_1,...,w_M$，其中$w_i\epsilon V$，标签的集合定义为$T$， 为单词$w_i$的标签，用$\hat{y_i}$表示对单词$w_i$词性的预测。

这是一个结构预测模型, 我们的输出是一个序列$\hat{y_i},...,\hat{y_M}$, 其中$\hat{y_i}\epsilon T$。

在进行预测时, 需将句子每个词输入到一个 `LSTM` 网络中。将时刻 $i$ 的隐藏状态标记为$h_i$,同样地, 对每个标签赋一个独一无二的索引 (类似 `word embeddings` 部分 `word_to_ix` 的设置). 然后就得到了$\hat{y_i}$的预测规则：
$$\hat{y_i}=argmax_j(logSoftmax(Ah_i+b))_j$$
即先对隐状态进行一个仿射变换, 然后计算一个对数 `softmax`, 最后得到的预测标签即为对数 `softmax` 中最大的值对应的标签. 注意, 这也意味着 A 空间的维度是|T|。

### 2.1准备数据

In [76]:
def prepare_sequence(seq, to_ix):
    idxs = [to_ix[w] for w in seq]
    return torch.tensor(idxs, dtype=torch.long)

training_data = [
    ("The dog ate the apple".split(), ["DET", "NN", "V", "DET", "NN"]),
    ("Everybody read that book".split(), ["NN", "V", "DET", "NN"])
]

word_to_ix = {}
for words, tags in training_data:
    for word in words:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)

print(word_to_ix)
tag_to_ix = {"DET": 0, "NN": 1, "V": 2}

# 实际中通常使用更大的维度如32维, 64维.
# 这里我们使用小的维度, 为了方便查看训练过程中权重的变化.
EMBEDDING_DIM = 6
HIDDEN_DIM = 6

{'The': 0, 'dog': 1, 'ate': 2, 'the': 3, 'apple': 4, 'Everybody': 5, 'read': 6, 'that': 7, 'book': 8}


### 2.1 创建模型

In [77]:
class LSTMTagger(nn.Module):
    
    def __init__(self, embedding_dim, hidden_dim, vocab_size, tagset_size):
        super(LSTMTagger, self).__init__()
        self.hidden_dim = hidden_dim
        
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        # LSTM以word_embeddings作为输入, 输出维度为 hidden_dim 的隐藏状态值
        self.lstm = nn.LSTM(embedding_dim, hidden_dim)
        # 线性层将隐藏状态空间映射到标注空间
        self.hidden2tag = nn.Linear(hidden_dim, tagset_size)
        self.hidden = self.init_hidden()
        
    def init_hidden(self):
        # 一开始并没有隐藏状态所以我们要先初始化一个
        # 关于维度为什么这么设计请参考Pytoch相关文档
        # 各个维度的含义是 (num_layers, minibatch_size, hidden_dim)
        return (
            torch.zeros(1, 1, self.hidden_dim),
            torch.zeros(1, 1, self.hidden_dim))
    
    def forward(self, sentence):
        embeds = self.embedding(sentence)
        lstm_out, self.hidden = self.lstm(embeds.view(len(sentence), 1, -1), self.hidden)
        tag_space = self.hidden2tag(lstm_out.view(len(sentence), -1))
        tag_scores = F.log_softmax(tag_space, dim=1)
        return tag_scores

### 2.3 训练模型

In [78]:
model = LSTMTagger(EMBEDDING_DIM, HIDDEN_DIM, vocab_size=len(word_to_ix), tagset_size=len(tag_to_ix))
loss_func = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 查看训练前的分数
# 注意: 输出的 i,j 元素的值表示单词 i 的 j 标签的得分
# 这里我们不需要训练不需要求导，所以使用torch.no_grad()
with torch.no_grad():
    inputs = prepare_sequence(training_data[0][0], word_to_ix)
    tag_scores = model(inputs)
    print(tag_scores)

for epoch in range(300):
    for sentence, tags in training_data:
        # 第一步: 请记住Pytorch会累加梯度.
        # 我们需要在训练每个实例前清空梯度
        model.zero_grad()
        # 此外还需要清空 LSTM 的隐状态,
        # 将其从上个实例的历史中分离出来.
        model.hidden = model.init_hidden()
        
        # 准备网络输入, 将其变为词索引的 Tensor 类型数据
        sentence_in = prepare_sequence(sentence, word_to_ix)
        targets = prepare_sequence(tags, tag_to_ix)
        
        # 第三步: 前向传播.
        tag_scores = model(sentence_in)
        
        # 第四步: 计算损失和梯度值, 通过调用 optimizer.step() 来更新梯度
        loss = loss_func(tag_scores, targets)
        loss.backward()
        optimizer.step()
        
# 查看训练后的得分
with torch.no_grad():
    inputs = prepare_sequence(training_data[0][0], word_to_ix)
    tag_scores = model(inputs)
    
    # 句子是 "the dog ate the apple", i,j 表示对于单词 i, 标签 j 的得分.
    # 我们采用得分最高的标签作为预测的标签. 从下面的输出我们可以看到, 预测得
    # 到的结果是0 1 2 0 1. 因为 索引是从0开始的, 因此第一个值0表示第一行的
    # 最大值, 第二个值1表示第二行的最大值, 以此类推. 所以最后的结果是 DET
    # NOUN VERB DET NOUN, 整个序列都是正确的!
    print(tag_scores)

tensor([[-1.2344, -1.1018, -0.9763],
        [-1.1876, -1.0987, -1.0168],
        [-1.2961, -1.0564, -0.9711],
        [-1.3082, -1.0161, -1.0005],
        [-1.3654, -1.0758, -0.9071]])
tensor([[-0.0738, -2.7392, -5.0395],
        [-3.1023, -0.0588, -4.4066],
        [-4.5381, -3.6667, -0.0369],
        [-0.0293, -4.3701, -4.1224],
        [-2.7928, -0.0775, -4.3162]])


## 3.练习:使用字符级特征来增强 LSTM 词性标注器
在上面的例子中, 每个词都有一个词嵌入, 作为序列模型的输入. 接下来让我们使用每个的单词的字符级别的表达来增强词嵌入。我们期望这个操作对结果能有显著提升, 因为像词缀这样的字符级信息对于词性有很大的影响。比如说, 像包含词缀 `-ly` 的单词基本上都是被标注为副词。

具体操作如下：用$c_w$的字符级表达, 同之前一样，我们使用$x_w$来表示词嵌入。序列模型的输入就变成了$x_w$和$c_w$的拼接。因此,如果$x_w$的维度是5，$c_w$的维度是3，那么我们的 `LSTM` 网络的输入维度大小就是8。

为了得到字符级别的表达,将单词的每个字符输入一个 `LSTM` 网络, 而$c_w$则为这个 `LSTM` 网络最后的隐状态。一些提示：
- 新模型中需要两个 `LSTM`, 一个跟之前一样, 用来输出词性标注的得分, 另外一个新增加的用来获取每个单词的字符级别表达。
- 为了在字符级别上运行序列模型，你需要用嵌入的字符来作为字符 `LSTM` 的输入。

In [79]:
def prepare_sequence(seq, to_ix):
    idxs = [to_ix[w] for w in seq]
    return torch.tensor(idxs, dtype=torch.long)

def set_sub_words(word: str, sub_n: int):
    assert sub_n >= 2
    word = "^%s$" % word
    if len(word) <= sub_n:
        return [word]
    sub_words = []
    for i in range(len(word) - sub_n + 1):
        sub_words.append(word[i: i + sub_n])
    return sub_words

assert set_sub_words("a", sub_n=3) == ["^a$"]
assert set_sub_words("ab", sub_n=3) == ["^ab", "ab$"]
assert set_sub_words("abc", sub_n=3) == ["^ab", "abc", "bc$"]

In [80]:
SUB_N = 3
training_data = [
    ("The dog ate the apple".split(), ["DET", "NN", "V", "DET", "NN"]),
    ("Everybody read that book".split(), ["NN", "V", "DET", "NN"])
]

tag_to_ix = {"DET": 0, "NN": 1, "V": 2}

word_to_ix = {}
sub_word_to_ix = {}
word_ix_to_sub = {}

for words, tags in training_data:
    for word in words:
        if word not in word_to_ix:
            sub_ws = set_sub_words(word, sub_n=SUB_N)
            word_ix_to_sub[len(word_to_ix)] = sub_ws
            word_to_ix[word] = len(word_to_ix)
            for i in sub_ws:
                if i not in sub_word_to_ix:
                    sub_word_to_ix[i] = len(sub_word_to_ix)
print(word_to_ix)
print(sub_word_to_ix)
print(word_ix_to_sub)

{'The': 0, 'dog': 1, 'ate': 2, 'the': 3, 'apple': 4, 'Everybody': 5, 'read': 6, 'that': 7, 'book': 8}
{'^Th': 0, 'The': 1, 'he$': 2, '^do': 3, 'dog': 4, 'og$': 5, '^at': 6, 'ate': 7, 'te$': 8, '^th': 9, 'the': 10, '^ap': 11, 'app': 12, 'ppl': 13, 'ple': 14, 'le$': 15, '^Ev': 16, 'Eve': 17, 'ver': 18, 'ery': 19, 'ryb': 20, 'ybo': 21, 'bod': 22, 'ody': 23, 'dy$': 24, '^re': 25, 'rea': 26, 'ead': 27, 'ad$': 28, 'tha': 29, 'hat': 30, 'at$': 31, '^bo': 32, 'boo': 33, 'ook': 34, 'ok$': 35}
{0: ['^Th', 'The', 'he$'], 1: ['^do', 'dog', 'og$'], 2: ['^at', 'ate', 'te$'], 3: ['^th', 'the', 'he$'], 4: ['^ap', 'app', 'ppl', 'ple', 'le$'], 5: ['^Ev', 'Eve', 'ver', 'ery', 'ryb', 'ybo', 'bod', 'ody', 'dy$'], 6: ['^re', 'rea', 'ead', 'ad$'], 7: ['^th', 'tha', 'hat', 'at$'], 8: ['^bo', 'boo', 'ook', 'ok$']}


In [81]:
# 实际中通常使用更大的维度如32维, 64维.
# 这里我们使用小的维度, 为了方便查看训练过程中权重的变化.
EMBEDDING_DIM = 6
SUB_EMBEDDING_DIM = 3
HIDDEN_DIM = 6
SUB_HIDDEN_DIM = 3


class LSTMTagger(nn.Module):
    
    def __init__(self, embedding_dim, sub_embedding_dim, hidden_dim, sub_hidden_dim, vocab_size, tagset_size, sub_vocab_size):
        super(LSTMTagger, self).__init__()
        self.hidden_dim = hidden_dim
        self.sub_hidden_dim = sub_hidden_dim
        
        self.sub_embedding = nn.Embedding(sub_vocab_size, sub_embedding_dim)
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        # LSTM以word_embeddings作为输入, 输出维度为 hidden_dim 的隐藏状态值
        self.sub_lstm = nn.LSTM(sub_embedding_dim, sub_hidden_dim)
        self.lstm = nn.LSTM(embedding_dim + sub_embedding_dim, hidden_dim)
        
        # 线性层将隐藏状态空间映射到标注空间
        self.hidden2tag = nn.Linear(hidden_dim, tagset_size)
        
        # self.hidden = self.init_hidden(hidden_dim)
        # self.sub_hidden = self.init_hidden(sub_hidden_dim)
        self.init_hidden()
        
    def init_hidden(self):
        self.hidden = self._init_hidden(self.hidden_dim)
        self.sub_hidden = self._init_hidden(self.sub_hidden_dim)
        
    def _init_hidden(self, hidden_dim):
        # 一开始并没有隐藏状态所以我们要先初始化一个
        # 关于维度为什么这么设计请参考Pytoch相关文档
        # 各个维度的含义是 (num_layers, minibatch_size, hidden_dim)
        return (
            torch.zeros(1, 1, hidden_dim),
            torch.zeros(1, 1, hidden_dim))
    
    def forward(self, sentence: torch.Tensor, word_ix_to_sub: dict, sub_word_to_ix: dict):
        embeds = []
        for word in sentence:
            word_embed = self.embedding(word)
            sub_word = prepare_sequence(word_ix_to_sub[word.item()], sub_word_to_ix)
            sub_embed = self.sub_embedding(sub_word)
            # .view(len(sub_word), 1, -1)    (n, m)-->(n, 1, m)
            sub_lstm_out, self.sub_hidden = self.sub_lstm(
                sub_embed.view(len(sub_word), 1, -1), self.sub_hidden)
            # .view(-1)  (1,1,3)-->(3)
            embed = torch.cat((word_embed, self.sub_hidden[0].view(-1)))
            embeds.append(embed)
        embeds = torch.cat(embeds)
        lstm_out, self.hidden = self.lstm(embeds.view(len(sentence), 1, -1), self.hidden)
        
        tag_space = self.hidden2tag(lstm_out.view(len(sentence), -1))
        tag_scores = F.log_softmax(tag_space, dim=1)
        return tag_scores

In [82]:
model = LSTMTagger(EMBEDDING_DIM, SUB_EMBEDDING_DIM, HIDDEN_DIM, SUB_HIDDEN_DIM, 
                   len(word_to_ix), len(tag_to_ix), len(sub_word_to_ix))
loss_func = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.1)

# 查看训练前的分数
# 注意: 输出的 i,j 元素的值表示单词 i 的 j 标签的得分
# 这里我们不需要训练不需要求导，所以使用torch.no_grad()
with torch.no_grad():
    inputs = prepare_sequence(training_data[0][0], word_to_ix)
    tag_scores = model(inputs, word_ix_to_sub, sub_word_to_ix)
    print(tag_scores)

for epoch in range(300):
    for sentence, tags in training_data:
        # 第一步: 请记住Pytorch会累加梯度.
        # 我们需要在训练每个实例前清空梯度
        model.zero_grad()
        # 此外还需要清空 LSTM 的隐状态,
        # 将其从上个实例的历史中分离出来.
        model.init_hidden()
        # model.sub_hidden = model.init_hidden(model.sub_hidden_dim)
        # model.hidden = model.init_hidden(model.hidden_dim)
        
        # 准备网络输入, 将其变为词索引的 Tensor 类型数据
        sentence_in = prepare_sequence(sentence, word_to_ix)
        targets = prepare_sequence(tags, tag_to_ix)
        
        # 第三步: 前向传播.
        tag_scores = model(sentence_in, word_ix_to_sub, sub_word_to_ix)
        
        # 第四步: 计算损失和梯度值, 通过调用 optimizer.step() 来更新梯度
        loss = loss_func(tag_scores, targets)
        loss.backward()
        optimizer.step()
        
# 查看训练后的得分        
with torch.no_grad():
    inputs = prepare_sequence(training_data[0][0], word_to_ix)
    tag_scores = model(inputs, word_ix_to_sub, sub_word_to_ix)
    
    # 句子是 "the dog ate the apple", i,j 表示对于单词 i, 标签 j 的得分.
    # 我们采用得分最高的标签作为预测的标签. 从下面的输出我们可以看到, 预测得
    # 到的结果是0 1 2 0 1. 因为 索引是从0开始的, 因此第一个值0表示第一行的
    # 最大值, 第二个值1表示第二行的最大值, 以此类推. 所以最后的结果是 DET
    # NOUN VERB DET NOUN, 整个序列都是正确的!
    print(tag_scores)

tensor([[-0.9447, -0.9586, -1.4793],
        [-0.9408, -0.9229, -1.5496],
        [-0.9316, -0.9020, -1.6077],
        [-0.9278, -0.8950, -1.6299],
        [-0.9625, -0.8725, -1.6087]])
tensor([[-0.1880, -1.8599, -4.1558],
        [-4.8249, -0.0562, -3.0647],
        [-3.3302, -1.9402, -0.1978],
        [-0.0372, -4.6240, -3.6244],
        [-4.2997, -0.0156, -6.2654]])


#### 笔记：
在做字符级特征增强的LSTM词性标注器时，需要是逐个单词构建向量，使用LSTM训练字符级词向量，并添加到词向量中，最终将所有词向量集合构成句子向量。
- 由于例子中的模型是直接用词向量构建句子向量所以看的时候忽略了这个层级的关系，应该一层层向上搭建

在使用模型时要注意模型的参数格式，因为都是以矩阵为参数传递的，就需要不停的变换矩阵格式。
- LSTM的hidden是两个(1,1,N)的矩阵
- LSTM的输入是(N,1,M)的矩阵
- Linear输入是(N, M)的矩阵

在模型训练时要做好维度映射，这个实际不难，但脑子一定要清晰，我就经常记着记着就乱了，再有就如在图片类的数据处理时更需要注意，由于存在多层数据，且存在图片大小问题，需要计算好维度才好处理。
- 此外还需了解一下常用的维度大小，不然在训练模型时瞎写也不太好