<font color='red'>注：此处是文档第218页</font>

# 高级：制定动态决策和BI-LSTM CRF

## 1.动态与静态深度学习工具包
Pytorch是一种**动态**神经网络套件。另一个动态套件的例子是[Dynet](https://github.com/clab/dynet)（我之所以提到这一点，因为与Pytorch和Dynet一起使用是相似的。如果你在Dynet中看到一个例子，它可能会帮助你在Pytorch中实现它）。相反的是**静态**工具包，其中包括Theano，Keras，TensorFlow等。核心区别如下： 
* 在静态工具包中，您可以定义一次计算图，对其进行编译，然后将实例流式传输给它。 
* 在动态工具包中，为每个实例定义计算图。它永远不会被编译并且是即时执行的。

在没有很多经验的情况下，很难理解其中的差异。一个例子是假设我们想要构建一个深层组成解析器。假设我们的模型大致涉及以下步骤： 
* 我们自底向上地建造树 
* 标记根节点（句子的单词）
* 从那里，使用神经网络和单词的嵌入来找到形成组成部分的组合。

每当你形成一个新的成分时，使用某种技术来嵌入成分。在这种情况下，我们的网络架构将完全取决于输入句子。在“The green cat scratched the wall”一句中，在模型中的某个点上，我们想要结合跨度$(i,j,r)=(1.3,NP)$（即，NP 组成部分跨越单词1到单词3，在这种情况下是“The green cat”）。

然而，另一句话可能是“Somewhere, the big fat cat scratched the wall”。在这句话中，我们希望在某个时刻形成组成$(2,4,NP)$。我们想要形成的成分将取决于实例。如果我们只编译计算图一次，就像在静态工具包中那样，但编写这个逻辑将非常困难或者说是不可能的。但是，在动态工具包中，不仅有1个预定义的计算图。每个实例都可以有一个新的计算图，所以这个问题就消失了。

动态工具包还具有易于调试和代码更接近宿主语言的优点（我的意思是Pytorch和Dynet看起来更像是比Keras或Theano更实际的Python代码）。

## 2.Bi-LSTM条件随机场讨论
对于本节，我们将看到用于命名实体识别的Bi-LSTM条件随机场的完整复杂示例。虽然上面的LSTM标记符通常足以用于词性标注，但是像CRF这样的序列模型对于NER上的强大性能非常重要。CRF，虽然这个名字听起来很可怕，但所有模型都是CRF，在LSTM中提供了这些功能。CRF是一个高级模型，比本教程中的任何早期模型复杂得多。如果你想跳过它，也可以。要查看您是否准备好，请查看是否可以：
+ 在步骤i中为标记k写出维特比变量的递归。
+ 修改上述重复以计算转发变量。
+ 再次修改上面的重复计算以计算日志空间中的转发变量（提示：log-sum-exp）

如果你可以做这三件事，你应该能够理解下面的代码。回想一下，CRF计算条件概率。设$y$为标签序列，$x$为字的输入序列。然后我们计算
$$p(y|x)=\frac{exp(Score(x,y))}{\sum_{y^\prime}exp(Score(x,y^\prime))}$$
通过定义一些对数电位$log\psi_i(x,y)$来确定得分:
$$Score(x,y)=\sum_{i}log\psi_i(x,y)$$
为了使分区功能易于处理，电位必须仅查看局部特征。

在Bi-LSTM CRF中，我们定义了两种潜力：发射和过渡。索引$i$处的单词的发射电位来自时间步长$i$处的Bi-LSTM的隐藏状态。转换分数存储在$T$矩阵$P$中，其中$T$是标记集。在我们的实现中，$P_{j_{y}k}$是从标签$k$转换到标签$j$的分数。所以：
$$Score(x,y)=\sum_{i}log\psi_{EMIT}(y_i\rightarrow x_i)+log\psi_{TRANS}(y_{i-1}\rightarrow y_i)=\sum_{i}h_i[y_i]+P_{y_i},y_i-1$$
在第二个表达式中，我们将标记视为分配了唯一的非负索引。

如果上面的讨论过于简短，你可以查看[这个](http://www.cs.columbia.edu/~mcollins/crf.pdf)，是迈克尔柯林斯写的关于CRF的文章。

## 3.实现说明
下面的示例实现了日志空间中的前向算法来计算分区函数，以及用于解码的维特比算法。反向传播将自动为我们计算梯度。我们不需要手工做任何事情。

这个实现并未优化。如果您了解发生了什么，您可能会很快发现在前向算法中迭代下一个标记可能是在一个大的操作中完成的。我想编码更具可读性。 如果您想进行相关更改，可以将此标记器用于实际任务。

In [1]:
import torch
import torch.autograd as autograd
import torch.nn as nn
import torch.optim as optim
torch.manual_seed(1)

<torch._C.Generator at 0x2c98b87e2d0>

### 3.2 辅助函数
辅助函数的功能是使代码更具可读性。

公式描述并不准确
$$x_{argmax}+log(\sum e^{x-x_{argmax}})$$

In [22]:
def argmax(vec: torch.Tensor):
    """vec.size=(1, N)"""
    # 将argmax作为python int返回
    _, idx = torch.max(vec, 1)
    return idx.item()


def prepare_sequence(seq, to_ix):
    """序列化句子
    param: to_ix: 单词-标签对照表
    """
    idxs = [to_ix[w] for w in seq]
    return torch.tensor(idxs, dtype=torch.long)

    
# 以正向算法的数值稳定方式计算log sum exp
def log_sum_exp(vec):
    max_score = vec[0, argmax(vec)]
    max_score_broadcast = max_score.view(1, -1).expand(1, vec.size()[1])
    return max_score + torch.log(torch.sum(torch.exp(vec - max_score_broadcast)))

### 3.3 创建模型

In [62]:
class BiLSTM_CRF(nn.Module):
    
    def __init__(self, vocab_size, tag_to_ix, embedding_dim, hidden_dim):
        super(BiLSTM_CRF, self).__init__()
        self.embedding_dim = embedding_dim
        self.hidden_dim = hidden_dim
        self.vocab_size = vocab_size
        self.tag_to_ix = tag_to_ix
        self.tagset_size = len(tag_to_ix)
        
        self.word_embeds = nn.Embedding(vocab_size, embedding_dim)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim // 2, num_layers=1, bidirectional=True)
        
        # 将LSTM的输出映射到标记空间
        self.hidden2tag = nn.Linear(hidden_dim, self.tagset_size)
        
        # 转换参数矩阵，输入i，j的得分从j转换到i
        self.transitions = nn.Parameter(torch.randn(self.tagset_size, self.tagset_size))
        
        # 这两个语句强制执行我们从不转移到开始标记的约束
        # 并且我们永远不会从停止标记转移
        self.transitions.data[tag_to_ix[START_TAG], :] = -10000
        self.transitions.data[:, tag_to_ix[STOP_TAG]] = -10000
        
        self.hidden = self.init_hidden()
        
    def init_hidden(self):
        return (torch.randn(2, 1, self.hidden_dim // 2), 
                torch.randn(2, 1, self.hidden_dim // 2))
    
    def _get_lstm_features(self, sentence):
        """将句子向量转换成特征向量并带入LSTM模型，返回LSTM的最后一层的输出特征"""
        # 初始化隐含层
        self.hidden = self.init_hidden()
        # 词向量转换成特征矩阵，维度为[len(sentence), 1, embedding_dim]
        embeds = self.word_embeds(sentence).view(len(sentence), 1, -1)
        print("embeds: ", embeds.size(), sentence.size())
        # 将特征矩阵传入LSTM
        # lstm_out的维度[len(sentence), 1, num_directions*hidden_size]
        lstm_out, self.hidden = self.lstm(embeds, self.hidden)
        # [n,1,m] --> [n,m]
        lstm_out = lstm_out.view(len(sentence), self.hidden_dim)
        # [n,m] --> [n, m2]
        lstm_feats = self.hidden2tag(lstm_out)
        return lstm_feats
    
    def forward(self, sentence):
        # 不要和with_forward_alg混淆。
        lstm_feats = self._get_lstm_features(sentence)


### 3.4 进行训练

In [63]:
START_TAG = "<START>"
STOP_TAG = "<STOP>"
EMBEDDING_DIM = 5
HIDDEN_DIM = 4

# 弥补一些训练数据
training_data = [(
    "the wall street journal reported today that apple corporation made money".split(),
    "B I I I O O O B I O O".split()
), (
    "georgia tech is a university in georgia".split(),
    "B I O O O O B".split()
)]
word_to_ix = {}
for sentence, tags in training_data:
    for word in sentence:
        if word not in word_to_ix:
            word_to_ix[word] = len(word_to_ix)
            
tag_to_ix = {"B": 0, "I": 1, "O": 2, START_TAG: 3, STOP_TAG: 4}

model = BiLSTM_CRF(len(word_to_ix), tag_to_ix, EMBEDDING_DIM, HIDDEN_DIM)
optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)

# 在训练前的检测预测
with torch.no_grad():
    precheck_sent = prepare_sequence(training_data[0][0], word_to_ix)
    precheck_tags = torch.tensor([tag_to_ix[t] for t in training_data[0][1]], dtype=torch.long)
    # print(precheck_sent)
    # print(precheck_tags)
    print(model(precheck_sent))

embeds:  torch.Size([11, 1, 5]) torch.Size([11])
torch.Size([11, 1, 4])
torch.Size([11, 4])
torch.Size([11, 4])
None


In [46]:
len(word_to_ix)

17

In [49]:
model.word_embeds

Embedding(17, 5)