## 1. 导入需要的库

In [1]:
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F

## 2. 模拟数据

接着模拟一组数据，假设batch_x是表示成单词id序列的输入，我们希望通过Attention机制，为一个实例中的每个词分配一个概率得分。

In [2]:
import numpy as np

batch_x = torch.LongTensor(np.array([
    [1, 2, 3, 0, 0, 0],
    [1, 2, 3, 4, 5, 6],
    [1, 2, 0, 0, 0, 0]]
))
mask = (batch_x > 0).float()
batch_size = 3
max_len = 6

设置embedding层：

In [3]:
alphabet_size = 7
input_dim = 8
embedding = nn.Embedding(alphabet_size, input_dim, padding_idx=0)
batch_x_embed = embedding(batch_x)
print(batch_x_embed.size())  # size=(3, 6, 8)

torch.Size([3, 6, 8])


## 3. Attention

### 3.1 设置Attention层

In [4]:
attention_layer = nn.Linear(input_dim, 1)

设置该层只是为了模拟attention实现过程，实际任务中，attention的权重会根据loss进行更新。

### 3.2 错误姿势

首先看一下错误的实现方法：

In [5]:
batch_x_embed = batch_x_embed.view(-1, input_dim)
att_score = attention_layer(batch_x_embed).view(batch_size, max_len)
att_score *= mask
att_weight = F.softmax(att_score, dim=1)
print(att_weight)

tensor([[ 0.1036,  0.2521,  0.2525,  0.1306,  0.1306,  0.1306],
        [ 0.0763,  0.1857,  0.1859,  0.1270,  0.2911,  0.1340],
        [ 0.1179,  0.2871,  0.1487,  0.1487,  0.1487,  0.1487]])


我们可以看到，padding处也有一个概率得分，而这些位置的值应该是0；如果直接将这部分置0，那么padding之前部分的概率之和就不再是1，所以这样的实现方式是错误的。

### 3.3 正确姿势

接下来看一下正确的实现方法：

In [6]:
batch_x_embed = batch_x_embed.view(-1, input_dim)
att_score = attention_layer(batch_x_embed).view(batch_size, max_len)
att_score[mask==0] = -np.inf  # e**inf=0
att_weight = F.softmax(att_score, dim=1)
print(att_weight)

tensor([[ 0.1703,  0.4146,  0.4152,  0.0000,  0.0000,  0.0000],
        [ 0.0763,  0.1857,  0.1859,  0.1270,  0.2911,  0.1340],
        [ 0.2912,  0.7088,  0.0000,  0.0000,  0.0000,  0.0000]])


可以看出，padding部分的权重正确地计算为0，而padding之前的部分概率之和为1。

## 4. 带query的Attention

若现在有一个query向量，现在要计算一个实例中的每个词相对于这个query的重要程度：