# Self-Attention 介绍

- 将序列$\left(x_1, x_2, \cdots, x_i\right)$中每一个值作为$\text {key, value}$ 和 $query$，来提取特征 $\left(y_1, y_2, \cdots, y_i\right)$
- 也就是$y_i=f\left(x_i,\left(x_1, x_1\right),\left(x_2, x_2\right), \cdots,\left(x_n, x_n\right)\right)$
- 这里 $key$，$value$ 和 $query$ 都是来自与自己，就不需要之前的 $encoder$ 和 $decoder$;
- 相当于给定$\left(x_1, x_2, \cdots, x_i\right)$，可以生成一个$\left(y_1, y_2, \cdots, y_i\right)$

## Self-Attention 与 CNN 和 RNN 的比较
- CNN 的 kernel 比较小，要比较多的层数才可以看得范围比较多；
- RNN 中信息的传递，如果距离比较远，需要的步骤也很多，且 RNN 无法直接并行；
- self-attention，信息传递是可以直接传递过去的，可以抓取很远的信息；

In [2]:
import math
import torch
from torch import nn
from lib.d2l_torch import MultiHeadAttention, plot, show_heatmaps

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
# 可以让输入和输出完全一样大小
num_hiddens = 100 # `qkv` 转换后的大小维度, 单个的维度为 num_hiddens/num_heads
num_heads = 5 # head 的数量
attention = MultiHeadAttention(num_hiddens, num_heads, 0.5)

# 构建输入
batch_size = 2
num_queries = 4
valid_lens = torch.tensor([3, 2])
X = torch.ones((batch_size, num_queries, num_hiddens))
print(X.shape)
attention_result = attention(X, X, X, valid_lens) # q, k, v 都是 x
# attention 之后的大小 (batch_size, number of queries, num_hiddens)
print(attention_result.shape)

torch.Size([2, 4, 100])
torch.Size([2, 4, 100])




In [4]:
# 也可以修改输入和输出的大小
num_hiddens = 50 # `qkv` 转换后的大小维度, 单个的维度为 num_hiddens/num_heads
num_heads = 5 # head 的数量
attention = MultiHeadAttention(num_hiddens, num_heads, 0.5)

batch_size = 2
num_queries = 4
valid_lens = torch.tensor([3, 2])
X = torch.ones((batch_size, num_queries, num_hiddens*2))
print(X.shape)
attention_result = attention(X, X, X, valid_lens) # q, k, v 都是 x
print(attention_result.shape) # attention 之后的大小 (batch_size, number of queries, num_hiddens)


torch.Size([2, 4, 100])
torch.Size([2, 4, 50])


