## 7.1注意力机制概述
注意力机制的基本思想是，将输入序列中的每个元素（如词、像素等）与模型的当前状态进行比较，为每个输入元素分配一个权重值。这些权重值表示了输入元素对当前状态的重要程度。然后，根据这些权重值，模型可以聚焦于最重要的元素，并对其进行进一步处理。
注意力机制的主要作用是让神经网络关注输入序列中最相关的部分，从而提高模型的性能。它可以解决长序列问题、输入和输出长度不同的问题，同时也能提升模型的泛化能力和鲁棒性。在机器翻译、文本摘要、对话、语音识别、图像分类等任务中，注意力机制已经被广泛应用。其主要应用有以下两种主要形式：  
（1）注意力汇聚  
注意力汇聚（Attention Mechanism）是在深度学习中常用的一种注意力机制。在自然语言处理和计算机视觉等任务中，注意力汇聚允许模型根据输入的不同部分赋予不同的权重或重要性。例如，在机器翻译任务中，模型可以根据输入句子中的每个词的重要程度来选择性地关注，并在翻译输出时给予适当的注意。  
（2）自注意力  
自注意力（Self-Attention）是注意力机制的一种特殊形式，广泛应用于序列数据，如文本或时间序列。它允许序列中的每个元素（例如单词或时间步）都能与其他元素相互交互，以计算它们之间的相关性。这使得模型能够捕捉序列中长距离的依赖关系，从而更好地理解序列的结构和上下文。
自注意力在Transformer模型中被引入，并在自然语言处理领域取得了巨大成功。它将输入序列中的每个元素视为查询（Query）、键（Key）和值（Value），通过计算它们之间的相关性，得到最终的表示。这种表示能够更好地捕捉序列中的语义关系，有助于各种任务，如机器翻译、文本生成和语言理解等。

## 7.2 带注意力机制的编码器-解码器架构
图7-5为一个一般编码器-解码器架构，其输入和输出都是长度可变的序列，编码器 接受一个长度可变的序列作为输入， 并将其转换为具有固定形状的语义编码C。 解码器将固定形状的语义编码映射到长度可变的序列。
![image.png](attachment:image.png)
<center>图7-5 编码器-解码器架构</center>  
在生成目标句子的单词时，不论生成哪个单词，如y_1,y_2,y_3使用的句子X=(x_1,x_2,x_3,x_4)的语义编码C都是一样的，没有任何区别。而语义编码C是由句子X的每个单词经过编码器编码生成，这意味着不论是生成哪个单词，句子X中任意单词对生成的某个目标单词y_i来说影响力都是相同的，没有任何区别。
	我们以一个具体例子来说明，用机器翻译（输入英文输出中文）来解释这个分心模型的编码器-解码器架构更好理解，比如输入英文句子Tom chase Jerry，Encoder-Decoder框架逐步生成中文单词：“汤姆”“追逐”“杰瑞”。
在翻译“杰瑞”这个中文单词时，分心模型中的每个英文单词对于翻译目标单词“杰瑞”的贡献是相同的，这不太合理，因为显然“Jerry”对于翻译成“杰瑞”更重要，但是分心模型无法体现这一点，这就是为何说它没有引入注意力的原因。


## 7.3自注意力
因为循环神经网络存在非法并行计算的问题，而卷积神经网络存在无法捕获长距离特征的问题，为解决这些不足人们提出了自注意力的概念。
自注意力有很多分类，如单层注意力、多层注意力、多头注意力。它们没有本质的不同，只是形式有些不同。自注意力模型通过在输入语句或输出语句内部元素之间建立注意力机制，能够捕捉到序列内部的长距离依赖关系，，如图7-11所示。
![image.png](attachment:image.png)
<center>图7-11  自注意力对输入语句内部元素之间的依赖关系</center>

### 7.3.1 单层自注意力
单层自注意力就是假设输入为一维向量，然后，通过自注意力机制，得到同样是一维的输出，这些输出表示语句中各单词之间的依赖关系，如图7-12所示。为便于原理的说明，这里不考虑把每个单词（或标记）转换为Embedding格式，也不考虑各个单词在语句中的位置等信息。
![image.png](attachment:image.png)
 <center>图7-12  单层自注意力示意图</center>
单层自注意力的实现过程如下：  
#### （1）把每个单词（或标记）向量化，生成向量的代码如下：

In [1]:
import torch
x = [
[1, 0, 1, 0], # 输入1
[0, 2, 0, 2], # 输入2
[1, 1, 1, 1] # 输入3
]
#把输入转换为张量Tensor
x = torch.tensor(x, dtype=torch.float32)

为便于说明，这里省略其他操作，如把标记转换为Embeding，然后添加位置编码等。
#### （2）看“爱”对其他单词的依赖关系，依次看“学”“习”对其他单词的依赖关系。
1）初始化参数矩阵。


In [2]:
w_key = [
[0, 0, 1],
[1, 1, 0],
[0, 1, 0],
[1, 1, 0]
]
w_query = [
[1, 0, 1],
[1, 0, 0],
[0, 0, 1],
[0, 1, 1]
]
w_value = [
[0, 2, 0],
[0, 3, 0],
[1, 0, 3],
[1, 1, 0]
]
w_key = torch.tensor(w_key, dtype=torch.float32)
w_query = torch.tensor(w_query, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)

####  2）生成keys、querys、values等矩阵。

In [3]:
## 实现矩阵的点乘运算
keys = x @ w_key
querys = x @ w_query
values = x @ w_value

####  3）计算输入“爱”对其他单词的依赖关系。
根据公式：$Q∙K^T$，计算单词“爱”对其他单词的得分。

In [4]:
attn_scores = querys @ keys.T
# tensor([[ 2., 4., 4.],   # Q1与所有K值
# [ 4., 16., 12.],         # Q2与所有K值
# [ 4., 12., 10.]])        #Q3与所有K值

In [5]:
print(attn_scores)

tensor([[ 2.,  4.,  4.],
        [ 4., 16., 12.],
        [ 4., 12., 10.]])


#### 4）通过softmax函数。
$softmax(Q_i*K^T)$

In [6]:
from torch.nn.functional import softmax
attn_scores_softmax = softmax(attn_scores, dim=-1)
# tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
# [6.0337e-06, 9.8201e-01, 1.7986e-02],
# [2.9539e-04, 8.8054e-01, 1.1917e-01]])


In [7]:
print(attn_scores_softmax)

tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
        [6.0337e-06, 9.8201e-01, 1.7986e-02],
        [2.9539e-04, 8.8054e-01, 1.1917e-01]])


为便利理解，这里对attn_scores_softmax进行四舍五入。

In [8]:
attn_scores_softmax=torch.round(attn_scores_softmax, decimals=1)
print(attn_scores_softmax)

tensor([[0.1000, 0.5000, 0.5000],
        [0.0000, 1.0000, 0.0000],
        [0.0000, 0.9000, 0.1000]])


#### 5）将得分与值相乘。

In [9]:
# 将得分和值相乘

weighted_values = values[:,None] * attn_scores_softmax.T[:,:,None]

In [10]:
print(weighted_values)

tensor([[[0.1000, 0.2000, 0.3000],
         [0.0000, 0.0000, 0.0000],
         [0.0000, 0.0000, 0.0000]],

        [[1.0000, 4.0000, 0.0000],
         [2.0000, 8.0000, 0.0000],
         [1.8000, 7.2000, 0.0000]],

        [[1.0000, 3.0000, 1.5000],
         [0.0000, 0.0000, 0.0000],
         [0.2000, 0.6000, 0.3000]]])


#### 6）生成输出，对值进行加权求和。

In [11]:
## 求和加权值
outputs = weighted_values.sum(dim=0)
print(outputs)

tensor([[2.1000, 7.2000, 1.8000],
        [2.0000, 8.0000, 0.0000],
        [2.0000, 7.8000, 0.3000]])


#### 7）对输入单词“学”、“习”重复（3）~（6），直到生成单词“学”“习”对应的输出。

### 7.3.2 多层自注意力
输入为矩阵的形式，即把多个输入组合成一个矩阵，这样可以充分发挥GPU并发计算的优势，如图7-13所示。
![image.png](attachment:image.png)
图7-13 多层自注意力的计算过程
多层自注意力的计算过程如下：
1）生成参数矩阵Q、K、V。

输入与各参数矩阵进行点积运算，得到Q、K、V。
$$Q=X∙W_Q,K=X∙W_K,V=X∙W_V				\tag{7.21}$$
其中，输入X为N×d矩阵。W_Q为d×d_k矩阵。
2）计算得分。
$$scores=softmax(\frac{Q∙K^T}{\sqrt{d_k}})						\tag{7.22}$$
3）得到输出，对值进行加权求和。
$$Z=scores∙V								\tag{7.23}$$


### 7.3.3 多头自注意力
1.多头自注意力机制的提出
自注意力机制是一种用于捕捉序列中不同元素之间关联性的机制，它被广泛应用于自然语言处理和计算机视觉等任务中。然而，自注意力机制也存在一些不足之处。
- 缺乏全局信息。自注意力机制通常将注意力权重计算作用于序列中的每个元素，但对全局信息的处理能力比较有限。例如，在长序列中，远距离的词语之间的关联可能无法明确捕捉，这可能导致信息丢失。
- 处理大规模输入困难。自注意力机制的计算复杂度是输入序列长度的平方，因此处理大规模输入时会面临计算资源的挑战。这限制了自注意力机制在实际应用中的可扩展性。
- 缺乏对位置信息的明确建模。自注意力机制的计算过程中不包含当前元素的位置信息，因此可能存在将重要元素的注意力权重分配给不相关元素的问题。这在某些任务中可能导致性能下降。  
为了克服上述问题，多头自注意力机制（Multi-head Self-attention）被提出。多头自注意力机制是通过引入多个独立的自注意力子层来解决自注意力机制的不足。每个子层能够从不同的角度关注输入序列，从而提供更全面的信息。其计算过程如图7-14所示。
![image.png](attachment:image.png)
<center>图7-14 多头自注意力机制计算过程</center>

2.多头注意力机制的计算过程  
多头注意力机制的计算过程如下：  
1）输入线性变换。首先，输入通过多个独立的线性变换被分别映射到多个不同的子空间上。这些线性变换共享相同的权重矩阵，但是每个子空间对应一个不同的注意力头。  
2）注意力计算。在每个注意力头中，通过计算查询（Q）、键（K）和值（V）之间的相似度来计算注意力权重。这一过程可以通过Q、K和V的点积操作或者其他相似计算方法完成。  
3）注意力加权。通过计算得到的注意力权重被用于对V进行加权求和，从而得到注意力表示。在Transformer中，每个位置的注意力权重都与其他位置的注意力权重相互独立，可以并行计算。  
4）多头合并。每个注意力头都输出一个注意力表示，这些表示被拼接在一起并再次经过一个线性变换得到最终的多头注意力输出。  
3.提升多头注意力的性能  
多头自注意力主要从以下几个方面来克服自注意力不足。  
1）处理全局信息。多头自注意力机制可以通过不同的注意力头来从不同的角度关注输入序列。每个注意力头可以捕捉到不同的语义关系，从而提供更全局的信息。
例如，对于一个包含300个词语的句子，如果我们使用8个注意力头，每个头关注不同的词语关系，就能够捕捉到整个句子的语义关系，包括句子开头和句子结尾之间的联系。这样，多头自注意力机制能够更好地理解全局信息。  
2）处理大规模输入困难。多头自注意力机制在计算复杂度之外还引入了并行计算的机制。每个注意力头可以并行地计算注意力权重和上下文向量，从而加快计算速度。  
例如，如果我们要处理一个包含1000个词语的文本，如果使用8个注意力头，每个头只需计算1000×1000/8=125,000次注意力权重的计算。这样，多头自注意力机制大大减小了计算开销，提高了模型的效率。
3）建模位置信息。多头自注意力机制通过引入位置编码来建模位置信息。位置编码是通过向输入序列中的单词添加额外的向量来实现的，表示单词在序列中的位置。  
例如，在多头自注意力机制中，位置编码可以区分句子中的不同位置，并在计算注意力权重时进行调整，如图7-15所示。这样，模型可以更好地理解不同位置的语义关系。


![image.png](attachment:image.png)
<center>图7-15  自注意力与多头自注意力示意图比较</center>  
4.多头注意力机制的优点
多头注意力机制的优点如下：  
（1）多头注意力机制允许模型并行地关注不同的信息子空间，从而提高了模型的学习能力和表达能力。每个头都可以学习关注不同的语义特征，比如位置、领域、语法等，从而从个角度同时建模输入序列。  
2）多头注意力机制增加了模型的稳健性和鲁棒性。通过引入多个独立的注意力头，模型可以同时学习到不同的表示，从而可以对多种输入情况进行适应，减少过度依赖单个注意力头的风险。  
3）多头注意力机制能够捕获序列中的不同关系。不同的注意力头可以关注不同的位置关系，例如长距离依赖、短距离依赖等，从而增强了模型对序列中不同位置关系的建模能力。  

### 7.3.4 自注意力与卷积网络、循环网络的异同
从以上分析可以看出，自注意力机制没有前后依赖关系，可以基于矩阵进行高并发处理，另外每个单词的输出与前一层各单词的距离都为1，如图7-16所示，说明不存在梯度消失的问题，因此，Transformer就有了高并发和长记忆的强大功能！

![image.png](attachment:image.png)
<center>图7-16 自注意力输入与输出之间反向传播距离示意图</center>
这是自注意力的处理序列的主要逻辑：没有前后依赖，每个单词都通过自注意力直接连接到任何其他单词。 因此，可以并行计算，且最大路径长度是O(1)。
循环神经网络处理序列的逻辑，如图7-17所示。
![image-2.png](attachment:image-2.png)
<center> 图7-17 循环神经网络处理序列的逻辑示意图</center>
由图7-17可知，更新循环神经网络的隐状态时，需要依赖前面的单词，如处理单词x_3时，需要先处理单词x_1、x_2，因此，循环神经网络的操作是顺序操作且无法并行化，其最大依赖路径长度是O(n)（n表示时间步长）。
卷积神经网络也可以处理序列问题，其处理逻辑如图7-18所示。
![image-3.png](attachment:image-3.png)
<center> 图7-18 卷积神经网络处理序列的逻辑示意图</center>
图7-18是卷积核大小K为3的两层卷积神经网络，有O(1)个顺序操作，最大路径长度为O(n/k)（n表示序列长度），单词x_2和x_6处于卷积神经网络的感受野内。