# 注意力机制回归
> `Transformer`的核心是注意力机制, 所以首先对于注意力机制进行回顾

## QKV与多头注意力机制
> 参考: https://zhuanlan.zhihu.com/p/669027091
### QKV三者之间关系
`Attention`实际上类似于一个数据库查表的功能, 把想要查询的`Q`与数据库中的`K`进行对比, 并且测量相似度, 从而返回所符合要求的值 `V`, 整个过程类似于视频软件中的搜索功能:
![image.png](attachment:cc6b1b80-b642-48f7-aec4-3d0c4c2c4807.png)
在具体的`NLP`领域, 往往是要给`Transformer`大模型输入一个序列的文本, 也就是一句话或者一段话, 其中每一个单词都会使用一个 `Embedding` 向量来表示, 这一个`Attention`查表的过程, 其实就是对于海量 `Embedding` 进行查询搜索的过程, 对于一个输入序列, 每一个 `token` 都有一个 `Embedding`向量表示, 我们需要考虑的是如果对于每一个 `Embedding` 向量表示获取到对应的 `QKV` 关系

**补充:**
`Q,K,V`三者之间的关系不仅仅是简单的查询关系, 具体来说就是根据 `Q,K`之间的相似度来确定`Q` 对应的值中, 每一个 `K` 对应的 `V` 的占比, 也就是注意力权重, 一般注意力权重为 $softmax(a(\mathbf{Q}, \mathbf{V}))$, 其中 $a$ 为注意力评分函数, 当 $Q,K$的维度相同的时候(特征数相同)一般可以使用缩放点积注意力来描述 `Q,K,V`关系:
$$
Output = softmax(\frac{\mathbf{Q}\mathbf{K}^T}{\sqrt {d_k}})\mathbf{V}
$$
### QKV与Multi-Head Attention关系
在`Attention`机制中, `QKV`三者做了一种广义的搜索运算, 从而找出全部输入在给 `Attention`的序列中每一个 `token` 和序列中其他 `token` 之间的语义关联度

比如输入 `Attention` 一个序列: `How are you ?`, 之后系统首先将输入序列转换为四个 `token`, 之后找出四个 `token` 互相之间的语义关联度, 也就是 `Attention` 过程, 比如 `How` 与其他三个 `token` 之间的关联度

无论是对于短序列还是长序列的输入, `Attention`首先把输入的序列中的每一个`token`转换为`Embedding`向量, 之后把 `Embedding`向量拆分为三个向量 `Q、K、V`

### $W^Q、W^K、W^V$三个权重矩阵的引入以及作用
实际上, 我们把每一个 `token` 对应的 `Embedding` 向量分别做三次线性变换, 也就是说它与三个具有不同权重的矩阵 $W^Q、W^K、W^V$相乘最终得到 $Q、K、V$三个向量, 并且这三个权重矩阵都是可学习的参数, 运算过程如下:
![image.png](attachment:c68b817f-153c-45e2-bc5a-ab5f0af088d6.png)
但是实际的处理过程中输入一般是 `(batch_size, embed_size)`, 对于时序数据, 只考虑对应的时间步$t$ 对应的输入, 依然是 `(batch_size, embed_size)`

**Q1: 为什么不直接把输入序列直接作为 Q、K、V?**
**同时可以降低维度, 从而实现并行计算, 参考下面多头注意力机制的实现**

### Multi-head Attention多头注意力机制引入
权重矩阵 $W^Q、W^K、W^V$ 与多头注意力机制相关, 权重矩阵实际上是对于完整矩阵进行多头处理, 比如输入的数据为 $n \times 512$, 分为 $8$ 个头, 那么每一个头的输出就是 $n \times 64$, 之后分别对于每一个头进行 `attention` 操作, 最终把结果进行凭借经过一个线性层输出即可

但是注意这里的分割不是通过分割输入来实现的, 而是通过线性变换实现的, 也就是经过线性变换层完成了特征数量的变换, 并且每一个头都有自己的权重矩阵 $\mathbf{W}_i^K, \mathbf{W}_i^K, \mathbf{W}_i^V$

**Q1: 多头注意力机制有什么作用?**
用于从尽可能多的方面提取特征之间的相似度, 可以把 `Multi-head Attention`理解称西方神话中的多头龙, 每一个头的攻击方式不同, 只需要 对于每一个头进行各自的 `Attention` 操作, 不同的头就可以训练出不同的技能, 从而得到更好的效果

### Embedding 空间中语义结果多样性与Multi-Head多头之间关系
这里还是说的 `Multi-Head` 为什么效果比较好, 需要从 `Word Embedding` 的角度来看, 比如利用二维的 `Embedding`矩阵表示词元, 如下:
![image.png](attachment:3bb9103f-c81d-4d0d-892d-d553f51a0581.png)
同时在自然语言中存在各种不同的映射关系, 比如 `man -> king, women -> queen` 以及 `walking -> walked, swimming -> swam`, 比如不同的映射关系可能如下:
![image.png](attachment:ab782180-cd60-42e5-bbd3-9c27cdcf7820.png)
我们知道, 注意力机制的作用其实是找出序列中不同词元的联系, 但是在自然语言中, 可能存在很多中联系关系, 所以多头注意力其实就是可以同时利用多个头去寻找不同的联系关系(比如复数形式、过去式形式、相近意义等), 也就是 `Multi-Head`的核心意义: 工作做细、做精
### 被 Multi-Head分解的语义逻辑子空间的重要意义
`Multi-Head` 的作用就是利用不同的 `QKV`组合来细分不同的逻辑子空间(语义逻辑、语法逻辑、上下文逻辑、分类逻辑等), 经过 `Google`技术团队验证, 一般 `8` 个头的综合技术的分最高, 所以一般以 `8` 个头作为默认子空间数

据例子如下, 对于一句自然语言 $The animal didn't cross the street because it was too tired.$, 如果使用 `8` 个头, 那么每一个头对应的 `Attention`可能如下:
![image.png](attachment:cebf6a9f-9bb0-4bca-9231-26c443cc6c33.png)
可以发现对于 `it` 这一个词元, 在不同的头中, 其他词元与这一个词元之间的注意力不同

一般把一个头分为 $8$ 个头, 计算完成之后还需要凭借回去, 并且经过另外一个线性变换恢复到 `Embeding` 的 `512` 维的向量长度

## 多头注意力运算方式
### 单头 Attention注意力机制的运算方式
整个 `Attention` 注意力机制的计算过程如下(假设使用缩放点积注意力):
![image.png](attachment:fd0753aa-c878-48a6-97f5-f63084e66e35.png)
注意使用缩放点积注意力机制需要 `QK` 的维度相同:
$$
Attention(Q,K,V) = softmax(\frac{QK^T}{\sqrt {d_k}})V
$$
也就是 $Q_i, K_i$点积的结果除 $\sqrt{d_k}$, 这里为了保持数据方从而缓和梯度的下降, 其中 $d_k$ 就是 $Q,K$矩阵的维度也就是 $d_k = \frac{d_{model}}{h}$
![image.png](attachment:fbe155a1-4d5b-4360-854c-80936851dfd4.png)
所以可以发现, 这里其实 `booked` 没有变, 但是预测序列中 `booked` 的组成却发生了变化, ~~所以 `google` 使用 `Transformer` 这一个词来命名模型(其实是借用了变形金刚的梗) 。。。~~
### Multi-Head Attention多头注意力机制运算方式
`Multi-Head Attention`多头注意力机制的运算过程如下:
![image.png](attachment:14b5dff1-3a4a-43ec-abcc-9293de71dd27.png)
### $W^O$矩阵引入
注意到分割出 $8$ 个头的时候, 不是直接在物理层面上进行分割, 而是切割成不同的等分, 所以最终输出的时候也不可能是简单的凭借, 而是通过一次线性变换把这些语义逻辑子空间进行融合, 其中 $W^O$也是可学习的参数
![image.png](attachment:6ed144ac-39b0-4b0a-96cb-d06a966ba3f3.png)
整个多头注意力的计算方式如下:
![image.png](attachment:99148e16-b7f5-4ca5-bd01-3e488300413e.png)
但是论文中使用自注意力, 其实这里的 `Q、K、V`最终都是`X`, 整个 `Multi-Head Attention`过程:
![image.png](attachment:89e3ed3e-ad61-49ff-93dc-0eceada427f3.png)
### 对多头注意力机制的一个比喻
`Self-Attention`相当于对于个人需要找好在团队中的定位, 但是出了在与业务流程上的考量, 还有其他的维度, 比如职位的权重、性格匹配度等, 对于这些不同的领域都来一套 `Attention` 注意力机制, 这就是多头注意力机制, 如果说 `Self-Attention` 自注意力机制”是一个团队成功的基本必要条件，那么 `Multi-head Attention` 多头注意力机制”就是确保全团队最优协作的充分条件了。

## 自注意力机制(Self-Attention)与位置编码
### 自注意力机制(Self-Attention)
自注意力机制是一种特殊的注意力机制, 允许模型在处理一个序列的时候, 考虑到序列中的每一个元素与其他所有元素之间的关系, 从而使得模型可以更好的理解上下文信息, 从而准确处理序列数据

并且在自注意力机制中, 模型会计算序列中每一个元素与词元与其他所有元素的关联度关系(或者称为权重), 这些权重反映了元素之间的相互关系, 比如反应语言模型中词与词之间语义关联度

对于自注意力机制, 此时输入的 `Q、K、V`都是序列本身, 那么其实此时利用 `Attention` 机制的作用就是找出序列中某一个词和其他词之间的联系关系, `Self-Attention`计算过程如下:
![image.png](attachment:61ffc589-37a0-4c97-bb96-c28d1882746c.png)
这里只是一个简单的表示, 其实在 `Transformer` 模型中, 是通过多头注意力来计算自注意力的
### 位置编码
对于自注意力, 对于序列 $[x_1, x_2, \ldots, x_N]$, 在自注意力机制中对于每一个位置的操作都是一样的, 也就是得到 $x_i = k_1x_1 + k_2x_2 + \ldots + k_ix_i + k_Nx_N$, 所以此时就算交换其中任意两个元素的位置, 得到的依然还是上面描述的关系, 只是权重矩阵为中某一些位置发生了变换而以(注意缩放点积操作对应的注意力评分函数并没有可学习的参数), 所以可以发现自注意力其实损失了位置信息, 所以对于每一个数据, 我们需要加上位置信息在进行注意力操作, 这样得到的序列中就可以包含位置信息了, 此时就需要使用到位置编码

加入了位置编码之后, 整个过程如下:
![image.png](attachment:f1bc2519-c07f-44a7-9ff8-d7febd3b2a3c.png)

一般位置编码可以这样设置:
$$
\begin{align*}
e_{t,2i} &= \sin\left(\frac{t}{10000^{\frac{2i}{D}}}\right) \\
e_{t,2i + 1} &= \cos\left(\frac{t}{10000^{\frac{2i}{D}}}\right)
\end{align*}
$$

位置编码其实是在序列中引入位置关系, 如果没有位置编码, 对于同一个序列但是调整词序, 经过自注意力之后, 可能每一个词元对应其他词元的权重还是一样的, 但是引入位置编码之后模型可以学习到位置信息