# Attention
如果理解了BERT中的MHA，理解LLaMa中使用的GQA就没有什么难度，

MHA可以看李宏毅老师的视频
QAH可以看
[深度解析Group Query Attention(GQA)为什么能给LLM decoder带来极大推理加速](https://zhuanlan.zhihu.com/p/667259791)

# 1. 三种Attention
1. MHA(Multi-Head Attention)
2. GQA(Grouped Query Attention)
3. MQA(Multi-Query Attention)
![image.png](attachment:28962e1a-2021-43cd-bcd2-0238b845bf54.png)

---


### 1.1 MHA(Multi-Head Attention)
对于某一个输入向量$a_i$，会有多个（图中是两个）$W_q$，多个$W_k$，多个$W_v$向量与之相乘，

同时对于某一个输入向量$a_j$，也会有多个$W_q$，多个$W_k$，多个$W_v$向量与之相乘，

每一组头包含三个矩阵$W_q$ $W_k$ $W_v$

只用由同一个头产生出来的kqv向量才会在一起运算

最后输出多个b，将他们拼接在一起，然后通过一个线性层，将维度降低。
![image.png](attachment:2a9c6639-8b84-4b98-ad1e-aaa56bc7ac9b.png)

---


### 1.2 MQA(Multi-Query Attention)
MQA则是一种优化的注意力机制，它通过让所有头共享相同的键（keys）和值（values），也就是有多个$W_q$，但只有一个$W_k$和$W_v$，减少了参数量和计算量，从而加快了推理速度，但可能会牺牲一些精度 。

---


### 1.3 GQA(Grouped Query Attention)
它介于MHA（Multi-Head Attention）和MQA（Multi-Query Attention）之间，旨在结合两者的优点，以实现在保持MQA推理速度的同时接近MHA的精度。
它将**查询头（query heads）分组，每组共享一个键和值**，而不是所有头都共享。

---


## 2 Mask
由于注意力混合只能是**某一个词关于自身和之前词的注意力**,这是因为模型的目的是预测下一个词.也就是说对于第i个词只能看它关于第j(j<=i)个词的注意力.因此就需要一个**上三角形的Mask**,来遮住注意力分数矩阵的右上部分。这个Mask在上三角部分为负无穷,因为只有负无穷在softmax下才为0。

![image.png](attachment:8dbdddb5-0ae9-43ae-927c-0e43ab84192f.png)

为了根据比例混合V,我们需要把每一个词的原始的attention weights向量转化成一个全为非负元素且和1的向量,也就是一个分布,这个转化方式就是softmax函数.这样就得到了注意力权重矩阵。

然后在与V相乘,就得到了Attention Scores。

## 3 KV Cache
![image.png](attachment:41c2cf73-48a7-425c-9009-d10753f566e0.png)
![image.png](attachment:e5b7b624-8a2d-41b8-8531-f32f15c359e5.png)
![image.png](attachment:dc241bc8-86df-4d12-af82-8b66c1ec29f7.png)

### 本项目代码

In [None]:
class SelfAttention(Model):
    def __init__(self,
                 args: 'LLaMaArgs',
                 rope_apply: Callable):
        super(SelfAttention, self).__init__()

        assert args.num_heads * args.head_dim == args.hidden_size
        assert args.num_heads % args.num_key_value_heads == 0
        assert args.head_dim % 2 == 0

        self.max_len = args.max_len
        self.max_batch_size = args.max_batch_size
        self.enable_kv_cache = args.enable_kv_cache
        self.use_gpu = args.use_gpu

        self.hidden_size = args.hidden_size
        self.num_heads = args.num_heads
        self.head_dim = args.head_dim
        self.num_key_value_heads = args.num_key_value_heads
        self.attention_bias = args.attention_bias
        self.dropout_ratio = args.dropout_ratio

        self.dropout_on = args.dropout_ratio != 0
        self.kv_repeat_num = self.num_heads // self.num_key_value_heads

        self.rope_apply = rope_apply

        # 四个线性变换
        self.q_proj = Linear(in_size=self.hidden_size, out_size=self.num_heads * self.head_dim,
                             nobias=~self.attention_bias)

        self.k_proj = Linear(in_size=self.hidden_size, out_size=self.num_key_value_heads * self.head_dim,
                             nobias=~self.attention_bias)

        self.v_proj = Linear(in_size=self.hidden_size, out_size=self.num_key_value_heads * self.head_dim,
                             nobias=~self.attention_bias)

        self.o_proj = Linear(in_size=self.hidden_size, out_size=self.hidden_size, nobias=~self.attention_bias)

        if self.enable_kv_cache:
            self.k_cache = Variable(np.zeros([self.max_batch_size, self.num_key_value_heads, 0, self.head_dim]))
            self.v_cache = Variable(np.zeros([self.max_batch_size, self.num_key_value_heads, 0, self.head_dim]))
            if self.use_gpu:
                self.k_cache.to_gpu()
                self.v_cache.to_gpu()

    def forward(self, x, cos_pos, sin_pos):
        batch_size = x.shape[0]
        length = x.shape[1]
        # embed_dim = x.shape[2]

        q = self.q_proj(x)
        k = self.k_proj(x)
        v = self.v_proj(x)
        # shape:
        # [batch_size, length, hidden_size]

        q = q.reshape(batch_size, length, self.num_heads, self.head_dim).transpose(0, 2, 1, 3)
        k = k.reshape(batch_size, length, self.num_key_value_heads, self.head_dim).transpose(0, 2, 1, 3)
        v = v.reshape(batch_size, length, self.num_key_value_heads, self.head_dim).transpose(0, 2, 1, 3)
        # (reshape)[batch_size, length, num_heads, head_dim]
        # (transpose)[batch_size, num_heads, length, head_dim]

        # q,k rope finish
        # q = apply_RoPE(q, cos_pos, sin_pos)
        # k = apply_RoPE(k, cos_pos, sin_pos)
        q = self.rope_apply(q, cos_pos, sin_pos)
        k = self.rope_apply(k, cos_pos, sin_pos)

        if self.enable_kv_cache:
            start_pos = self.k_cache.shape[2]
        else:
            start_pos = 0

        if self.enable_kv_cache:
            self.k_cache = cat((self.k_cache, k), axis=2)
            self.v_cache = cat((self.v_cache, v), axis=2)
            k = self.k_cache
            v = self.v_cache

        # print(k[0, 0])
        # print(v[0, 0])

        # 相乘之前若是kv头数不一样还需要重复 num_heads % num_key_value_heads
        if self.num_heads != self.num_key_value_heads:
            k = k[:, np.arange(self.num_key_value_heads).repeat(self.kv_repeat_num), :, :]
            v = v[:, np.arange(self.num_key_value_heads).repeat(self.kv_repeat_num), :, :]

        attention_weight = matmul(q, k.transpose(0, 1, 3, 2)) / np.sqrt(self.head_dim)

        mask = np.full((length, length), -np.inf) #创建全为负无穷的矩阵
        mask = np.triu(mask, k=1) # 返回mask数组的上三角部分（包括对角线），其余部分被设置为零。
        mask = np.concatenate((np.zeros((length, start_pos)), mask), axis=1) 
        # 最终得到的 mask 数组是一个形状为 (length, length + start_pos) 的数组，
        # 其中前 start_pos 列是零，为了KV-cache将之前储存的注意力分数加进来，
        # 其余部分是上三角形状并带有负无穷值的部分。

        if self.use_gpu:
            from cuda import as_cupy
            mask = as_cupy(mask)

        attention_weight = attention_weight + mask

        attention_weight = softmax(attention_weight, axis=-1)

        if self.dropout_on:
            attention_weight = dropout(attention_weight, self.dropout_ratio)

        output = matmul(attention_weight, v)  # (bzs, num_heads, length, head_dim)
        output = output.transpose(0, 2, 1, 3).reshape(batch_size, length, self.hidden_size)
        # (bzs, length, embed_dim)
        output = self.o_proj(output)

        return output