# Multi-head Attention

```python
import torch.nn.init as init
init.kaiming_normal_(weights, mode='fan_in', nonlinearity='relu')
init.xavier_normal_(input_,output_)

nn.softmax就是网络里的一部分，而f.softmax只是一个函数

所以区分一下torch.nn和torch.nn.functional

torch.randn(input_,output_) #(0,1)
torch.normal(mu,var,size=(input_,output_))
f.relu()
f.softmax()
f.linear()
```

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
X=torch.randn(128,64,512)  #batch, time, dimension
print(X.shape)
d_model=512
n_head=8

torch.Size([128, 64, 512])


In [9]:
#attention(Q,K,V)=softmax(QK^T/d**0.5)V
class multi_head_attention(nn.Module):  #需要继承nn.Module库
    def __init__(self,d_model,n_head)->None:
        super(multi_head_attention, self).__init__()
        self.d_model=d_model  #d_model is the length of word vector
        self.n_head=n_head
        
        self.w_q=nn.Linear(d_model,d_model,bias=False)
        self.w_k=nn.Linear(d_model,d_model,bias=False)
        self.w_v=nn.Linear(d_model,d_model,bias=False)
        self.fc_out=nn.Linear(d_model,d_model,bias=False)
        self.softmax=nn.Softmax(dim=-1)  #dim=-1只对最后一个维度进行操作
        
    def forward(self,x):
        batch,time,dimension=x.shape
        n_d=self.d_model//self.n_head# 每个head的维度
        Q=self.w_q(x)
        K=self.w_k(x)
        V=self.w_v(x)
        #这里把n_head提上来，只对最后两个维度，也就是一个head的embed维度，和time长度进行处理
        Q=Q.view(batch,time,self.n_head,n_d).permute(0,2,1,3)
        K=K.view(batch,time,self.n_head,n_d).permute(0,2,1,3)
        V=V.view(batch,time,self.n_head,n_d).permute(0,2,1,3)
        
        
        A=Q@K.transpose(2,3)@Q/(n_d**0.5)
        #triangle, up,上三角=1
        mask=torch.triu(torch.ones(n_d,n_d),diagonal=1)
        mask = mask.masked_fill(mask == 1, float('-inf'))  #0*-inf=nan!
        # mask=mask*float('-inf')
        A=A+mask
        A_hat=self.softmax(A)
        B=A_hat@V  
        B=B.permute(0,2,1,3).contiguous().view(batch,time,dimension)
        output=self.fc_out(B)
        return output
    
attention=multi_head_attention(d_model,n_head)
output=attention(X)
print(output,output.shape)
        

tensor([[0., -inf, -inf,  ..., -inf, -inf, -inf],
        [0., 0., -inf,  ..., -inf, -inf, -inf],
        [0., 0., 0.,  ..., -inf, -inf, -inf],
        ...,
        [0., 0., 0.,  ..., 0., -inf, -inf],
        [0., 0., 0.,  ..., 0., 0., -inf],
        [0., 0., 0.,  ..., 0., 0., 0.]]) tensor([[[[-3.2267e+00,        -inf,        -inf,  ...,        -inf,
                  -inf,        -inf],
          [ 4.0453e-01, -1.1130e+00,        -inf,  ...,        -inf,
                  -inf,        -inf],
          [ 8.3827e-01,  2.1794e+00,  4.3936e-01,  ...,        -inf,
                  -inf,        -inf],
          ...,
          [-1.5250e+00,  1.4208e-01,  1.6194e-01,  ..., -1.2820e+00,
                  -inf,        -inf],
          [-2.1137e+00,  8.7380e-01,  2.6049e+00,  ..., -3.1435e+00,
           -9.9228e-01,        -inf],
          [-1.4212e+00,  2.8292e+00,  1.1223e-01,  ..., -1.1085e+00,
           -1.3090e+00, -1.6453e+00]],

         [[-1.3450e+00,        -inf,        -inf,  ...,  

定义一个自定义的神经网络模块时，通常会继承 torch.nn.Module

nn.Module 是 PyTorch 中所有神经

可以通过torch.save()和torch.load()保存恢复模型
继承 nn.Module 后，你可以通过以下方式扩展它
* 定义自定义的网络结构（子模块）。
* 定义自定义的前向传播逻辑（forward 方法）。

这是 multi_head_attention 类的初始化方法，用于定义该模块的属性和子模块

`def __init__(self,) -> None:`

除了 self 参数外，你可以添加其他自定义的参数。这些参数可以用来配置类的行为、初始化特定的属性或子模块。

super().__init__() 是一个关键步骤，用于调用父类（nn.Module）的初始化方法：

`super(multi_head_attention, self).__init__()`

如果没有调用 super().__init__()，nn.Module 的一些功能（如参数管理、设备分配）将无法正常工作。


`requires_grad=True` 表示张量会参与自动求导，也就是这些参数会在反向传播时计算梯度，用于模型的优化

在你的 MultiHeadAttention 类中，nn.Linear 和 nn.Dropout 等层已经是 nn.Module 的子模块，它们的参数（如权重和偏置）会被 nn.Module 自动注册

这些参数已经默认设置了 requires_grad=True，所以在反向传播时会自动计算梯度
可以通过以下方式查看所有可训练参数
```python
mha = MultiHeadAttention(embed_dim=64, num_heads=8)
for name, param in mha.named_parameters():
    print(name, param.shape, param.requires_grad)
```

默认情况下，nn.Module 的参数已经启用了 requires_grad=True
* 你不需要手动设置 requires_grad=True。
* 所有 nn.Linear 和其他可训练模块的参数都会自动被优化。

手动创建参数时需要设置 `requires_grad=True`，如果你手动定义某些权重参数，而不是通过 nn.Linear 或其他层生成，需要显式地设置 requires_grad=True。

冻结参数时需要设置 requires_grad=False


* PyTorch 的操作会自动识别批次维度并只对最后两个维度进行矩阵乘法！！


## GPT的multi-head Attention

In [None]:
import torch
import torch.nn as nn
import torch.nn.functional as F

class MultiHeadAttention(nn.Module):
    def __init__(self, embed_dim, num_heads, dropout=0.1):
        """
        初始化多头注意力模块。
        
        Args:
        - embed_dim (int): 输入的嵌入维度（d_model）。
        - num_heads (int): 注意力头的数量。
        - dropout (float): Dropout 的比例。
        """
        super(MultiHeadAttention, self).__init__()
        
        # 验证 embed_dim 是否可以被 num_heads 整除
        assert embed_dim % num_heads == 0, "embed_dim 必须能够整除 num_heads"
        
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.head_dim = embed_dim // num_heads  # 每个头的维度 d_k
        
        # 定义 Q, K, V 的权重
        self.W_Q = nn.Linear(embed_dim, embed_dim)  # (embed_dim, embed_dim)
        self.W_K = nn.Linear(embed_dim, embed_dim)  # (embed_dim, embed_dim)
        self.W_V = nn.Linear(embed_dim, embed_dim)  # (embed_dim, embed_dim)
        
        # 输出权重
        self.fc_out = nn.Linear(embed_dim, embed_dim)  # (embed_dim, embed_dim)
        
        # Dropout
        self.dropout = nn.Dropout(dropout)
    
    def forward(self, x):
        """
        前向传播。
        
        Args:
        - x (Tensor): 输入张量，形状为 (batch_size, seq_length, embed_dim)。
        
        Returns:
        - out (Tensor): 输出张量，形状为 (batch_size, seq_length, embed_dim)。
        - attention (Tensor): 注意力矩阵，形状为 (batch_size, num_heads, seq_length, seq_length)。
        """
        batch_size, seq_length, embed_dim = x.size()
        
        # 计算 Q, K, V
        Q = self.W_Q(x)  # (batch_size, seq_length, embed_dim)
        K = self.W_K(x)  # (batch_size, seq_length, embed_dim)
        V = self.W_V(x)  # (batch_size, seq_length, embed_dim)
        
        # 拆分为多头
        Q = Q.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  # (batch_size, num_heads, seq_length, head_dim)
        K = K.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  # (batch_size, num_heads, seq_length, head_dim)
        V = V.view(batch_size, seq_length, self.num_heads, self.head_dim).transpose(1, 2)  # (batch_size, num_heads, seq_length, head_dim)
        
        # 点积注意力计算
        attention_scores = torch.matmul(Q, K.transpose(-2, -1)) / (self.head_dim ** 0.5)  # (batch_size, num_heads, seq_length, seq_length)
        attention = torch.softmax(attention_scores, dim=-1)  # 归一化
        attention = self.dropout(attention)  # Dropout
        
        # 加权 V
        out = torch.matmul(attention, V)  # (batch_size, num_heads, seq_length, head_dim)
        
        # 合并多头
        out = out.transpose(1, 2).contiguous().view(batch_size, seq_length, embed_dim)  # (batch_size, seq_length, embed_dim)
        
        # 输出线性变换
        out = self.fc_out(out)  # (batch_size, seq_length, embed_dim)
        
        return out, attention

# Encoder Embedding

In [None]:
class TokenEmbedding(nn.Embedding):
    def __init__(self,vocab_size,d_model):
        super(TokenEmbedding,self).__init__(vocab_size,d_model,padding_idx=1)
        