# 注意力机制的基本逻辑
## 向量之间的关系

In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [12]:

q = torch.tensor(([1,2,3],[4,5,6]), dtype=torch.float32)  # 这是一个二维的 tensor， shape 是 [2, 3]
k = torch.tensor(([7,8,9],[10,11,12]), dtype=torch.float32) # 这是一个二维的 tensor， shape 是 [2, 3]
v = torch.tensor(([13,14,15],[16,17,18]), dtype=torch.float32) # 这是一个二维的 tensor， shape 是 [2, 3] 
# q,k,v 的 shape 必须是一样的，才能进行点积运算
# 点积运算，实际上是矩阵乘法
# q 和 k 进行点积运算，得到一个标量，然后这个标量再和 v 进行乘法运算，得到最终的结果 
# 这个过程可以看作是 q 和 k 之间的相似度计算，然后根据相似度来加权 v 的值
# 这个过程可以看作是注意力机制的核心思想
# 具体实现可以使用 torch.matmul() 函数来进行矩阵乘法运算
# 具体实现可以使用 torch.softmax() 函数来进行归一化处理
attention = torch.matmul(q, k.T)  # q 和 k 进行点积运算，得到一个标量
print(attention)  # attention 的 shape 是 [2, 2]
attention = F.softmax(attention, dim=-1)  # 对点积结果进行归一化处理
output = torch.matmul(attention, v)  # 将归一化结果和 v 进行乘法运算，得到最终的结果

output, attention,attention.shape,v.shape,output.shape



tensor([[ 50.,  68.],
        [122., 167.]])


(tensor([[16., 17., 18.],
         [16., 17., 18.]]),
 tensor([[1.5230e-08, 1.0000e+00],
         [2.8625e-20, 1.0000e+00]]),
 torch.Size([2, 2]),
 torch.Size([2, 3]),
 torch.Size([2, 3]))

# softmax与q 的关系，
softmax是针对 Attention 矩阵的每一行的，也就是，Attention 的每一行是每个input 向量与与其他向量的关联性，对行进行 softmax，将视角转换为 q，从 q 以统一的标准（softmax）去“看一下”其他向量，
## 本质
其实不是对 q 进行 softmax，而是对哪个进行 softmax，哪个就是 q，q 和 k 在进行 softmax 之前其实是对称的，q * kT 还是 q T* k 对称的

In [13]:
test = torch.tensor([[[ 1.0994,  0.3531],
          [-0.4143,  0.6784],
          [ 0.0486,  0.4189],
          [-0.8566, -0.2512]]])
test = F.softmax(test, dim=-1)
test

tensor([[[0.6784, 0.3216],
         [0.2511, 0.7489],
         [0.4085, 0.5915],
         [0.3531, 0.6469]]])