In [7]:
import torch
from torch.nn.functional import softmax

# 输入数据 x，包含3个输入向量，每个向量有4个维度
x = [
    [1, 0, 1, 0],  # 输入向量1
    [0, 2, 0, 2],  # 输入向量2
    [1, 1, 1, 1]   # 输入向量3
]
# 将输入数据转换为 PyTorch 张量，并设置数据类型为 float32
x = torch.tensor(x, dtype=torch.float32)
print(x)

tensor([[1., 0., 1., 0.],
        [0., 2., 0., 2.],
        [1., 1., 1., 1.]])


In [8]:
# 定义键（Key）的权重矩阵，形状为 (4, 3)
w_key = [
    [0, 0, 1],
    [1, 1, 0],
    [0, 1, 0],
    [1, 1, 0]
]
# 定义查询（Query）的权重矩阵，形状为 (4, 3)
w_query = [
    [1, 0, 1],
    [1, 0, 0],
    [0, 0, 1],
    [0, 1, 1]
]
# 定义值（Value）的权重矩阵，形状为 (4, 3)
w_value = [
    [0, 2, 0],
    [0, 3, 0],
    [1, 0, 3],
    [1, 1, 0]
]

# 将权重矩阵转换为 PyTorch 张量，并设置数据类型为 float32
w_key = torch.tensor(w_key, dtype=torch.float32)
w_query = torch.tensor(w_query, dtype=torch.float32)
w_value = torch.tensor(w_value, dtype=torch.float32)

# 打印权重矩阵以供检查
print("w_key: \n", w_key)
print("w_query: \n", w_query)
print("w_value: \n", w_value)

w_key: 
 tensor([[0., 0., 1.],
        [1., 1., 0.],
        [0., 1., 0.],
        [1., 1., 0.]])
w_query: 
 tensor([[1., 0., 1.],
        [1., 0., 0.],
        [0., 0., 1.],
        [0., 1., 1.]])
w_value: 
 tensor([[0., 2., 0.],
        [0., 3., 0.],
        [1., 0., 3.],
        [1., 1., 0.]])


In [9]:
# 计算 Keys: 将输入 x 与键的权重矩阵相乘，生成键向量
keys = x @ w_key
# 计算 Queries: 将输入 x 与查询的权重矩阵相乘，生成查询向量
querys =x @  w_query
# 计算 Values: 将输入 x 与值的权重矩阵相乘，生成值向量
values =x @  w_value

# 打印键、查询和值向量以供检查
print("Keys: \n", keys)
print("Querys: \n", querys)
print("Values: \n", values)

Keys: 
 tensor([[0., 1., 1.],
        [4., 4., 0.],
        [2., 3., 1.]])
Querys: 
 tensor([[1., 0., 2.],
        [2., 2., 2.],
        [2., 1., 3.]])
Values: 
 tensor([[1., 2., 3.],
        [2., 8., 0.],
        [2., 6., 3.]])


In [None]:
# 计算注意力分数（Attention Scores）：通过键和查询向量的点积计算
# 结果是一个 (3, 3) 的矩阵，其中每个元素表示查询和键之间的相似度
attn_scores = querys @ keys.T
print("Attention Scores: \n", attn_scores)

Attention Scores: 
 tensor([[ 2.,  4.,  4.],
        [ 4., 16., 12.],
        [ 4., 12., 10.]])


In [None]:
# 对注意力分数应用 Softmax 函数，将其转换为概率分布
# Softmax 处理后的矩阵形状仍为 (3, 3)，表示每个查询对所有键的关注度
attn_scores_softmax = softmax(attn_scores, dim=-1)
print("Attention Scores Softmax: \n", attn_scores_softmax)

Attention Scores Softmax: 
 tensor([[6.3379e-02, 4.6831e-01, 4.6831e-01],
        [6.0337e-06, 9.8201e-01, 1.7986e-02],
        [2.9539e-04, 8.8054e-01, 1.1917e-01]])


In [14]:
# 计算加权后的输出值：将值向量与注意力分数进行加权求和
# 结果是一个形状为 (3, 3) 的矩阵，表示经过注意力加权后的最终输出
output = attn_scores_softmax @ values
print("output: \n", output)

output: 
 tensor([[1.9366, 6.6831, 1.5951],
        [2.0000, 7.9640, 0.0540],
        [1.9997, 7.7599, 0.3584]])
