In [2]:
import torch

inputs = torch.tensor(
    [[0.43, 0.15, 0.89], # Your (x^1)
    [0.55, 0.87, 0.66], # journey (x^2)
    [0.57, 0.85, 0.64], # starts (x^3)
    [0.22, 0.58, 0.33], # with (x^4)
    [0.77, 0.25, 0.10], # one (x^5)
    [0.05, 0.80, 0.55]] # step (x^6)
)

- Sử dụng $x^{(2)}$ để minh họa.

In [3]:
x_2 = inputs[1]  # (x^2)

# Khởi tạo dimensions của 3 ma trận trọng số
dim_in = inputs.shape[1]
dim_out = 2

- Khởi tạo 3 ma trận $W_q$, $W_k$, $W_v$, sử dụng _phân phối chuẩn_ $\mathcal{N}(0, 1)$ (68 - 95 - 99.7)

- Vì đang minh họa nên ta set `requires_grad=False`; nhưng khi trong quá trình train LLM thì sẽ set `requires_grad=True` để cập nhật weights trong quá trình huấn luyện.

In [4]:
torch.manual_seed(123)
W_query = torch.nn.Parameter(torch.randn(dim_in, dim_out), requires_grad=False)
W_key = torch.nn.Parameter(torch.randn(dim_in, dim_out), requires_grad=False)
W_value = torch.nn.Parameter(torch.randn(dim_in, dim_out), requires_grad=False)

print("W_query:", W_query)
print("W_key:", W_key)
print("W_value:", W_value)

W_query: Parameter containing:
tensor([[-0.1115,  0.1204],
        [-0.3696, -0.2404],
        [-1.1969,  0.2093]])
W_key: Parameter containing:
tensor([[-0.9724, -0.7550],
        [ 0.3239, -0.1085],
        [ 0.2103, -0.3908]])
W_value: Parameter containing:
tensor([[ 0.2350,  0.6653],
        [ 0.3528,  0.9728],
        [-0.0386, -0.8861]])


In [5]:
query_2 = x_2 @ W_query  # (x^2) @ W_q
key_2 = x_2 @ W_key      # (x^2) @ W_k
value_2 = x_2 @ W_value  # (x^2) @ W_v
print("query_2:", query_2)
print("key_2:", key_2)
print("value_2:", value_2)

query_2: tensor([-1.1729, -0.0048])
key_2: tensor([-0.1142, -0.7676])
value_2: tensor([0.4107, 0.6274])


- Tính tất cả `key` vector & `value` vector của tất cả token.

In [6]:
keys = inputs @ W_key      # X @ W_k
values = inputs @ W_value  # X @ W_v
print("keys:", keys)
print("values:", values)

keys: tensor([[-0.1823, -0.6888],
        [-0.1142, -0.7676],
        [-0.1443, -0.7728],
        [ 0.0434, -0.3580],
        [-0.6467, -0.6476],
        [ 0.3262, -0.3395]])
values: tensor([[ 0.1196, -0.3566],
        [ 0.4107,  0.6274],
        [ 0.4091,  0.6390],
        [ 0.2436,  0.4182],
        [ 0.2653,  0.6668],
        [ 0.2728,  0.3242]])


- Tính `attention scores` $\omega_{2i}$

In [None]:
# Thay vì dot product giữa query_2 và key_i, ta tính dot product giữa query_2 và tất cả keys
attn_scores = query_2 @ keys.T  # query_2 @ K^T
print("attn_scores:", attn_scores)

attn_scores: tensor([ 0.2172,  0.1376,  0.1730, -0.0491,  0.7616, -0.3809])
