# Ngày 22: Numpy - Attention score
https://drive.google.com/file/d/1Zuh5PjuyGUROdrw4DI3G6BsgxW_BsagI/view

In [5]:
import numpy as np

# Giúp kết quả giống nhau trên mọi máy khi tạo random
np.random.seed(42)

# Bước 1: Tạo từ điển và mã hóa từ
vocab = {
    "Tôi": 0,
    "thích": 1,
    "học": 2,
    "AI": 3
}

# Số lượng từ vựng
vocab_size = len(vocab)

# Kích thước vector embedding
embedding_dim = 4

# Khởi tạo ma trận embedding ngẫu nhiên
embedding_matrix = np.random.rand(vocab_size, embedding_dim)

# Chuỗi đầu vào được mã hóa thành các vector embedding
input_seq = np.array([embedding_matrix[vocab[word]] for word in ["Tôi", "thích", "học", "AI"]])
print("Chuỗi đầu vào (đã mã hóa):", input_seq)

# Bước 2: Khởi tạo các ma trận trọng số cho Q, K, V
W_q = np.random.rand(embedding_dim, embedding_dim)
W_k = np.random.rand(embedding_dim, embedding_dim)
W_v = np.random.rand(embedding_dim, embedding_dim)

# Tính toán Q, K, V
Q = np.dot(input_seq, W_q)
K = np.dot(input_seq, W_k)
V = np.dot(input_seq, W_v)

print("Ma trận Query Q:", Q)
print("Ma trận Key K:", K)
print("Ma trận Value V:", V)

# Bước 3: Tính toán Attention score
scores = np.dot(Q, K.T)  # Nhân ma trận Q với K chuyển vị để tạo scores

# Chia cho căn bậc hai của kích thước chiều của vector key
d_k = embedding_dim  # embedding_dim là chiều của embedding
scores = scores / np.sqrt(d_k)

print("Điểm số:\n", scores)

# Bước 4: Áp dụng hàm softmax
def softmax(x):
    x_exp = np.exp(x - np.max(x, axis=-1, keepdims=True))  # Tránh tràn số khi exponate
    return x_exp / np.sum(x_exp, axis=-1, keepdims=True)

attention_weights = softmax(scores)

print("Trọng số Attention:\n", attention_weights)

# Bước 5: Tính toán tổng có trọng số của các value
output = np.dot(attention_weights, V)  # Nhân trọng số attention với value để nhận output

print("Đầu ra:\n", output)

Chuỗi đầu vào (đã mã hóa): [[0.37454012 0.95071431 0.73199394 0.59865848]
 [0.15601864 0.15599452 0.05808361 0.86617615]
 [0.60111501 0.70807258 0.02058449 0.96990985]
 [0.83244264 0.21233911 0.18182497 0.18340451]]
Ma trận Query Q: [[1.3841427  0.93171313 0.94939871 0.93588465]
 [0.68253872 0.18947216 0.65080307 0.28016014]
 [1.20009753 0.47542591 1.05988217 0.61045127]
 [0.57476093 0.61773344 0.56933533 0.44500006]]
Ma trận Key K: [[0.55821718 1.20734506 1.22395873 1.69819667]
 [0.28890481 0.76590281 0.52938731 0.69807356]
 [0.50829749 1.29232814 1.36798207 1.32073669]
 [0.18848415 1.02217749 1.01254462 1.02712599]]
Ma trận Value V: [[1.39542095 1.22586424 1.46081725 1.6184706 ]
 [0.57365664 0.41484836 0.96500202 0.59265008]
 [1.3726727  1.0119398  1.81092011 1.47141317]
 [0.74197263 0.42928879 1.09429878 0.96558692]]
Điểm số:
 [[2.32444626 1.13470157 2.22122649 1.56792258]
 [0.94104311 0.44120262 0.92604881 0.63452441]
 [1.78891827 0.84903602 1.74027902 1.20617869]
 [1.2595997  0.62