# 1. Attention là gì?
Attention cho phép mô hình tập trung vào các phần khác nhau của chuỗi đầu vào khi tạo ra mỗi phần tử của chuỗi đầu ra. Điều này giúp mô hình đánh giá tầm quan trọng của mỗi từ trong cầu và cải thiện khả năng hiểu ngữ cảnh.
# 2. Công thức Attention
Công thức cho cơ chế Attention được biểu diễn như sau:

$$
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
$$

Trong đó: 
- Q là ma trận Query
- K là ma trận key
- V là ma trận value
- d_k là kích thước chiều của vector key
- softmax là hàm softmax, được tính toán như sau:
$$
    \text{Hàm kích hoạt Softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}}
$$

# 3. Bài tập: Hãy viết hàm tính attention score của cầu đầu vào: "Tôi thích học AI" với tập Vocab được cho sẵn như sau:

In [38]:
import numpy as np

# Giúp kết quả giống nhau trên mọi máy khi tạo random
np.random.seed(42)


### Bước 1: Tạo từ điển và mã hóa từ 

In [39]:
vocab = {
	"Tôi": 0,
	"thích": 1,
	"học": 2,
	"AI": 3
}

# Số lượng từ vựng
vocab_size = len(vocab)
# Kích thước vector embedding
embedding_dim = 4
# Khởi tạo ma trận embedding ngẫu nhi ên
embedding_matrix = np.random.rand(vocab_size, embedding_dim)

# Chuỗi đầu vào được mã hóa thành các vector embedding
input_seq = np.array([embedding_matrix[vocab[word]] for word in ["Tôi", "thích", "học", "AI"]])
print(" Chuỗi đầu vào (đã mã hóa):\n", input_seq)


 Chuỗi đầu vào (đã mã hóa):
 [[0.37454012 0.95071431 0.73199394 0.59865848]
 [0.15601864 0.15599452 0.05808361 0.86617615]
 [0.60111501 0.70807258 0.02058449 0.96990985]
 [0.83244264 0.21233911 0.18182497 0.18340451]]


### Bước 2: Tạo ma trận trọng số cho Q, K, V

In [40]:
W_q = np.random.rand(embedding_dim, embedding_dim)
W_k = np.random.rand(embedding_dim, embedding_dim)
W_v = np.random.rand(embedding_dim, embedding_dim)

# Tính toán Q, K, V
Q = np.dot(input_seq, W_q)
K = np.dot(input_seq, W_k)
V = np.dot(input_seq, W_v)

print("Ma trận Query Q:\n", Q)
print("Ma trận Key K:\n", K)
print("Ma trận Value V:\n", V)

Ma trận Query Q:
 [[1.3841427  0.93171313 0.94939871 0.93588465]
 [0.68253872 0.18947216 0.65080307 0.28016014]
 [1.20009753 0.47542591 1.05988217 0.61045127]
 [0.57476093 0.61773344 0.56933533 0.44500006]]
Ma trận Key K:
 [[0.55821718 1.20734506 1.22395873 1.69819667]
 [0.28890481 0.76590281 0.52938731 0.69807356]
 [0.50829749 1.29232814 1.36798207 1.32073669]
 [0.18848415 1.02217749 1.01254462 1.02712599]]
Ma trận Value V:
 [[1.39542095 1.22586424 1.46081725 1.6184706 ]
 [0.57365664 0.41484836 0.96500202 0.59265008]
 [1.3726727  1.0119398  1.81092011 1.47141317]
 [0.74197263 0.42928879 1.09429878 0.96558692]]


### Bước 3: Tính toàn Attention score

In [41]:
scores = np.dot(Q, K.T)  # Your code here #

# Chia cho căn bậc hai của kích thước chi ều của vector key
d_k = K.shape[-1]  # Your code here #
scores = scores / np.sqrt(d_k)

print("Điểm số:\n", scores)

Điểm số:
 [[2.32444626 1.13470157 2.22122649 1.56792258]
 [0.94104311 0.44120262 0.92604881 0.63452441]
 [1.78891827 0.84903602 1.74027902 1.20617869]
 [1.2595997  0.62560832 1.22851614 0.88665755]]


### Bước 4: Áp dụng hàm softmax

In [42]:
def softmax(x):
	# Your code here #
	return np.exp(x) / np.sum(np.exp(x), axis=0)

attention_weights = softmax(scores)

print("Trọng số Attention :\n", attention_weights)

Trọng số Attention :
 [[0.45853371 0.35058462 0.44196599 0.38525959]
 [0.11496534 0.17523066 0.12103203 0.15148994]
 [0.26840736 0.26346922 0.27322222 0.26831817]
 [0.1580936  0.2107155  0.16377976 0.1949323 ]]


### Bước 5: Tính toàn tổng có trọng số của các value

In [43]:
output = np.dot(attention_weights,V) # Your code here #

print("Đầu ra :\n", output)

Đầu ra :
 [[1.73348946 1.32017013 2.23010301 1.97221352]
 [0.53948603 0.40113611 0.72199589 0.61428331]
 [1.09981154 0.83000118 1.43474629 1.25166176]
 [0.7109359  0.53063377 0.94419297 0.80996217]]
