In [1]:
import numpy as np

# Giả lập các giá trị Key, Value và Query cho các token.
def dot_product_attention(Q, K, V):
    """
    Tính toán attention score và trả về kết quả attention.
    Q: Query vector
    K: Key vector
    V: Value vector
    """
    # Tính toán trọng số attention (Q * K^T)
    attention_scores = np.dot(Q, K.T)  # Dot product giữa Query và Key
    attention_probs = np.exp(attention_scores) / np.sum(np.exp(attention_scores))  # Softmax chuẩn hóa trọng số
    return np.dot(attention_probs, V)  # Trọng số nhân với Value


In [10]:
# Giả lập các vector cho Key, Value và Query
K1 = np.array([0.1, 0.2])
V1 = np.array([0.5, 0.6])
K2 = np.array([0.2, 0.3])
V2 = np.array([0.7, 0.8])
K3 = np.array([0.3, 0.4])
V3 = np.array([0.9, 1.0])

# Query vector cho các token
Q1 = np.array([1.0, 0.5])
Q2 = np.array([0.5, 1.0])
Q3 = np.array([0.2, 0.8])

In [11]:

# 1. Không sử dụng KVCache
def without_KVCache():
    result = 0
    # Tính toán Attention cho từng token mà không lưu trữ Key và Value
    result += dot_product_attention(Q1, K1, V1)  # Tính toán cho "I"
    result += dot_product_attention(Q2, K2, V2)  # Tính toán cho "love"
    result += dot_product_attention(Q3, K3, V3)  # Tính toán cho "AI"
    return result

# 2. Sử dụng KVCache
def with_KVCache():
    KVCache = {
        "I": {"K": K1, "V": V1},
        "love": {"K": K2, "V": V2},
        "AI": {"K": K3, "V": V3}
    }
    
    result = 0
    # Sử dụng KVCache để lấy Key và Value, chỉ tính toán Query mới
    result += dot_product_attention(Q3, KVCache["I"]["K"], KVCache["I"]["V"])  # Tính toán cho "I"
    result += dot_product_attention(Q3, KVCache["love"]["K"], KVCache["love"]["V"])  # Tính toán cho "love"
    result += dot_product_attention(Q3, KVCache["AI"]["K"], KVCache["AI"]["V"])  # Tính toán cho "AI"
    return result

# So sánh kết quả và thời gian tính toán
import time

# Không sử dụng KVCache
start_time = time.time()
result_no_cache = without_KVCache()
time_no_cache = time.time() - start_time

# Sử dụng KVCache
start_time = time.time()
result_with_cache = with_KVCache()
time_with_cache = time.time() - start_time

# In kết quả và thời gian thực hiện
print("Kết quả khi không sử dụng KVCache: ", result_no_cache)
print("Thời gian không sử dụng KVCache: ", time_no_cache)

print("Kết quả khi sử dụng KVCache: ", result_with_cache)
print("Thời gian sử dụng KVCache: ", time_with_cache)


Kết quả khi không sử dụng KVCache:  [2.1 2.4]
Thời gian không sử dụng KVCache:  0.0002090930938720703
Kết quả khi sử dụng KVCache:  [2.1 2.4]
Thời gian sử dụng KVCache:  0.00014710426330566406
