**Import các thư viện cần thiết**

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

**Cho tập dữ liệu danh sách các tài liệu/văn bản trả về từ hai truy vấn (q1) và (q2) và tập nhãn các kết quả ở dạng nhị phân như bên dưới, trong đó:**
*   **[1]: tài liệu/văn bản có liên quan đến truy vấn**
*   **[0]: tài liệu/văn bản không có liên quan đến truy vấn**

In [None]:
# Tập danh sách các tài liệu/văn bản trả về ở dạng các mã định danh cho truy vấn (q1) và truy vấn (q2)
search_result_list = np.array(
    [
      [599, 588, 611, 788, 871, 982, 863, 623, 567, 898],
      [688, 782, 332, 8, 17, 23, 987, 1082, 1887, 2967]
    ]
)

# Tập nhãn cho các kết quả trả về ở dạng mã định danh tài liệu/văn bản cho truy vấn (q1) và (q2)
q_label_list = np.array(
    [
      [1, 1, 0, 1, 0, 1, 0, 0, 1, 0],
      [1, 0, 1, 0, 0, 1, 1, 0, 0, 1]
    ]
)

# Xác định tổng số lượng tài liệu/văn bản thực sự có liên quan đến truy vấn (q) trong hệ thống
total_relevant_docs = 8

**Chúng ta sẽ viết hàm tính độ chính xác của kết quả trả về cho từng top@k sau đó tính trung bình độ chí xác - Average Precision (AP) cho mỗi truy vấn**

**Ta có công thức tổng quát của AP tại mỗi vị trí top@k cho một truy vấn (q) như sau:**
## $$AP_{q}=\frac{1}{k}\sum^{i=1}_{k}P(i)$$
Trong đó: $P(i)$ là độ chính xác (precision) của mô hình tại mỗi vị trí (top@i)



In [None]:
# Viết hàm xác định độ chính xác precision của top@k kết quả cho 1 truy vấn - với tập nhãn [labels]
def calculate_precision_at(k, labels):
    total_relevant_docs_at_k = len(np.where(labels[:k] == 1)[0])
    precision = total_relevant_docs_at_k / k
    return precision

# Viết hàm tính trung bình độ chính xác (AP)
def calculate_ap(precisions):
  return np.mean(precisions)

# Xác định giá trị của khoảng [0, k] mà chúng ta sẽ đánh giá kết quả trả về
eval_range = 10

# Chúng ta tạo danh sách để lưu thông tin precision cho từng truy vấn tại các vị trí (k)
q_precisions = {}

# Chúng ta tạo danh sách để lưu trữ thông tin độ chính xác AP của từng truy vấn
ap_scores = []

for q_idx, q_labels in enumerate(q_label_list):
  precisions = []
  print(f'Truy vấn (q)[{q_idx + 1}]:')
  # Với mỗi truy vấn [q_idx] - tiến hành duyệt qua từng giá trị (k) và tính ra độ chính xác (precision), độ nhậy (recall) và F1 tương ứng
  for k in range(1, eval_range + 1):
    precision = calculate_precision_at(k, q_labels)
    precisions.append(precision)
    print(' - Top@[{}] - có độ chính xác precison (P): [{:.6f}].'.format(k, precision))
  q_precisions[q_idx] = precisions

  # Chúng ta tính trung bình độ chính xác cho truy vấn [q_idx]
  ap_score = calculate_ap(precisions)
  ap_scores.append(ap_score)
  print(f'Truy vấn (q)[{q_idx}], có độ chính xác AP: [{ap_score:.6f}]\n')

Truy vấn (q)[1]:
 - Top@[1] - có độ chính xác precison (P): [1.000000].
 - Top@[2] - có độ chính xác precison (P): [1.000000].
 - Top@[3] - có độ chính xác precison (P): [0.666667].
 - Top@[4] - có độ chính xác precison (P): [0.750000].
 - Top@[5] - có độ chính xác precison (P): [0.600000].
 - Top@[6] - có độ chính xác precison (P): [0.666667].
 - Top@[7] - có độ chính xác precison (P): [0.571429].
 - Top@[8] - có độ chính xác precison (P): [0.500000].
 - Top@[9] - có độ chính xác precison (P): [0.555556].
 - Top@[10] - có độ chính xác precison (P): [0.500000].
Truy vấn (q)[0], có độ chính xác AP: [0.681032]

Truy vấn (q)[2]:
 - Top@[1] - có độ chính xác precison (P): [1.000000].
 - Top@[2] - có độ chính xác precison (P): [0.500000].
 - Top@[3] - có độ chính xác precison (P): [0.666667].
 - Top@[4] - có độ chính xác precison (P): [0.500000].
 - Top@[5] - có độ chính xác precison (P): [0.400000].
 - Top@[6] - có độ chính xác precison (P): [0.500000].
 - Top@[7] - có độ chính xác preciso

**Cho tập 2 truy vấn (q1) và (q2) chúng ta xác định độ chính xác MAP như sau:**

## $$MAP=\frac{1}{Q}\sum_{q \in Q}AP_{q}$$

**Trong đó:**
*   ($Q$) là danh sách các truy vấn.
*   ($AP_{q}$) là trung bình độ chính xác cho truy vấn (q).





In [None]:
# Viết hàm tính độ chính xác MAP cho tập các truy vấn
def calculate_map(ap_scores):
  return np.mean(ap_scores)

# Tiến hành tính độ chính xác MAP của tập truy vấn
map_score = calculate_map(ap_scores)
print(f'Tập kết quả cho các truy vấn có độ chính xác MAP: [{map_score:.6f}]')

Tập kết quả cho các truy vấn có độ chính xác MAP: [0.614643]
