**Import các thư viện cần thiết**

In [None]:
%matplotlib inline
import math
import numpy as np
import matplotlib.pyplot as plt

**Cho tập dữ liệu danh sách các tài liệu/văn bản trả về từ một truy vấn (q) và tập nhãn đánh giá mức độ liên quan đến truy vấn ở dạng số thực, trong khoảng: [0, 1]**

In [None]:
# Tập danh sách các tài liệu/văn bản trả về ở dạng các mã định danh
search_results = np.array([599, 588, 611, 788, 871, 982, 863, 623, 567, 898])

# Tập nhãn mức độ liên quan (ở dạng số thực trong khoảng: [0, 1]) 
# Cho các kết quả trả về ở dạng mã định danh tài liệu/văn bản trong [search_results]
rel_scores = np.array([1.0, 0.6, 0.0, 0.8, 0.0, 1.0, 0.0, 0.0, 0.2, 0.0])

# Xác định tổng số lượng tài liệu/văn bản thực sự có liên quan đến truy vấn (q) trong hệ thống
total_relevant_docs = 8

**Chúng ta tiến hành tính giá trị mức độ liên quan tăng tích luỹ (Cumulative Gain - CG) của tập kết quả trả về tại các vị trí top@k khác nhau**

**Trong đó tăng tích luỹ của một tập top@k kết quả của một truy vấn (q) được xác định như sau:**

## $$CG_{k}=\sum^{k}_{i=1}rel_{i}$$
**Trong đó ($rel_{i}$) là điểm đánh giá mức độ liên quan của tài liệu/văn bản (i) với truy vấn (q)**

In [None]:
# Viết hàm tính mức độ liên quan tăng tích luỹ (CG) tại vị trí (k)
def calculate_cg_at(k):
  return np.sum(rel_scores[:k])

# Xác định giá trị của khoảng [0, k] mà chúng ta sẽ đánh giá kết quả trả về [search_results] dựa trên nhãn [labels]
eval_range = 10

# Chúng ta tạo danh sách để lưu giá trị CG tại các vị trí (k)
cg_scores = []

# Tiến hành duyệt qua từng giá trị (k) và tính CG tại vị trí tương ứng
for k in range(1, eval_range + 1):
  cg_score = calculate_cg_at(k)
  cg_scores.append(cg_score)
  print('Top@[{}] - có độ tương đồng tăng tích luỹ (CG): [{:.6f}].'.format(k, cg_score))

Top@[1] - có độ tương đồng tăng tích luỹ (CG): [1.000000].
Top@[2] - có độ tương đồng tăng tích luỹ (CG): [1.600000].
Top@[3] - có độ tương đồng tăng tích luỹ (CG): [1.600000].
Top@[4] - có độ tương đồng tăng tích luỹ (CG): [2.400000].
Top@[5] - có độ tương đồng tăng tích luỹ (CG): [2.400000].
Top@[6] - có độ tương đồng tăng tích luỹ (CG): [3.400000].
Top@[7] - có độ tương đồng tăng tích luỹ (CG): [3.400000].
Top@[8] - có độ tương đồng tăng tích luỹ (CG): [3.400000].
Top@[9] - có độ tương đồng tăng tích luỹ (CG): [3.600000].
Top@[10] - có độ tương đồng tăng tích luỹ (CG): [3.600000].


**Tiếp theo đó, chúng ta sẽ tiến hành tính khấu trừ tăng tích luỹ (discounted cumulative gain - DCG) tại các vị trí top@k khác nhau**

**Khấu trừ tăng tích luỹ (DCG) của một tập top@k kết quả cho một truy vấn (q) được xác định như sau:**

## $$DCG_{k}=rel_{1}+\sum^{k}_{i=2}\frac{rel_{i}}{log_{2}{(i)}}$$

In [None]:
# Viết hàm tính mức độ liên quan khấu trừ tăng tích luỹ (DCG) tại vị trí (k)
def calculate_dcg_at(k):
  dcg_score = rel_scores[0]
  if k > 1:
    for i, rel_score in enumerate(rel_scores[1:k]):
      dcg_score += rel_score / math.log(i+2, 2)
  return dcg_score

# Xác định giá trị của khoảng [0, k] mà chúng ta sẽ đánh giá kết quả trả về [search_results] dựa trên nhãn mức độ tương đồng [rel_scores]
eval_range = 10

# Chúng ta tạo danh sách để lưu giá trị DCG tại các vị trí (k)
dcg_scores = []

# Tiến hành duyệt qua từng giá trị (k) và tính DCG tại vị trí tương ứng
for k in range(1, eval_range + 1):
  dcg_score = calculate_dcg_at(k)
  dcg_scores.append(dcg_score)
  print('Top@[{}] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [{:.6f}].'.format(k, dcg_score))

Top@[1] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [1.000000].
Top@[2] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [1.600000].
Top@[3] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [1.600000].
Top@[4] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.000000].
Top@[5] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.000000].
Top@[6] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.386853].
Top@[7] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.386853].
Top@[8] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.386853].
Top@[9] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.449946].
Top@[10] - có độ tương đồng khấu trừ tăng tích luỹ (DCG): [2.449946].


**Tiếp theo đó ta sẽ xác định khấu trừ tăng tích luỹ lý tưởng (Ideal Discounted Cumulative Gain - IDCG) - của tập kết quả - thông qua việc sắp xếp các tài liệu có nhãn mức độ liên quan lên đầu (giảm dần)**

In [None]:
# Ban đầu chúng ta tiến hành sắp xếp danh sách [rel_scores] theo thứ tự giảm dần của mức độ tương đồng
sorted_rel_scores = sorted(rel_scores, reverse=True)
print('Danh sách nhãn mức độ tương đồng [rel_scores] (đã sắp xếp giảm dần):')
print(sorted_rel_scores)

Danh sách nhãn mức độ tương đồng [rel_scores] (đã sắp xếp giảm dần):
[1.0, 1.0, 0.8, 0.6, 0.2, 0.0, 0.0, 0.0, 0.0, 0.0]


**Sau đó, chúng ta tiến hành xác định khấu trừ tăng tích luỹ lý tưởng tại của tập kết quả trả về tại các vị trí top@k**

In [None]:
# Viết hàm tính mức độ liên quan khấu trừ tăng tích luỹ lý tưởng (IDCG) tại vị trí (k)
def calculate_idcg_at(k):
  idcg_score = sorted_rel_scores[0]
  if k > 1:
    for i, rel_score in enumerate(sorted_rel_scores[1:k]):
      idcg_score += rel_score / math.log(i+2, 2)
  return idcg_score

# Đặt một danh sách để lưu giá trị IDCG của [sorted_rel_score_dict]
idcg_scores = []

# Tiến hành duyệt qua từng giá trị (k) và tính IDCG tại vị trí tương ứng
for k in range(1, eval_range + 1):
  idcg_score = calculate_idcg_at(k)
  idcg_scores.append(idcg_score)
  print('Top@[{}] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [{:.6f}].'.format(k, idcg_score))

Top@[1] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [1.000000].
Top@[2] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.000000].
Top@[3] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.504744].
Top@[4] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.804744].
Top@[5] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].
Top@[6] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].
Top@[7] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].
Top@[8] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].
Top@[9] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].
Top@[10] - có độ tương đồng khấu trừ tăng tích luỹ lý tưởng (IDCG): [2.890879].


**Từ tập giá trị IDCG đã tính được bên trên kết hợp với tập DCG ta sẽ tính được khấu trừ tăng tích luỹ bình thường hoá (NDCG) như sau**

**Khấu trừ tăng tích luỹ bình thường hoá (NDCG) của một tập top@k kết quả cho một truy vấn (q) được xác định như sau:**
## $$NDCG_{k}=\frac{DCG_{k}}{IDCG_{k}}$$

In [None]:
def calculate_ndcg_at(k):
  ndcg_score = dcg_scores[k - 1] /  idcg_scores[k - 1]
  return ndcg_score

# Tiến hành duyệt qua từng giá trị (k) và tính IDCG tại vị trí tương ứng
for k in range(1, eval_range + 1):
  ndcg_score = calculate_ndcg_at(k)
  print('Top@[{}] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [{:.6f}].'.format(k, ndcg_score))

Top@[1] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [1.000000].
Top@[2] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.800000].
Top@[3] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.638788].
Top@[4] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.713078].
Top@[5] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.691831].
Top@[6] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.825649].
Top@[7] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.825649].
Top@[8] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.825649].
Top@[9] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.847474].
Top@[10] - có độ tương đồng khấu trừ tăng tích luỹ bình thường hoá (NDCG): [0.847474].
