# Đánh giá hệ thống phân lớp 

## 1. Accuracy
> Accuracy được tính bằng **tỉ lệ giữa số điểm được dự đoán đúng trên tổng số điểm** trong tập dữ liệu kiểm thử.  

Ví dụ dưới đây ta thấy độ chính xác sẽ vào khoảng 50% 

In [2]:
import numpy as np 
ground_truth = np.array([0,1,1,1])
predict = np.array([0,0,1,0])
def acc(ground_truth, predict):
    return sum(ground_truth==predict)/ground_truth.shape[0]
print('Accuracy: ', acc(ground_truth, predict))

Accuracy:  0.5


**Vậy liệu chúng ta có thể chỉ cần dùng mỗi accuracy để đánh giá hệ thống phân lớp hay không?**  
Câu trả lời là nếu sử dụng mỗi accuracy để đánh giá hệ thống phân lớp không thôi là chưa đủ.  
Chúng ta xét ví dụ dưới đây, để ý rằng trong trường hợp này, dù predict có accuracy cao nhưng luôn luôn dự cho ra kết quả dự đoán là một class duy nhất.  
Điều này dễ xảy ra trong trường hợp số lượng record giữa các lớp unbalance (chẳng hạn có hai lớp, thì một lớp chiếm 90%, trong khi lớp còn lại chỉ chiếm 10%). 

In [3]:
ground_truth = np.array([0,1,1,1])
predict = np.array([1,1,1,1])
print('Accuracy: ', acc(ground_truth, predict))

Accuracy:  0.75


## 2. Confusion matrix
Như trong vấn đề đã trình bày ở trên, ta cần có một cách đánh giá thể hiện được việc **tỉ lệ phân lớp chính xác đối với mỗi class**.  
Một metric hay được sử dụng đó là confusion matrix. 
>Confusion matrix là một ma trận vuông có kích thước bằng với số lượng các class trong dataset. 
>Giá trị tại hàng thứ i, cột thứ j là số lượng điểm lẽ ra thuộc vào class i nhưng lại được dự đoán là thuộc vào class j.


Xét ví dụ dưới đây, ta thấy: 
* 75 điểm dữ liệu của lớp 0 được phân lớp đúng vào lớp 0. 
* 25 điểm dữ liệu của lớp 0 bị phân nhầm vào lớp 1. 
* 30 điểm dữ liệu của lớp 1 bị phân nhầm vào lớp 0 
* 50 điểm dữ liệu của lớp 1 được phân đúng vào lớp 1 

Thư viện sklearn có hỗ trợ hàm *confusion_matrix* để tính toán nhanh hơn. 

In [12]:
from sklearn.metrics import confusion_matrix
ground_truth = np.array([0,1,1,1,0,1,0,1,1,1,0])
predict = np.array([1,1,1,1,0,0,0,0,0,0,1])
cnf_matrix = confusion_matrix(ground_truth, predict)
print('Confusion matrix:')
print(cnf_matrix)

Confusion matrix:
[[2 2]
 [4 3]]


## 3. True Positive, True Negative, False Positive, False Negative là gì? 
Chắc hẳn mọi người đã nghe đến 4 khái niệm này đâu đó trong bộ môn xác suất thống kê, tuy nhiên thi thoảng nếu có ai đó đột nhiên hỏi thì không hẳn là ai cũng nhớ. Bản thân mình cũng nằm trong số đó, trong phần này, mình sẽ trình bày lại 4 khái niệm quan trọng này. Một trong những metric quan trọng dùng để đánh giá hệ thống phân lớp. Ngoài ra còn được sử dụng đế tính các metric khác sau này như *precision* và *recall*.  

Lưu ý nho nhỏ, các khái niệm True Positive (TP), True Negative (TN), False Positive (FP), False Negative (FN) được sử dụng trong hệ thống phân lớp có hai lớp là lớp positive và lớp negative. Trong các bài toán phân loại nhiều hơn hai lớp ( multiple classification) thì chúng ta thường đánh giá TP, TN, FP, FN cho mỗi lớp (Ví dụ như: lớp A và không phải lớp A). 


Trong khoá ML Crash Course của google, ta có định nghĩa như sau:

* A **true positive** is an outcome where the model correctly predicts the positive class. 
* A **true negative** is an outcome where the model correctly predicts the negative class.
* A **false positive** is an outcome where the model incorrectly predicts the positive class. And a 
* A **false negative** is an outcome where the model incorrectly predicts the negative class.

Vậy để dễ nhớ, ta có:  
* **True** có nghĩa là hệ thống phân lớp đã xác định đúng lớp
* **False** nghĩa là hệ thống phân lớp đã xác định nhầm lớp.  
* **Positive** là lớp positive  
* **Negative** là lớp negative   

Từ đó dễ dàng suy ra True Positive là phân lớp đúng vào lớp positive, True Negative là phân lớp đúng vào lớp negative, False Positive là phân lớp vào lớp Positive, False Negative là phân lớp nhầm vào lớp Negative 

<img src="TPTNFPFN.png">

## 4. Precision và Recall

Với bài toán phân loại mà tập dữ liệu của các lớp là chênh lệch nhau rất nhiều, có một phép đó hiệu quả thường được sử dụng là Precision-Recall.

Trước hết xét bài toán phân loại nhị phân. Ta cũng coi một trong hai lớp là positive, lớp còn lại là negative.

<img src="Precision and Recall.png">

Với một cách xác định một lớp là positive, 
* **Precision** được định nghĩa là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive (TP + FP).
* **Recall** được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive (TP + FN).
Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao. Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các điểm thực sự positive là thấp.  
Một cách toán học, Precison và Recall là hai phân số có tử số bằng nhau nhưng mẫu số khác nhau:
> $Precision = TP/(TP + FP)$  
> $Recall = TP/(TP + FP)$

Thư viện scikit learn có hỗ trợ sẵn hai hàm *precision_score* và *recall_score* để tính toán precision và recall

In [14]:
from sklearn.metrics import precision_score, recall_score
ground_truth = np.array([0,1,1,1,0,1,0,1,1,1,0])
predict = np.array([1,1,1,1,0,0,0,0,0,0,1])
print('Precision: ', precision_score(ground_truth, predict))
print('Recall: ', recall_score(ground_truth, predict))

Precision:  0.6
Recall:  0.42857142857142855


## bài tập 
Câu hỏi: 

1. Giả sử một hệ thống phân loại thư rác. Đầu ra của model là một giá trị từ 0 đến 1. Ta đặt một ngưỡng gọi là threshold. Ví dụ nếu threshold bằng 0.5 thì với mỗi điểm dữ liệu, nếu model cho ra kết quả lơn hơn hoặc bằng 0.5 thì điểm đó sẽ được cho vào lớp 1. Ngược lại sẽ cho vào lớp 0. Điều gì sẽ xảy ra đối với precision và recall khi chúng ta thay đổi threshold (tăng, giảm)  
2. Tìm hiểu và giải thích khái niệm F1 score. 
3. Tìm hiểu hai course https://www.kaggle.com/learn/data-visualization và https://www.kaggle.com/learn/pandas