# **Confusion Matrix**

Mengukur kinerja suatu model yang telah kita buat merupakan langkah penting dalam machine learning sehingga dapat menjadi pertimbangan untuk memilih model “terbaik”. Salah satu teknik yang dapat digunakan untuk mengukur kinerja suatu model khusunya kasus klasifikasi (supervised learning) pada machine learning adalah confusion matrix.

Confusion matrix juga sering disebut error matrix. Pada dasarnya confusion matrix memberikan informasi perbandingan hasil klasifikasi yang dilakukan oleh sistem (model) dengan hasil klasifikasi sebenarnya. Confusion matrix berbentuk tabel matriks yang menggambarkan kinerja model klasifikasi pada serangkaian data uji yang nilai sebenarnya diketahui. Gambar dibawah ini merupakan confusion matrix dengan 4 kombinasi nilai prediksi dan nilai aktual yang berbeda. Perhatikan gambar dibawah ini:

<img src = 'g_img.png' height=600 width=600>

#### *    **True Positive (TP)**
    Merupakan data positif yang diprediksi benar. Contohnya, pasien menderita kanker (class 1) dan dari model yang dibuat memprediksi pasien tersebut menderita kanker (class 1).
#### *    **True Negative (TN)**
    Merupakan data negatif yang diprediksi benar. Contohnya, pasien tidak menderita kanker (class 2) dan dari model yang dibuat memprediksi pasien tersebut tidak menderita kanker (class 2).
#### *    **False Positive (FP) — Type I Error**
    Merupakan data negatif namun diprediksi sebagai data positif. Contohnya, pasien tidak menderita kanker (class 2) tetapi dari model yang telah memprediksi pasien tersebut menderita kanker (class 1).
#### *    **False Negative (FN) — Type II Error**
    Merupakan data positif namun diprediksi sebagai data negatif. Contohnya, pasien menderita kanker (class 1) tetapi dari model yang dibuat memprediksi pasien tersebut tidak menderita kanker (class 2).

Ada cara yang lebih mudah untuk mengingatnya, yaitu:

-    Jika diawali dengan **True** maka prediksinya adalah benar, entah diprediksi terjadi atau tidak terjadi.
-    Jika diawali dengan **False** maka prediksinya adalah salah.
-    **Positif** dan **negatif** merupakan hasil prediksi dari model.

Pada beberapa kasus “Type II Error” lebih berbahaya, kita dapat menghubungkan pernyataan itu dengan contoh prediksi kanker diatas. Jika pasien tidak menderita kanker tetapi diprediksi menderita kanker (FP), maka pada diagnosa selanjutnya pasien tersebut dapat mengetahui keadaan sebenarnya bahwa pasien tersebut benar tidak menderita kanker. 

Tetapi jika ada pasien yang sebenarnya menderita kanker tetapi diprediksi tidak menderita kanker (FN), maka pasien tersebut akan mengetahui keadaan sebenarnya dengan sangat terlambat dan pasien tersebut tidak segera mengambil tindakan pencegahan medis untuk kanker itu. Sehingga dapat menyebabkan kondisi pasien yang semakin memburuk setiap harinya bahkan kematian. Jadi dapat dikatakan bahwa “Type II Error” lebih berbahaya.

## **Accuracy**

Accuracy menggambarkan seberapa akurat model dapat mengklasifikasikan dengan benar. Maka, accuracy merupakan rasio prediksi benar (positif dan negatif) dengan keseluruhan data. Dengan kata lain, accuracy merupakan tingkat kedekatan nilai prediksi dengan nilai aktual (sebenarnya). Nilai accuracy dapat diperoleh dengan persamaan (1).

<img src = 'h_img.png'  height=600 width=600>
<img src = 'i_img.png'>

Contoh, nilai accuracy dapat menjawab pertanyaan “Berapa persen pasien yang benar diprediksi menderita kanker maupun yang tidak menderita kanker dari kesuluruhan pasien?”

<img src = 'o_img.png'>

## **Precision (Positive/Negative)**

Precision menggambarkan tingkat keakuratan antara data yang diminta dengan hasil prediksi yang diberikan oleh model. Maka, precision merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan hasil yang diprediksi positf. Dari semua kelas positif yang telah di prediksi dengan benar, berapa banyak data yang benar-benar positif. Nilai precision dapat diperoleh dengan persamaan (2).

<img src = 'j_img.png'  height=600 width=600>
<img src = 'k_img.png'>

Contoh, nilai precision dapat menjawab pertanyaan “Berapa persen pasien yang benar menderita kanker dari keseluruhan pasien yang diprediksi menderita kanker?”

<img src = 'p_img.png'>

## **Recall atau Sensitivity (Positive/Negative)**

Recall menggambarkan keberhasilan model dalam menemukan kembali sebuah informasi. Maka, recall merupakan rasio prediksi benar positif dibandingkan dengan keseluruhan data yang benar positif. Nilai recall dapat diperoleh dengan persamaan (3).

<img src = 'l_img.png'  height=600 width=600>
<img src = 'm_img.png'>

Contoh, nilai recall dapat menjawab pertanyaan “Berapa persen pasien yang diprediksi kanker dibandingkan keseluruhan pasien yang sebenarnya menderita kanker”.

<img src = 'q_img.png'>

## **F1 Score**

``F1 Score merupakan perbandingan rata-rata presisi dan recall yang dibobotkan``

Dalam beberapa situasi, kita mungkin tahu bahwa kita ingin memaksimalkan recall atau precision dengan mengorbankan metric lainnya. Misalnya, dalam skrining penyakit awal pasien untuk pemeriksaan lanjutan, kita mungkin menginginkan recall kembali mendekati 1.0 (kita ingin menemukan semua pasien yang benar-benar memiliki penyakit) dan kita dapat menerima precision rendah jika biaya follow-up pemeriksaan tidak signifikan. Namun, dalam kasus dimana kita ingin menemukan perpaduan precision dan recall yang optimal, kita dapat menggabungkan dua metric tersebut dengan menggunakan apa yang disebut F1 Score.

F1 Score adalah rata-rata dari precision dan recall yang memperhitungkan kedua metrik tersebut dalam persamaan berikut: 

## F1 Score = 2 * (Recall*Precission) / (Recall + Precission)

Kita menggunakan harmonic mean (bukan rata-rata sederhana karena akan menghukum nilai ekstrim). Pengelompokan dengan precision 1.0 dan recall 0.0 memiliki rata-rata 0.5 sederhana namun F1 Score bernilai 0. F1 Score memberikan bobot yang sama untuk kedua ukuran tersebut dan merupakan contoh spesifik dari metode metric Fβ dimana β dapat disesuaikan dengan memberi bobot lebih pada recall atau precision. (Ada metric lain untuk menggabungkan precision dan recall, seperti Geometris Mean dari recall dan precision, namun F1 Score adalah yang paling umum digunakan) Jika kita ingin membuat model klasifikasi dengan keseimbangan recall dan precision secara optimal, maka kita mencoba memaksimalkan F1 Score.

<hr>

## __Summary__

### Empat output dari Binary Classification
*        __True positives__: data points diberi label positif yang memang sebenarnya bernilai positif
*        __False positives__: data points diberi label positif yang sebenarnya bernilai negatif
*        __True negatives__: data points diberi label negatif yang memang sebenarnya bernilai negatif
*        __False negatives__: data points diberi label negatif yang sebenarnya bernilai positif

###    Matric Recall and Precision
*        __Recall__: nilai dari sebuah model klasifikasi untuk mengidentifikasi semua instance yang relevan
*        __Precision__: nilai dari sebuah model klasifikasi untuk mengembalikan hanya instance yang relevan
*        __F1 Score__: Metric yang mengkombinasikan recall and precision menggunakan harmonic mean

### Visualisasi Recall and Precision Teknik
*        __Confusion matrix__: menunjukan label actual dan predicted dari masalah klasifikasi
*        __Receiver operating characteristic (ROC) curve__: kurva tentang true positive rate (TPR) vs the false positive rate (FPR) sebagai fungsi threshold dari sebuah model untuk mengklasifikasikan kelas positif
*        __Area under the curve (AUC)__: Matric untuk mengkalkulasi perfoma secara keseluruhan dari model klasifikasi berdasarkan area di bawah kurva ROC

<hr>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
import warnings
warnings.filterwarnings('ignore')

In [2]:
data = {
    'x': np.array([
        2, 3, 5, 2, 1,
        3, 5, 4, 2, 1,
        4, 6, 5, 3, 2,
        6, 7, 8, 9, 3
    ]),
    'y': np.array([
        'Sehat','Sehat','Sehat','Sehat','Sehat',
        'Sehat','Terinfeksi','Sehat','Terinfeksi','Terinfeksi',
        'Sehat','Sehat','Terinfeksi','Sehat','Terinfeksi',
        'Terinfeksi','Terinfeksi','Terinfeksi','Terinfeksi','Terinfeksi'
    ])}

df = pd.DataFrame(data)
df

# X = lama bekerja
# y = Status terinfeksi atau tidak

Unnamed: 0,x,y
0,2,Sehat
1,3,Sehat
2,5,Sehat
3,2,Sehat
4,1,Sehat
5,3,Sehat
6,5,Terinfeksi
7,4,Sehat
8,2,Terinfeksi
9,1,Terinfeksi


In [3]:
model = LogisticRegression(solver='liblinear')
model.fit(df[['x']], df['y'])
y = df['y'].tolist()
yp = model.predict(df[['x']]).tolist()
df['yp'] = yp
print(y)
print(yp)

df

['Sehat', 'Sehat', 'Sehat', 'Sehat', 'Sehat', 'Sehat', 'Terinfeksi', 'Sehat', 'Terinfeksi', 'Terinfeksi', 'Sehat', 'Sehat', 'Terinfeksi', 'Sehat', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi']
['Sehat', 'Sehat', 'Terinfeksi', 'Sehat', 'Sehat', 'Sehat', 'Terinfeksi', 'Terinfeksi', 'Sehat', 'Sehat', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Sehat', 'Sehat', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Terinfeksi', 'Sehat']


Unnamed: 0,x,y,yp
0,2,Sehat,Sehat
1,3,Sehat,Sehat
2,5,Sehat,Terinfeksi
3,2,Sehat,Sehat
4,1,Sehat,Sehat
5,3,Sehat,Sehat
6,5,Terinfeksi,Terinfeksi
7,4,Sehat,Terinfeksi
8,2,Terinfeksi,Sehat
9,1,Terinfeksi,Sehat


- TEBAKAN => POSITIF ATAU NEGATIF => POSITIF
- KITA NILAI BENER ATAU SALAH => POSITIF
- KALAU COCOK => BENER - MENEBAK POSITIF

- | prediksi Sehat | prediksi Terinfeksi
- | - | -
__aktual Sehat__ | TN | FP
__aktual Terinfeksi__ | FN | TP


Sehat Negatif (0), Terinfeksi Positif (1)

### Menghitung TN, FN, FP, TP

In [4]:
tp = len(df[df['y'] == 'Terinfeksi'][df['yp'] == 'Terinfeksi'])
tn = len(df[df['y'] == 'Sehat'][df['yp'] == 'Sehat'])
fp = len(df[df['y'] == 'Sehat'][df['yp'] == 'Terinfeksi'])
fn = len(df[df['y'] == 'Terinfeksi'][df['yp'] == 'Sehat'])

print(tp, tn, fp, fn)

6 6 4 4


In [5]:
print('Akurasi:', (tp + tn)/ (tp + tn + fp + fn))
print('Error Rate:', (fp + fn) / (tp + tn + fp + fn))

print('Recall(+):', tp / (tp + fn))
print('FP Rate:', fp / (fp + tn))

print('Recall(-):', tn/ (fp + tn))
print('FN Rate:', fn / (tp + fn))

print('Precision(+):', tp / (tp + fp))
print('Precision(-)', tn / (tn + fn))

prc = tp / (tp + fp)
rcl = tp / (tp + fn)
print('F1 Score:', 2 * ((prc * rcl) / (prc + rcl)))

Akurasi: 0.6
Error Rate: 0.4
Recall(+): 0.6
FP Rate: 0.4
Recall(-): 0.6
FN Rate: 0.4
Precision(+): 0.6
Precision(-) 0.6
F1 Score: 0.6


In [6]:
from sklearn.metrics import classification_report, confusion_matrix
print(confusion_matrix(df['y'], df['yp']))
print(classification_report(y, yp))

[[6 4]
 [4 6]]
              precision    recall  f1-score   support

       Sehat       0.60      0.60      0.60        10
  Terinfeksi       0.60      0.60      0.60        10

    accuracy                           0.60        20
   macro avg       0.60      0.60      0.60        20
weighted avg       0.60      0.60      0.60        20



#### **Accuracy**

In [7]:
print('model.score:', model.score(df[['x']], df['y']))

from sklearn.metrics import accuracy_score
print('accuracy_score:', accuracy_score(df['y'], df['yp']))

print('Error Rate:', 1 - accuracy_score(df['y'], df['yp']))

model.score: 0.6
accuracy_score: 0.6
Error Rate: 0.4


#### **Recall**

In [8]:
from sklearn.metrics import recall_score

print('Recall (+)', recall_score(df['y'], df['yp'], pos_label='Terinfeksi'))

print('Recall (-)', recall_score(df['y'], df['yp'], pos_label='Sehat'))

Recall (+) 0.6
Recall (-) 0.6


#### **Precision**

In [9]:
from sklearn.metrics import precision_score

print('Precision (+):', precision_score(df['y'], df['yp'], pos_label='Terinfeksi'))
print('Precision (-):', precision_score(df['y'], df['yp'], pos_label='Sehat'))

Precision (+): 0.6
Precision (-): 0.6


#### **Balanced Accuracy**

In [10]:
# formula = (recall(+) + recall(-)) / 2
rclP = tp / (tp + fn)
rclN = tn / (fp + tn)
bAcc = (rclP + rclN) / 2
print('bAcc :', bAcc)

from sklearn.metrics import balanced_accuracy_score
print('bAcc :', balanced_accuracy_score(df['y'], df['yp']))

bAcc : 0.6
bAcc : 0.6


#### **F1 Score**

In [11]:
from sklearn.metrics import f1_score
print('F1 score (+) :', f1_score(df['y'], df['yp'], pos_label='Terinfeksi') )
print('F1 score (-):', f1_score(df['y'], df['yp'], pos_label='Sehat') )

F1 score (+) : 0.6
F1 score (-): 0.6


In [12]:
from sklearn.metrics import precision_recall_fscore_support

print(precision_recall_fscore_support(df['y'], df['yp']))

df_prfs = pd.DataFrame((np.array(precision_recall_fscore_support(df['y'], df['yp']))).tolist(), 
                      columns=['0: Sehat', '1: Terinfeksi'], index=['Precision', 'Recall', 'Fscore', 'Support'])
df_prfs

# SUPPORT
# menghitung berapa banyak jumlah 0 (Sehat) dan 1 (Terinfeksi) di prediksi (yp)

(array([0.6, 0.6]), array([0.6, 0.6]), array([0.6, 0.6]), array([10, 10], dtype=int32))


Unnamed: 0,0: Sehat,1: Terinfeksi
Precision,0.6,0.6
Recall,0.6,0.6
Fscore,0.6,0.6
Support,10.0,10.0


In [13]:
from sklearn.metrics import classification_report

In [14]:
print(classification_report(df['y'], df['yp']))

              precision    recall  f1-score   support

       Sehat       0.60      0.60      0.60        10
  Terinfeksi       0.60      0.60      0.60        10

    accuracy                           0.60        20
   macro avg       0.60      0.60      0.60        20
weighted avg       0.60      0.60      0.60        20



In [15]:
print(precision_recall_fscore_support(df['y'], df['yp'], average='micro'))
print(precision_recall_fscore_support(df['y'], df['yp'], average='macro'))
print(precision_recall_fscore_support(df['y'], df['yp'], average='weighted'))

(0.6, 0.6, 0.6, None)
(0.6, 0.6, 0.6, None)
(0.6, 0.6, 0.6, None)


In [16]:
# Precision
precision_sehat = tn / (tn + fn)
precision_terinfeksi = tp / (tp + fp)
print('=' * 40)
print('Menghitung precision Sehat dan Terinfeksi secara terpisah')
print(precision_sehat, precision_terinfeksi)

print('=' * 40)
print('Menghitung precision secara global')
precision_macro = (precision_sehat + precision_terinfeksi) / 2
precision_weighted = ((precision_sehat * 1) + (precision_terinfeksi * 1) / (1+1))
print(precision_macro, precision_weighted)

print('=' * 40)
print('Menghitung precision micro')
precision_micro = (tn + tp) / (tn + fn + tp + fp)
print(precision_micro)

Menghitung precision Sehat dan Terinfeksi secara terpisah
0.6 0.6
Menghitung precision secara global
0.6 0.8999999999999999
Menghitung precision micro
0.6


# **Reference**:

* Sarang Narkhede, "Understanding Confusion Matrix", https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62
* Upender Muddasani, "Confusion Matrix Terminology", https://medium.com/@upenderreddymuddasani/confusion-matrix-terminology-aeb443e01079
* Kuncahyo Setyo Nugroho, "Confusion Matrix untuk Evaluasi Model pada Supervised Learning", https://medium.com/@ksnugroho/confusion-matrix-untuk-evaluasi-model-pada-unsupervised-machine-learning-bc4b1ae9ae3f
* Agung Setiaji, "Machine Learning : Acccuracy, Recall & Precision", https://mragungsetiaji.github.io/python/machine%20learning/2018/09/21/machine-learning-accuracy-recall-dan-precision.html
* Wikipedia, "Sensitivity and specificity", https://en.wikipedia.org/wiki/Sensitivity_and_specificity
* GeeksforGeeks, "Confusion Matrix in Machine Learning", https://www.geeksforgeeks.org/confusion-matrix-machine-learning/