# 06 Classification dengan KNN | K-Nearest Neighbours
Source : [Indonesia Belajar](https://youtu.be/4zARMcgc7hA)
- K-Nearest Neighbours atau KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.
Referensi: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

### Sample Dataset
- Dataset dibuat menggunakan dictionary dimana tinggi dan berat akan menjadi features dan jenis kelamin/ jk akan menjadi target.

In [None]:
import pandas as pd

sensus = {
    'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 178],
    'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67],
    'jk': [
        'pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita',
        'wanita'
    ]
}

sensus_df = pd.DataFrame(sensus)
sensus_df

### Visualisasi Data
- Menggunakan subplots untuk menghasilkan visualisasi data, kemudian sensus_df dilooping dengan mengelompokkan jk dan menghasilkan 2 buah keluaran
- Fungsi scatter() disini menggunakan 2 parameter, Parameter pertama merupakan sumbu x dan Parameter kedua merupakan sumbu Y.

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
for jk, d in sensus_df.groupby('jk'):
    ax.scatter(d['tinggi'], d['berat'], label=jk)

plt.legend(loc='upper left')
plt.title('Sebaran Data Tinggi Badan, Berat Badan, dan Jenis Kelamin')
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Berat Badan (kg)')
plt.grid(True)
plt.show()


## Classification dengan KNN
### Preprocessing Dataset
- Fungsi np.array() digunakan untuk mengelompokkan features dan target dari sensus_df menjadi training set.
- Fungsi LabelBinarizer().fit_transform() digunakan untuk mengubah nilai string menjadi nilai biner.
- Setelah nilai Y diubah menjadi binner kemudian diubah menjadi array 1 dimensi menggunakan fungsi flatten().

In [None]:
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'berat']])
y_train = np.array(sensus_df['jk'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

In [None]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
y_train = lb.fit_transform(y_train)
print(f'y_train:\n{y_train}')

In [None]:
y_train = y_train.flatten()
print(f'y_train: {y_train}')

### Training KNN Classification Model
- Membuat object KNN dengan nilai neighborsnya 3 dan ditraining menggunakan fungsi fit(). 
  - Parameter pertama berisi nilai features.
  - Parameter kedua berisi nilai target.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

K = 3
model = KNeighborsClassifier(n_neighbors=K)
model.fit(X_train, y_train)

### Prediksi Jenis Kelamin
- Dengan membuat array 2 dimensi menggunakan fungsi reshape() yang berisi nilai tinggi badan dan berat badan beserta nilai prediksi target dari nilai features kemudian mengembalikan nilai yang sebelumnya telah diubah menjadi biner menjadu string kembali menggunakan fungsi inverse_transform().

In [None]:
tinggi_badan = 155
berat_badan = 70
X_new = np.array([tinggi_badan, berat_badan]).reshape(1, -1)
X_new

In [None]:
y_new = model.predict(X_new)
y_new

In [None]:
lb.inverse_transform(y_new)

### Visualisasi Nearest Neighbours
- Dengan subplots untuk menghasilkan visualisasi data, kemudian sensus_df dilooping dengan mengelompokkan jk dan menghasilkan 2 buah keluaran menggunakan Fungsi scatter() memerlukan minimal 2 buah parameter.
- Membuat scatter plot dimana sumbu x akan diisi oleh tinggi badan dan sumbu y akan diisi oleh berat badan.
- Dari hasil plotting terlihat bahwa misterius berada dekat dengan 1 pria dan 2 wanita, sehingga bisa dprediksi msiterius adalah wanita.

In [None]:
fig, ax = plt.subplots()
for jk, d in sensus_df.groupby('jk'):
    ax.scatter(d['tinggi'], d['berat'], label=jk)

plt.scatter(tinggi_badan,
            berat_badan,
            marker='s',
            color='red',
            label='misterius')

plt.legend(loc='upper left')
plt.title('Sebaran Data Tinggi Badan, Berat Badan, dan Jenis Kelamin')
plt.xlabel('Tinggi Badan (cm)')
plt.ylabel('Berat Badan (kg)')
plt.grid(True)
plt.show()

### Kalkulasi Distance (Euclidean Distance)
$distance = \sqrt{ (t_1 - t_2)^2 + (b_1 - b_2)^2 }$

Referensi: https://en.wikipedia.org/wiki/Euclidean_distance

- Membuat array dari tinggi dan berat badan
- Menghitung jarak nilai misterius dan setiap nilai x_train.
- Membuat kolom 'jarak' pada dataframe sensus yang berisi data jarak yang telah dihitung sebelumnnya
- Kemudian, mengurutkan nilai sensus dari nilai jarak yang paling kecil menuju terbesar.

In [None]:
misterius = np.array([tinggi_badan, berat_badan])
misterius

In [None]:
X_train

In [None]:
from scipy.spatial.distance import euclidean

data_jarak = [euclidean(misterius, d) for d in X_train]
data_jarak

In [None]:
sensus_df['jarak'] = data_jarak
sensus_df.sort_values(['jarak'])


### Evaluasi KNN Classification Model
**Testing Set**
- Membuat array dari sekumpulan nilai target tinggi dan berat badan.
- Membuat array dari nilai target yaitu jenis kelamin yang kemudian di ubah menjadi nilai biner dan diubah menjadi array 1 dimensi.

In [None]:
X_test = np.array([[168, 65], [180, 96], [160, 52], [169, 67]])
y_test = lb.transform(np.array(['pria', 'pria', 'wanita', 'wanita'])).flatten()

print(f'X_test:\n{X_test}\n')
print(f'y_test:\n{y_test}')

Prediksi terhadap testing set
- Melakukan prediksi nilai target dari nilai features.

In [None]:
y_pred = model.predict(X_test)
y_pred

Accuracy
Accuracy is the proportion of test instances that were classified correctly.

$accuracy = \frac{tp\ +\ tn}{tp\ +\ tn\ +\ fp\ +\ fn}$
 

- $tp$ = true positive, nilai target yang diprediksi sesuai dengan nilainya/ positive.
- $tn$ = true negative, nilai target yang diprediksi sesuai dengan nilainya/ negative.
- $fp$ = false positive, nilai target yang diprediksi tidak sesuai dengan nilainya/ positive.
- $fn$ = false negative, nilai target yang diprediksi tidak sesuai dengan nilainya/ negative.

Referensi: https://en.wikipedia.org/wiki/Precision_and_recall

In [None]:
from sklearn.metrics import accuracy_score

acc = accuracy_score(y_test, y_pred)

print(f'Accuracy: {acc}')

#### Precission 
Precision is the proportion of test instances that were predicted to be positive that are truly positive. 

$precission = \frac{tp}{tp\ +\ fp}$

Referensi: https://en.wikipedia.org/wiki/Precision_and_recall

In [None]:
from sklearn.metrics import precision_score

prec = precision_score(y_test, y_pred)

print(f'Precission: {prec}')

####Recall
Recall is the proportion of truly positive test instances that were predicted to be positive.

$recall = \frac{tp}{tp\ + \ fn}$

Referensi: https://en.wikipedia.org/wiki/Precision_and_recall

In [None]:
from sklearn.metrics import recall_score

rec = recall_score(y_test, y_pred)

print(f'Recall: {rec}')

####F1 Score
The F1 score is the harmonic mean of precision and recall.

$F1 = 2 \times \frac{precission\ \times \ recall}{precission\ + \ recall}$

Referensi: https://en.wikipedia.org/wiki/Precision_and_recall

In [None]:
from sklearn.metrics import f1_score

f1 = f1_score(y_test, y_pred)

print(f'F1-score: {f1}')

### Classification Report

- Keempat matrix diatas dapat ditampilkan menggunakan fungsi `classification_report()`.
- Report yang dihasilkan dari keseluruhan kelas. Dimana pria bernilai 0 dan wanita bernilai 1.
- Nilai accuracy tidak bergantung kepada kelas. 
- Report ini bertujuan untuk binary classifier, yang berarti tidak bergantung pada kelas sehingga tetap diartikan menjadi 2 kelompok nilai 0 dan 1.

In [None]:
from sklearn.metrics import classification_report

cls_report = classification_report(y_test, y_pred)

print(f'Classification Report:\n{cls_report}')

### Matthews Correlation Coefficient (MCC)

- MCC is an alternative to the F1 score for measuring the performance of binary classifiers. 
- A perfect classifier's MCC is 1. 
- A trivial classifier that predicts randomly will score 0, and a perfectly wrong classifier will score -1.

$MCC = \frac{tp\ \times\ tn\ + fp\ \times\ fn}{ \sqrt{ (tp\ +\ fp)\ \times\ (tp\ +\ fn)\ \times\ (tn\ +\ fp)\ \times\ (tn\ +\ fn)  }  }$

Referensi: https://en.wikipedia.org/wiki/Matthews_correlation_coefficient

In [None]:
from sklearn.metrics import matthews_corrcoef

mcc = matthews_corrcoef(y_test, y_pred)

print(f'MCC: {mcc}')