# Algoritma *K-Nearest Neighbor*

## Mari berkenalan dengan Algoritma KNN

insert penjelasan here...

## Mengimpor Pustaka

Pada bagian ini akan diimpor beberapa pustaka yang akan digunakan untuk menyimulasikan Algoritma *K-Nearest Neighbor*.

In [13]:
import pandas as pd
import numpy as np

Selain itu, akan dipanggil juga modul KNN yang telah dibangun *from scratch*

In [11]:
from algorithm.knn import KNNAlgorithm

## Mengimpor *Dataset*

Pada bagian ini akan diimpor *dataset* yang sebelumnya telah terbagi menjadi `data_train.csv` dan `data_validation.csv`.

In [3]:
# Mengambil data train dan data validation
df_train = pd.read_csv("../data/data_train.csv")
df_validation = pd.read_csv("../data/data_validation.csv")

# *Pre-processing* Data

Tahap yang dilakukan meliputi pemisahan kolom target hingga melakukan standarisasi terhadap data sebelum dilakukan pemrosesan dengan Algoritma KNN.

In [4]:
# Melakukan pemisahan kolom target
x_train = df_train.drop(["price_range"], axis=1)
y_train = df_train["price_range"]

x_test = df_validation.drop(["price_range"], axis=1)
y_test = df_validation["price_range"]

In [5]:
# Standarisasi data
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
x_train = scaler.fit_transform(x_train)
x_test = scaler.transform(x_test)

## Hasil Pemrosesan Algoritma KNN yang Dibangun

Berikut adalah hasil pemrosesan Algoritma KNN yang dibangun *from scratch*.

In [12]:
# Gunakan model KNN yang sebelumnya dibangun
knn_scratch = KNNAlgorithm(3)       # Gunakan nilai k = 3 sebagai nilai awal

# Lakukan fit model
knn_scratch.fit(x_train, y_train)

# Lakukan prediksi dengan data validation
y_pred_scratch = knn_scratch.predict(x_test)

In [14]:
# Pengujian kualitas model dengan metrik
from sklearn.metrics import accuracy_score, classification_report

print(classification_report(y_test, y_pred_scratch))
print("Akurasi : ", 100*np.round(accuracy_score(y_test, y_pred_scratch), 5), "%")

              precision    recall  f1-score   support

           0       0.51      0.70      0.59       142
           1       0.32      0.38      0.35       144
           2       0.40      0.32      0.35       155
           3       0.78      0.57      0.66       159

    accuracy                           0.49       600
   macro avg       0.51      0.49      0.49       600
weighted avg       0.51      0.49      0.49       600

Akurasi :  48.833 %


## Hasil Pemrosesan Algoritma KNN Pembanding

Hasil pemrosesan diatas akan dibandingkan dengan hasil yang diperoleh dari *library* scikit-learn

In [8]:
# Pemanggilan model KNN dari scikit-learn
from sklearn.neighbors import KNeighborsClassifier

knn_scikit = KNeighborsClassifier(n_neighbors=3)        # Dengan menggunakan nilai k yang sama
knn_scikit.fit(x_train, y_train)
y_pred_scikit = knn_scikit.predict(x_test)

In [15]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_test, y_pred_scikit))
print("Akurasi : ", 100*np.round(accuracy_score(y_test, y_pred_scikit), 5), "%")

              precision    recall  f1-score   support

           0       0.51      0.70      0.59       142
           1       0.32      0.38      0.35       144
           2       0.40      0.32      0.35       155
           3       0.78      0.57      0.66       159

    accuracy                           0.49       600
   macro avg       0.51      0.49      0.49       600
weighted avg       0.51      0.49      0.49       600

Akurasi :  48.833 %


## Hasil yang diperoleh

Berdasarkan kedua hasil tersebut, diperoleh **hasil yang sama** antara nilai prediksi yang dihasilkan oleh model KNN yang dibangun *from scratch* dengan model yang dimiliki scikit-learn.

In [10]:
# Pengujian kualitas model dengan metrik
print(classification_report(y_pred_scratch, y_pred_scikit))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       193
           1       1.00      1.00      1.00       170
           2       1.00      1.00      1.00       122
           3       1.00      1.00      1.00       115

    accuracy                           1.00       600
   macro avg       1.00      1.00      1.00       600
weighted avg       1.00      1.00      1.00       600

