-KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.

-Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Check referensi di https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

# Sample Dataset

In [None]:
import pandas as pd

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk': ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
          'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Sesi Pembelajaran ini membentuk dataset yang sama dengan pembelajarannya sebelumnya yaitu memprediksi berat badan berdasarkan data tinggi badan dan jenis kelamin

* Tinggi dan jenis kelamin berperan sebagai features.
* Berat badan sebagai berperan target.

# Regression dengan KNN

### Features & Target

In [None]:
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'jk']]) # sekumpulan nilai features untuk training set
y_train = np.array(sensus_df['berat']) # sekumpulan nilai target untuk training set

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

* Memanfaatkan KNN untuk melakukan estimasi berdasarkan data tinggi badan dan jenis kelaminnya,karena nilai yang diprediksi berupa nilai continuous dan bukan category seperti sesi pembelajaran sebelumnya, maka kasus ini termasuk dalam regression tasks.

* Pada sesi pembelajaran sebelumnya,kita sudah memahami KNN akan melakukan prediksi berdasarkan sejumlah tetangga terdekat, di mana tetangga terdekat ini ditentukan berdasarkan kalkulasi jarak dengan memanfaatkan Euclidean Distance. Disini tentunya kita perlu memastikan nilai featuresnya bertipe data numerik supaya dapat dihitung jarak antar data pointnya.

### Preprocess Dataset: Konversi Label menjadi Numerik Biner

In [None]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

* Proses transpose ini pada dasarnya akan mengubah posisi baris menjadi kolom dan posisi kolom menjadi baris.
* Posisi baris di atas mengindikasikan instance sedangkan posisi kolomnya mengindikasikan features.
* Kasus ini Mengubah posisi features menjadi baris dan bukan kolom.

In [None]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

* Pada sesi pembelajaran sebelumnya kita sudah membahas LabelBinarizer,LabelBinarizer digunakan untuk mengkonversikan nilai pria dan wanita menjadi nilai biner 0 dan 1.

In [None]:
jk_binarised = jk_binarised.flatten()
jk_binarised

Method Flatten() digunakan untuk mengkonversikan multi dimensional array menjadi single dimensional array

In [None]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train akan kita transpose balik agar yang tadinya baris kembali menjadi kolom dan yang tadinya kolom menjadi baris

### Training KNN Regression Model

In [None]:
from sklearn.neighbors import KNeighborsRegressor

K = 3 
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

"K" akan berkolerasi dengan jumlah/banyaknya tetangga yang akan digunakan untuk proses prediksi

*Model machine learning yang digunakan untuk regression tasks sering kali dikenal dengan istilah "Regressor" sedangkan model machine learning yang digunakan untuk classification tasks sering kali dikenal dengan istilah "Classifier"*

### Prediksi Berat Badan

In [None]:
X_new = np.array([[155, 1]])
X_new

* Melakukan prediksi berat badan berdasarkan tinggi badan dan jenis kelamin

In [None]:
y_pred = model.predict(X_new)
y_pred

* Melakukan prediksi berat badan dengan memanfaatkan model KNN Regressor yang sudah di training sebelumnya
* Data Diprediksi dengan tinggi badan 155 dan jenis kelamin wanita memiliki berat badan 55.66666667

### Evaluasi KNN Regression Model

Disini mempelajari beberapa metrics yang bisa kita gunakan untuk mengukur performa dari model machine learning untuk kasus regression tasks

In [None]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

Baris Pertama : Menyiapkan 4 instances atau data point

In [None]:
y_pred = model.predict(X_test)
y_pred

Hasilnya bahwa data dengan tinggi badan 168 dan jenis kelamin "pria",ini diprediksi memilki berat badan "70.66666667" sedangkan data yang yang diharapkan adalah "65"

Data point akhir dengan tinggi badan 169 dan jenis kelamin "wanita",ini diprediksi memilki berat badan "70.66666667" sedangkan data yang yang diharapkan adalah "67"

#### Coefficient of Determination atau $R^2$

Check referensi di https://en.wikipedia.org/wiki/Coefficient_of_determination

In [None]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared semakin dia mendekati 1 maka semakin baik dan semakin dia mendekati 0 atau bahkan ketika nilainya negatif ini mengindikasikan model yang kurang baik

#### Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)

$MAE$ is the average of the absolute values of the errors of the predictions.

*$MAE$ merupakan nilai rata-rata dari absolute error dari prediksi*

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

MAE akan menghitung selisih atau error antara 𝑦𝑖 dan 𝑦̂𝑖
*𝑦𝑖 mempresentasikan setiap nilai target pada testing set*
*𝑦̂𝑖 merupakan nilai prediksi yang dihasilkan oleh model kita*

* Proses perhitungan selisih ini memungkinkan hasil nilai positif ataupun negatif, jika nilai yang diprediksi lebih kecil dari apa yang seharusnya maka nilainya positif tetapi kalau hasil prediksi ternyata lebih besar dari nilai yang semestinya maka nilainya menjadi negatif.
* Untuk menghindari nilai negatif maka kita menerapkan "absolute function","absolute function" ini akan menghilangkan nilai negatif (-2 menjadi 2)
* Setiap selisih nilai ini akan diakumulasi untuk berikutnya kita bagi dengan '𝑛' ,'𝑛' mempresentasikan jumlah data pointnya

Check referensi di https://en.wikipedia.org/wiki/Mean_absolute_error

In [None]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

*Semakin kecil nilai MAE akan mengindikasikan kualitas model yang makin/lebih baik*

#### Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)

$MSE$ is the average of the squares of the errors of the predictions.

*$MSE$ merupakan rata-rata dari error kuadrat untuk prediksi*

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

MSE akan menghitung selisih atau error antara 𝑦𝑖 dan 𝑦̂𝑖
*𝑦𝑖 mempresentasikan setiap nilai target pada testing set*
*𝑦̂𝑖 merupakan nilai estimasi yang dihasilkan oleh model kita*

* Proses perhitungan selisih ini memungkinkan hasil nilai positif ataupun negatif, jika nilai yang diprediksi lebih kecil dari apa yang seharusnya maka nilainya positif tetapi kalau hasil prediksi ternyata lebih besar dari nilai yang semestinya maka nilainya menjadi negatif.
* Untuk menghindari nilai negatif pada MSE,selisih nilainya dipangkatkan dua
* Setiap selisih nilai ini akan diakumulasi untuk berikutnya kita bagi dengan '𝑛' ,'𝑛' mempresentasikan jumlah data pointnya

Check referensi di https://en.wikipedia.org/wiki/Mean_squared_error

In [None]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

Semakin kecil nilai MSE akan mengindikasikan kualitas model yang makin/lebih baik

*Nilai MSE akan selalu lebih besar bila dibandingkan dengan nilai MAE karena setiap nilai errornya untuk MSE akan dipangkatkan dua*

### Permasalahan Scaling pada Features

Pada slide ini akan mempelajari apa dampak dari perbedaan satuan pengukuran terhadap konsistensi hasil kalkulasi Euclidean Distancenya

In [None]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]]) #berisi sekumpulan nilai features untuk training set
X_new = np.array([[1640, 0]]) ##berisi sekumpulan features untuk data point yang akan kita prediksi

[euclidean(X_new[0], d) for d in X_train] # mengukur jarak untuk data point yang baru ini terhadap kedua data point training setnya

* Hasil yang pertama merupakan jarak antara data point yang baru ini terhadap data point pertama pada training set dan Hasil yang kedua merupakan jarak antara data point yang baru terhadap data point kedua pada training set
* Pada eksperimen pertama ini nampak jelas bahwa data point yang baru lebih dekat dengan data point kedua bila dibandingkan dengan data point pertama

In [None]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

* Sama halnya dengan milimeter,Hasil yang pertama merupakan jarak antara data point yang baru ini terhadap data point pertama pada training set dan Hasil yang kedua merupakan jarak antara data point yang baru terhadap data point kedua pada training set
* Pada eksperimen kedua ini nampak jelas bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua
* Menemui ketidakkonsistenan dalam pengukuran jarak (metode yang digunakan untuk mengatasi permasalah ini adalah menerapkan "Standard Scaler"

### Menerapkan Standard Scaler (Standard Score atau Z-Score)

Standardize features by removing the mean and scaling to unit variance.

$z = \frac{x - \bar{x}}{S}$

* 𝑥 mempresentasikan nilai features
* x̄ mempresentasikan rata-rata nilai features nya
* 𝑆 mempresentasikan standard deviation dari sekumpulan nilai features tersebut

Check referensi di https://en.wikipedia.org/wiki/Standard_score

In [None]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [None]:
# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train) #b2
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new) #b5
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

* Baris Kedua : Mengenakan Standard scaled pada nilai X_train nya
* Baris Kelima : Proses tranformasinya langsung panggil "transform" tidak panggil lagi fit_transfortm, karena proses fitnya akan dikenakan pada X_train tetapi proses transformnya akan dikenakan baik pada X_train maupun pada X_new
* Nilai-nilai Tidak menggunakan satuan centimeter atau milimeter ataupun meter tetapi menggunakan satuan standard score
* 1.2 adalah jarak antara X_new_scaled dengan X_train_scaled untuk data point pertama sedangkan 2.1540659228538015 merupakan jarak X_new_scaled dengan data point kedua pada X_train_scaled
* Pada eksperimen ini nampak jelas bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua

In [None]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

* 1.2000000000000026 merupakan jarak antara X_new_scaled dengan data point pertama pada X_train_scaled sedangkan 2.1540659228538006 merupakan jarak antara X_new_scaled dengan data point kedua pada X_train_scaled
* Pada eksperimen ini nmenghasilkan nilai jarak yang sama atau setidaknya sangat mendekati dengan nilai jarak pada eksperimen pertama,disini juga bisa tampak bahwa data point yang baru juga lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua

### Menerapkan Features Scaling pada KNN

Pada slide ini kita akan ulangi lagi proses training dan evaluasi model KNN yang pernah kita lakukan sebelumnya tetapi kali ini kita akan menerapkan "Features Scaling","Features Scaling" yang akan digunakan adalah $Standard Scaler$.kita akan lihat bagaimana features scaling ini berpotensi dalam meningkatkan performa dari model KNN

#### Dataset

In [None]:
# Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

# Test Set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

Training dan Testing set yang kita gunakan ini sama persis dengan Training dan Testing set yang kita gunakan sebelumnya

#### Features Scaling (Standard Scaler)

Yang berbeda disini adalah Training dan Testing setnya tersedia kita tidak langsung melakukan proses training model.tetapi pertama-tama kita akan scalling dulu featuresnya

In [None]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

#### Training & Evaluasi Model

In [None]:
model.fit(X_train_scaled, y_train) #features yang sudah kita scalling
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

Perbandigan Hasil MAE dan MSE setelah menerapkan features scaling hasilnya lebih kecil atau dengan kata lain kta bisa menghasilkan model dengan kualitas atau performa yang lebih setelah menerapkan features scaling