# Regression dengan KNN (K Nearest Neighbour)

- KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Referensi : https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

Pada sesi pembelajaran kali ini, akan berfokus pada penerapan KNN untuk regression task.

# Sample Dataset

Dataset dibawah ini adalah dataset yang sama dengan dataset pada sesi pembeljaran sebelumnya, dataset ini berisi 'berat badan', 'tinggi badan', dan 'jenis kelamin' dari sejumlah partisipan yang kita tampung kedalam format pandas dataframe. 

In [55]:
# Code 01

import pandas as pd

sensus = {'tinggi' : [158, 170, 183, 191, 155, 163, 180, 158, 170],
         'jk' : ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
         'berat' : [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


Alur berpikir code 01 :
- Pertama-tama, kita import terlebih dahulu modul pandas 'import pandas as pd'.
- Lalu berikutnya, kita akan menyiapkan suatu dictionary yang terdiri dari 3 buah keys yaitu, 'tinggi', 'jk', dan 'berat'.
- Key 'tinggi' akan berasosiasi dengan sekumpulan nilai tinggi badan.
- Key 'jk' akan berasosiasi dengan sekumpulan nilai jenis kelamin. Dalam kali ini nilai jenis kelamin terdiri dari 2 nilai string, yaitu 'pria' dan 'wanita'.
- Key 'berat' akan berasosiasi dengan sekumpulan nilai berat badan.
- Lalu dictionary tersebut akan kita tampung kedalam variabel 'sensus'.
- Untuk selanjutnya, variabel 'sensus' digunakan sebagai dasar pembentukan pandas dataframe 'pd.DataFrame(sensus)'.
- Lalu objek 'pd.DataFrame(sensus)' ini akan kita tampung kedalam variabel 'sensus_df'.
- Terakhir kita panggil atau run.

Jika kita lihat pada hasil output code 01, dataframe tersebut terdiri dari 3 buah kolom yaitu 'tinggi, 'jk', dan 'berat', serta berjumlah 9 baris yang dimulai dari index 0 sampai dengan index 8 dan dataset ini sama percis dengan dataset yang digunakan pada sesi pembelajaran sebelumnya.


Dalam sesi pembelajaran kita kali ini, kita akan membentuk suatu model machine learning sederhana yang dapat kita gunakan untuk memprediksi berat badan seseorang berdasarkan tinggi badan dan jenis kelaminnya. Dengan kata lain, tinggi badan dan jenis kelamin akan berperan sebaagai features, sedangkan berat badan akan berperan sebagai target.


# Regression dengan KNN

Setelah kita memahami konteks dataset dan juga permasalahannya, kita akan mencoba untuk menerapkan KNN atau Key Nearest Neighbours untuk melakukan estimasi nilai berat badan.

Sedikit berbeda dengan sesi pembelajaran sebelumnya yang dimana kita menggunakan KNN untuk melakukan classification. Dalam sesi ini, kita akna menggunakan KNN untuk melakukan regression untuk estimasi nilai, dimana dalam kasus ini nilai yang akan prediksi adalah nilai berat badan. 

# Features & Target

Sebelum kita melangkah kepada proses training model, kita akan mengelompokan terlebih dahulu sekumpulan nilai features dan nilai target dari dataset yang kita miliki. 

In [56]:
# Code 02

import numpy as np 

X_train = np.array(sensus_df[['tinggi', 'jk']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


Untuk kasus kita kali ini, data tinggi badan dan jenis kelamin akan kita konversikan kedalam numpy array dan akan kita tampung ke dalam variabel 'X_train' sebagai sekumpulan features untuk training set.

Lalu untuk data berat badan juga akan kita konversikan menjadi numpy array, untuk selanjutnya kita tampung kedalam variabel 'y_train' sebagai sekumpulan nilai target untuk training set. 

Alur berpikir code 02 :
- Pertama-tama kita akan mengimport modul numpy terlebih dahulu 'import numpy as np'.
- Lalu berikutnya untuk nilai features, yang dalam hal ini adalah tingggi dan jenis kelamin akan kita bundle menjadi suatu numpy array dan berikutnya kita tampung kedalam variabel 'X_train'.
- Kemudian untuk sekumpulan nilai targetnya yang dalam hal ini adalah berat badan akan kita koversikan juga menjadi suatu numpy array yang kemudian kita tampung kedalam variabel 'y_train'.
- Kemudian kita akan tampilkan nilai 'X_train' dan juuga 'y_train' dengan melakukan perintah print.

Karena pada sesi pembelajaran ini yang akan diprediksi adalah nilai continous dan bukan kategori yang kita telah temui pada sesi pembelajarann sebelumnya, maka kasus ini (code ini) termasuk dalam regression task. Pada sesi pembelajaran sebelumnya juga, kita telah memahami bahwa KNN akan melakukan prediksi berdasarkan jumlah data terdekat, dimana tetangga terdekat tersebut ditentukan berdasarkan kalkulasi jarak dengan memanfaatkan "euclidean distance". 

Disini kita perlu memperhatikan agar nilai featuresnya bertipe data numerik agar dapat dihitung jarak antar data pointnya. 

# Preprocess Dataset : Konversi Label menjadi Nilai Numerik Biner

Pada tahap ini, kita akan melihat tahapan data preprocessing untuk mengkonversi nilai pria dan wanita menjadi numerik biner 0 dan 1.

In [57]:
# Code 03

X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


Alur berpikir code 03 :
- Pertama kita akan melakukan proses transpose terlebih dahulu terhadap 'X_train'. 
- Proses transpose ini pada dasarnya akan mengubah posisi baris kolom dan posisi kolom menjadi baris.
- Jika kita perhatikan pada hasil output code 03, posisi barisnya mengindikasikan instance, sedangkan posisi kolomnya mengindikasikan features.
- Kolom pertama (sebelah kiri pada output 'X_train') tersebut yang merupakan features pertama yaitu tinggi badan.
- Kolom kedua (sebelah kanan pada output 'X_train') tersebut yang merupakan features kedau yaitu jenis kelamin.
- Pada kali ini, kita akan ubah posisi featuresnya tidak berada dalam kolom, tetapi yang kita mau posisi featuresnya berada dalam baris. Oleh karen itu, kita melakukan proses transpose.
- Kita panggil 'np.transpose(X_train)' yang ditampung kedalam variabel 'X_train_transposed'.
- Terakhir kita cetak pada layar dengan print.

Jika kita perhatikan pada hasil output code 03 pada hasil 'X_train_transposed', terdiri dari 2 baris saja yaitu baris pertama dan baris kedua, dan jika kita lihat nilai pada baris pertama tersebut merepresentasikan nilai 'tinggi badan', sedangkan nilai untuk baris kedua merepresentasikan sekumpulan nilai 'jenis kelamin'.

In [58]:
# Code 04

from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


Pada code 04, kita akan menerapkan 'LabelBinariser' yang pernah kita gunakan pada sesi pembelajan sebelumnya, disini 'LabelBinariser' akan kita gunakan lagi karena kita ingin menkonversikan nilai pria dan wanita tersebut menjadi nilai biner 0 dan 1.

Alur berpikir code 04 :
- Pertama-tama kita akan mengimport terlebih dahulu label binarizernya dengan memanggil fungsi 'from sklearn.preprocessing import LabelBinarizer'.
- Lalu berikutnya, kita akan membentuk objek dari class label binarizer ini yang akan kita tampung kedalam variabel 'lb'.
- Pada kali ini, proses transformasi label binarizernya akan kita terapkan pada 'jenis kelamin'. Oleh karena itu, disini kita panggil 'lb.fit_transform' yang akan kita terapkan pada 'X_train_transposed[1]' berarti index kesatu. Karena index ke nolnya adalah 'tinggi badan', sedangkan index kesatunya adalah 'jenis kelamin', lalu hasil transformnya kita tampung kedalam variabel 'jk_binarised'.
- Untuk selanjutnya, kita akan mencetak baik nilai 'X_train_transposed' index kesatu dan juga 'jk_binarised'.

Bisa kita lihat pada hasil output code 04, data pria berubah menjadi 0 dan data wanita akan berubah menjadi 1, tetapi disini kita juga mempunyai permasalahan yang lain. Jika kita lihat pada kondisi awal, datanya terdiri dari satu dimensi saja, sedangkan setelah proses transformasi datanya berubah menjadi 2 dimensi. Oleh karena itu, kita perlu melakukan proses faltten yang kita ketahui pada sesi pembelajaran sebelumnya, method atau function flatten dapat digunakan untuk mengkonversikan multi- dimension array menjadi single dimenssion array (lihat pada code 05).


In [59]:
# Code 05

jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

Bila kita lihat pada hasil code 05, bentuk arraynya sudah dalam satu dimensi. Langkah selanjutnya adalah nilai yang sudah dikonversikan, akan kita tampung lagi kedalam 'X_train_tanspose' karena nilai pada output code 05 masih berada dalam variabel 'jk_binarised' (lihat pada code 06). 

In [60]:
# Code 06

X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


Alur berpikir code 06 :
- Pertama-tama, kita akan memnggail terlebih dahulu 'X_train_transposed[1]' atau index kesatu yang berkolerasi dengan 'jenis kelamin' yang nilainya akan kita ganti dengan nilai 'jk_binarised'.
- Lalu berikutnya, 'X_train_transposed' tersebut akan kita transpose balik, agar yang tadinya baris kembali menjadi kolom dan yang tadinya kolom akan menjadi baris lalu kita akan tampung kedalam variabel 'X_train'.
- Terakhir, kita akan cetak kembali baik nilai 'X_train_transposed' dan nilai 'X_train'.

Prosesnya secara keseluruhan memang terlihat panjang. Tetapi pada intinya, proses yang kita lakukan ini, untuk mengubah nilai jenis kelamin yang tadinya pria dan wanita menjadi nilai numerik biner yaitu 0 dan 1 yang dimana dalam kasus ini, nilai 0 merepresentasikan jenis kelamin pria, sedangkan nilai 1 merepresentasikan jenis kelamin wanita. 

Jika kita perhatikan kembali, saat ini sekumpulan nilai features dan targetnya sudah siap digunakan untuk training model.

# Training KNN Regression Model

Setelah training setnya kita persiapkan, selanjutnya kita melangkah kepada proses training model.

Untuk kasus ini, machine learning yang akan kita gunakan adalah KNN. 

In [61]:
# Code 07

from sklearn.neighbors import KNeighborsRegressor

K = 3
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

Alur berpikir code 07 :
- Pertama-tama, kita akan mengimport terlebih dahulu estimeter classnya dengan memanggil fungsi 'from sklearn.neighbors import KNeighborsRegressor'.
- Lalu berikutnya kita akan menentukan nilai K nya yang akan berkolerasi dengan jumlah atau banyaknya neighbors atau banyaknya tetangga yang akan digunakan untuk melakukan proses prediksi yang dalam kasus ini bernilai 3.
- Lalu selanjutnya kita akan membentuk objek modelnya dengan cara memanggil 'KNeighborsRegressor' dan akan kita akan menyertakan nilai parameter 'n_neighbors' yang diisi dengan nilai 'K' atau dengan kata lain 'n_neighbors' nya kita set sebagai 3.
- Setelah objek modelnya terbentuk, lalu berikutnya kita tinggal melakukan proses training model dengan memanggil 'model.fit' serta '(X_train, y_train)' sebagai parameternya.


# Prediksi Berat Bandan

Setelah KNN Regressiornya kita training, tahapan selanjutnya kita akan menggunakan train model tersebut untuk melakukan prediksi berat badan berdasarkan data tinggi badan dan jenis kelamin. 

In [62]:
# Code 08

X_new = np.array([[155, 1]])
X_new

array([[155,   1]])

Alur berpikir code 08 : 
- Pada kali ini, kita akan persiapkan terlebih dahulu data baru yang akan digunakan untuk prediksi. Kita siapkan data baru yang dimana nilai tinggi badannya adalah 155 cm dan jenis kelaminnya wanita, disini jenis kelamin wanitanya sudah kita encode menajadi nilai 1. 
- Lalu berikutnya, pasangan nilai array tersebut kita akan bundle menjadi suatu array 2 dimensi yang kita tampung kedalam variable 'X_new'.

Hasil code 08 merupakan nilai features yang akan kita prediksi. Setelah data tinggi badan dan jenis kelaminnya siap, selanjutnya kita akan melakukan prediksi berat badan dengan memanfaatkan model KNN Regressor yang sudah kita training sebelumnya (lihat pada code 09). 

In [63]:
# Code 09

y_pred = model.predict(X_new)
y_pred

array([55.66666667])

Alur berpikir code 09 :
- Memanggil fungsi 'model.predict' dengan menyertakan parameternya yaitu 'X_new'.
- Lalu hasil prediksinya kita tampung kedalam variabel 'y_pred'.

Berdasarkan hasil output code 09, kita bisa bilang bahwa untuk data dengan tinggi badan 155 cm dan jenis kelamin wanita, ini diprediksi model kita memiliki berat badan 55,6 kg.

# Evaluasi KNN Regression Model

Disini kita akan mulai mempelajari beberapa matrix yang bisa kita gunakan untuk mengukur performa dari model machine learning untuk kasuk regression task dengan menyiapkan terlebih dahul testing setnya. 

In [64]:
# Code 10 (Testing set)

X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


Alur berpikir code 10 :
- Pertama-tama, kita akan menyiapkan terlebih dahulu sekumpulan nilai features untuk testing setnya yang kita tampung kedalam variabel 'X_test'.
- Setelah itu, kita juga akan menyiapkan sekumpulan nilai target lalu kita tampung kedalam varibel 'y_test'.
- Lalu kita print.

Setelah testing setnya siap, selanjutnya kita akan melakukan prediksi terhadap testing set tersebut dengan menmafaatkan model KNN Regressor yang sudah kita training sebelumnya. 

In [65]:
# Code 11

y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

Pada code 11, kita akan menerapkan prediksi terhadap sekumpulan features dari 'X_test' ini dengan memanfaatkan model KNN yang sudah kita training sebelumnya. Oleh karena itu, kita memanggil 'model.predict' lalu menyertakan parameter 'X_test' yang hasil prediksinya kita tampung kedalam variabel 'y_pred'.

Berdasarkan hasil code 11, kita bisa bilang bahwa data untuk tinggi 168 cm dan jenis kelamin pria, ini diprediksi memiliki berat badan 70,66, sedangkan data yang diharapkan adalah 65. 

Lalu berikutnya untuk data point yang paling akhir, disni kita bisa bilang bahwa untuk data dengan tinggi badan 169 dan jenis kelamin wanita, ini diprediksi memiliki berat badan 70.66 sekian, sedangkan nilai yang diharapkan adalah 67.

Coefficient of Determination atau $R^2$

Referensi : https://en.wikipedia.org/wiki/Coefficient_of_determination

Metriks evaluasi pertama yang akan kita gunakan adalah coefficient of determination atau biasa dikenal sebagai R-Squared. Metriks evaluasi ini juga pernah kita pelajari pada sesi pembelajaran sebelumnya sewaktu kita mempelajari topik "Simple Linear Regression".

Selanjutnya, kita akan melakukan tahapan menggunakan metriks r-squared untuk melakukan evaluasi model regressor pada sklearn (lihat pada code 12).

In [66]:
# Code 12

from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


Alur berpikir code 12 :
- Pertama-tama, kita akan mengimport terlebih dahulu metriksnya dengan memanggil 'from sklearn.metrics import r2_score'.
- Berikutnya untuk menggunakan metriks ini, kita tinggal memanggil 'r2_score' dengan menyertakan parameter 'y_test' dan 'y_pred', lalu nilai evaluasi ini  akan kita tampung kedalam variabel 'r_squared'.
- Lalu kita tampilkan hasilnya dengan cara memanggil 'r-squared' menggunakan fungsi print().

Berdasarkan hasil output code 12, kita mendapatkan nilai r-squared untuk model kita. Seperti yang pernah dijelaskan pada sesi pembelajaran sebelumnya, nilai r-squared ini semakin ia mendekati 1 maka akan semakin baik, dan semakin ia mendekati 0 atau bahkan negatif, hal tersebut mengindifikasikan model yang kurang baik.


# Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)

Metriks evaluasi selanjutnya yang akan kita pelajari adalah Mean Absolute Error atau kadang dikenal dengan Mean Absolute Deviation.

$MAE$ is the average of the absolute values of the errors of the prediction. Dalam bahasa indonesia, kita bisa bilang bahwa $MAE$ merupakan nilai rata-rata dari absolute error dari prediksi.

$MAE =\frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

Referensi : https://en.wikipedia.org/wiki/Mean_absolute_error

Diatas merupakan formula untuk MAE yang intinya MAE ini akan menghitung selisih atau error antara $yi$ dengan $\hat{y}_i$. 
- $yi$ = merepresentasikan setiap nilai target pada testing set.
- $\hat{y}_i$ = merepresentasikan nilai prediksi yang dihasilkan oleh model kita.
- Disini yang dihitung adalah selisih antara $yi$ dengan $\hat{y}_i$. Proses tersebut memungkinkan untuk menghasilkan nilai positif maupun nilai negatif.
- Jika hasil prediksinya ternyata lebih kecil dari nilai yang seharusnya, maka nilainya akan menjadi positif.
- Jika hasil prediksinya ternyata lebih besar dari nilai yang seharusnya, maka nilainya akan menjadi negatif.
- Untuk menghindari nilai negatif, maka kita harus menerapkan yang namanya absolute function. Absolute function ini akan menghilangkan nilai negatif artinya semua hasilnya, baik itu negatif maupun positif akan diubah menjadi nilai positif.
- Lalu berikutnya, selisih nilai ini akan diakumulasikan atau dijumlahkan untuk berikutnya kita akan bagi dengan 'n'. 'n' merepresentasikan jumlah data pointnya.

In [67]:
# Code 13

from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE : {MAE}')

MAE : 8.333333333333336


Alur berpikir code 13 :
- Pertama-tama kita akan mengimport terlebih dahulu mean absolute error dengan memanggil function 'from sklearn.metrics import mean_absolute_error'.
- Lalu berikutnya untuk menggunakan fucntion mean absolute error tersebut, kita hanya tinggal memanggil function 'mean_absolute_error' dengan menyertakan parameter 'y_test' serta 'y_pred' yang akan kita tampung kedalam variabel 'MAE'.
- Lalu terakhir kita tampilkan nilai'MAE' dengan function print seperti biasa.

Berdasarkan hasil output code 13, hasil 'MAE' nya adalah 8,33. Oleh karena disini yang dihitung nilai errornya atau selisih antara nilai prediksi dengan nilai sebenarnya, oleh karenanya semakin kecil nilai 'MAE' nya akan mengindikasikan kualitas modal yang lebih baik.

# Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)

Matriks evaluasi kedua yang akan kita pelajari adalah Mean Squared Error atau kadang dikenal sebagai Mean Squared Deviation.

$MSE$ is the average of the squares of the errors of the prediction. Dalam bahasa indonesia berarti kita bisa bilang bahwa $MSE$ ini merupakan rata-rata dari error kuadrat untuk prediksi.

$MSE =\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

Referensi : https://en.wikipedia.org/wiki/Mean_squared_error

Formula $MSE$ pada intinya sama dengan $MAE$, menghitung error artinya disini juga kita menghitung nilai selisih antara $y_i$ dengan $\hat{y}_i$.

- $y_i$ merupakan nilai target dari testing set.
- $\hat{y}_i$ merupakan nilai estimasi yang dihasilkan oleh model kita.
- Kedua nilai tersebut kita selisihkan yang dimana serupa dengan kasus sebelumnya, selisih kedua nilai terebut bisa postif dan juga bisa bernilai negatif.
- Jika ternyata nilai prediksinya lebih besar dari nilai sebenarnya, maka akan menghasilkan nilai negatif.
- Sedangkan jika nilai prediksinya  lebih kecil dari nilai sebenarnya atau nilai ekspetasinya, maka akan menghasilkan nilai positif.
- Untuk menghindari nilai negatif pada $mse$, selisih nilainya akan kita pangkatkan 2.
- Lalu berikutnya, hasil pemangkata ini akan kita akumulasikan untuk kemudian kita bagi dengan 'n' yang diman 'n' merupakan jumlah untuk data pointnya. 

In [68]:
# Code 14

from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE : {MSE}')

MSE : 95.8888888888889


Alur berpikir code 14 :
- Pertama-tama, kita akan mengimport terlebih dahulu modulnya dengan memanggil function 'from sklearn.metrics import mean_squared_error'.
- Lalu untuk menggunakan mean squared error caranya mudah, disini kita tinggal memanggil 'mean_squared_error' dengan menyertakan parameter 'y_test' dan juga 'y_pred' lalu kita tampung nilainya kedalam variabel 'MSE'.
- Terakhir kita tampilkan nilai 'MSE' tersebut pada layar dengan menggunakan print.

Berdasarkan output code 14, untuk $MSE$ juga sama konsepnya dengan $MAE$. Karenanya yang dihitung nilai adalah nilai error, maka tentunya makin kecil nilai $MSE$ nya akan mengindikasikan model yang makin baik.

Perlu diingat juga bahwa nilai $MSE$ akan selalu lebih besar bila dibandingkan dengan nilai $MAE$ karena setiap nilai errornya untuk $MSE$ akan selalu dipangkatkan 2.

# Permasalahan Scaling pada Features

Pada kali ini, kita akan melihat permasalahan terkait scaling pada nilai features.

Dataset yang kita gunakan pada kali ini memiliki 2 features yaitu tinggi badan dan jenis kelamin.
- Nilai tinggi badan direpresentasikan dalam satuan cm.
- Nilai jenis kelamin direpresentasikan dalam bilangan biner 0 dan 1.

Pada intinya, kita pada kali ini akan mempelajari apakah perbedaan satuan pengukuran yang tersedia akan berdampak pada konsistensi hasil kalkulasi euclidean distancenya. 

Untuk memperjelas pemahaman, kita akan perkecil terlebih dahulu ukuran datasetnya menjadi 2 instances saja, selanjutkan kita akan melakukan 2 eksperimen. Pada eksperimen pertama, kita akan menggunakan milimeter sebagai satuan pengukuran tinggi badan (lihat pada code 15), sedangkan untuk eksperimen kedua kita akan menggunakan meter sebagai satuan pengukurannya. 

In [69]:
# Code 15

from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])

[euclidean(X_new[0], d) for d in X_train]

[60.0, 40.01249804748511]

Alur berpikir code 15 :
- Karena kita membutuhkan euclidean distance, maka kita akan mengimport dahulu 'from scipy.spatial.distance import euclidean'.
- Lalu berikutnya, kita akan siapkan datasetnya yaitu 'X_train' dan 'X_new'. 'X_train' akan berisi sekumpulan nilai features untuk training set, sedangkan 'X_new' akan berisi sekumpulan fetures untuk data point yang akan kita prediksi.
- Hanya saja disni kita perhatikan bahwa nilai features untuk tinggi badan direpresentasikan dalam satuan milimeter.
- Oleh karenanya disini untuk data point pertama pada training set, tinggi badannya adalah 1700 dan 1600. Sedangkan pada data point baru yang akan diprediksi, tinggi badannya adalah 1640.
- Pada kali ini nilainya akan menjadi besar karena ukuran satuannya diubah yang awalnya cm menjadi mm.
- Lalu berikutnya, kita akan mencoba menggukur jarak untuk data point yang baru ini terhadapa 2 data point pada training setnya. 
- Untuk proses pengukurannya, kita akan memanfaatkan euclidean distance.

Berdasarkan hasil code 15, angka 60.0 merupakan jarak antara data point 'X_new' dengan data point pertama pada 'X_train' yaitu 1700. Sedangkan angka 40.01249804748511 merupakan jarak antara data point 'X_new' terhadap data kedua dari 'X_train' atau tranining setnya yaitu 1600.

Pada eksperimen pertama ini, terlihat jelas bahwa data point yang baru lebih dekat dengan data point kedua bila dibandingkan dengan data point pertama. Bisa kita lihat pada output 15 bahwa nilai jaraknya lebih pendek.  

In [70]:
# Code 16 

# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

[0.06000000000000005, 1.0007996802557442]

Alur berpikir code 16 :
- Untuk eksperimen kali ini, tinggi badannya diukur dalam satuan meter. 
- Jika kita lihat untuk traning set nya bernilai 1.7 yang berarti 1,7 meter dan 1.6 yang berarti 1,6 meter untuk tinggi badannya.
- Nilai 1,7 meter setara dengan nilai 1700 milimeter, demikian juga dengan 1,6 meter setara dengan nilai 1600 milimeter.
- Lalu untuk data point yang baru, disini tinggi badannya adalah 1.64 meter yang setara dengan 1640 milimeter. Disini kita yakin bahwa kedua dataset ini merupakan dataset yang sebenarnya identik, hanya saja direpresentasikan dengan ukuran yang berbeda.
- Berikutnya, kita akan coba mengukur jarak antara data point baru ('X_new') dengan kedua nilai data point pada training setnya.
- Pada kali ini juga kita akan memanfaatkan euclidean distance.

Berdasarkan hasil output 16, bahwa hasil 0.06000000000000005 tersebut merupakan antara data point yang baru 'X_new' dengan data point pertama pada pertama pada 'X_train'. Lalu hasil 1.0007996802557442 merupakan jarak antara yang baru 'X_new' dengan data point kedua pada 'X_train'.

Pada eksperimen kali ini, bisa nampak bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

# Menerapkan Standar Scaler (Standard Score atau Z-Score)

Salah satu metode yang bisa gunakan untuk memecahkan masalah ini dengan menerapkan standard scaler, standard scaler ini menerapkan standard score atau z-score yang umum ditemui dalam bidang statistika.

Standarized features by removing the mean and scaling to to unit variance.

$ z = \frac{x-\bar{x}}{S}$

Diatas merupakan formula yang kita gunakan untuk mencari nilai z-score, yang memiliki beberap komponen sebagai berikut :
- $x$ : merepresentasikan nilai features.
- $\bar{x}$ : merepresentasikan rata-rata nilai features.
- $S$ : merepresentasikan nilai standard deviation dari sekumpulan nilai features.
- $z$ : merepresentasikan nilai z-score.

Referensi : https://en.wikipedia.org/wiki/Standard_score

Selanjutnya kita akan melakukan tahapan untuk merapkan standard scaler ini pada kedua eksperimen yang sebelumnya sudah kita lakukan.

Kita akan memulai dari eksperimen pertama dimana tinggi badan direpresentasikan dalam satuan milimeter (mm).

In [71]:
# Code 17 (mengimport terlebih dahulu Standard Scaler)

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [72]:
# Code 18 

# Tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')


jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak : {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak : [1.2, 2.1540659228538015]


Alur berpikir code 18 : Melakukan Replikasi
- Pada kasus ini, nilai feature untuk tinggi badan direprsentasikan dalam satuan mm.
- Yang  berbeda dengan eksperimen sebelumnya adalah setelah nilai features atau X_train nya dibentuk, berikutnya kita akan mengenakan standard scaler ini pada nilai X_train nya.
- Kita panggil objek standar scalernnya ('ss') lalu kita panggil ('.fit_transform') yang kita kenakan pada 'X_train' yang hasilnya kita tampung ke dalam variabel 'X_train_scaled' lalu kita cetak dengan print.
- Demikian juga untuk 'X_new' nya yang akan kita kenakan proses transformasi. Hanya saja disini untuk proses transformasinya, kita langsung memanggil function transformnya bukan fit_transform karena proses fit nya akan kita kenakan pada 'X_train' tetapi proses transformnya akan kita kenakan baik pada 'X_train' maupun pada 'X_new' yang akan kita tampung kedalam variabel 'X_new_scaled'.
- Lalu kita tampilkan ke layar.
- Berikutnya kita akan hitung jaraknya dengan menggunakan euclidean distances, yang kita hitung jaraknya disini adalah nilai 'X_new_scaled' dengan nilai 'X_train_scaled'. 

Bisa kita lihat pada output 18, nilai-nilai pada hasil output tersebut sudah tidak lagi menggunakan satuan cm atau mm maupun m, melainkan satuannya sudah menggunakan satuan standard score atau $z$-score. Jika kita perhatikan pada hasil 'jarak' 1,2 yaitu merupakan jarak antara 'X_new_scaled' dengan X_train_scaled' untuk data point yang pertama, sedangkan jarak 2.1540659228538015 merupakan jarak antara 'X_new_scaled' dengan data point kedua pada 'X_train_scaled'. 

Pada hasil output eksperimen tersebut pada code 18 terlihat dengan jelas bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.


In [73]:
# Code 19

# Tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled : {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'Jarak : {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]
X_new_scaled : [[-0.2 -1. ]]

Jarak : [1.2000000000000026, 2.1540659228538006]


Alur berpikir code 19 :
- Selanjutnya kita akan melakukan eksperimen kedua dengan memanfaatkan dataset yang sama. Hanya saja kita akan menggunakan meter sebagai satuan pengukuran untuk tinggi badan.
- Disini sekumpulan nilai features nya sama, namun yang berbeda adalah satuan pengukurannya saja dalam kasus ini adalah meter (m).
- Tetapi sebelum kita menghitung jaraknya dengan menggunakan euclidean distance, nilai-nilai fetaures tersebut kita akan scaling terlebih dahulu dengan memanfaatkan standar scaler.
- Disini untuk 'X_train' nya kita panggil terlebih dahulu function 'fit_transform(X_train)' yang hasilnya akan kita tampung kedalam variabel 'X_train_scaled'.
- Lalu berikutnya untuk 'X_new', kita tinggal memanggil saja function 'ss.transform' dengan menyertakan paremeter pada 'X_new' nya lalu hasilnya kita tampung kedalam variabel 'X_new_scaled'.
- Berikutnya, kita akan menghitung jaraknya. Untuk perhitungan jaraknya, disini juga sama kita akan menggunakan euclidean distance.

Berdasarkan hasil code 19, kita mendapatkan nilai 'X_train_scaled', 'X_new_scaled' serta 'jarak'. Jika lihat pada hasil eksperimen pada hasil code 19, eksperimen ini menghasilkan jarak yang sama atau setidaknya sangat mendekati dengan nilai jarak pada eksperimen pertama, disini juga kita bisa lihat bahwa data point baru juga lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.


# Menerapkan Nilai Features Scaling pada KNN

Pada kali ini, kita akan ulangi kembali proses training dan evaluasi model KNN yang pernah kita lakukan sebelumnya, tetapi pada kali ini kita akan menerapkan features scaling. 

Untuk kasus dibawah, features scaling yang akan kita terapkan adalah standard scaler. Kita akan melihat bagaiman features scaling ini berpotensi dalam meningkatkan performa dari model KNN.

# Dataset

In [74]:
# Code 20 

#Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163,1],
                   [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

# Test set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169,1]])
y_test = np.array([65, 96, 52, 67])

Alur berpikir code 20 :
- Pertama-tama, kita akan persiapkan terlebih dahulu training setnya dengan menyiapkan 'X_train' untuk menampung sekumpulan nilai features untuk training set dan 'y_train' untuk menampung sekumpulan nilai target untuk training setnya.
- Selain itu untuk keperluan evaluasi, kita akan perisiapkan 'X_test' dan 'y_test'.
- Jika kita perhatikan pada code 20, training set dan testing set yang kita gunakan ini sama persis dengan training set dan testing set yang kita gunakan sebelumnya.

# Features Scaling (Standard Scaler)

Yang berbeda disini adalah setelah training dan testing set nya tersedia, kita tidak langsung melakukan proses training model, tetapi kita akan menscaling feturesnya terlebih dahulu (lihat pada code 21).

In [75]:
# Code 21
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



Alur berpikir code 21 : 
- Pertama, kita akan memanggil terlebih dahulu function 'ss.fit_transform' yang kita terapkan pada 'X_train', lalu hasil scalingnya kita tampung kedalam variabel 'X_train_scaled'.
- Demikian juga untuk 'X_test' nya, kita memanggil function 'ss.transform' dengan menyertakan parameter 'X_test' lalu haisl scalingnya kita tampung kedalam variabel 'X_test_scaled'.
- Lalu kita tampilkan ke layar.

# Training & Evaluasi Model

Setelah nilai featuresnya kita scaling, tahapan berikutnya kita akan melakukan proses training model.

In [76]:
# Code 22

model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893


Alur berpikir code 22 :
- Pertama-tama, objek modelnya kita training dengan memanggil function 'model.fit' dengan menyertakan parameter 'X_train_scaled' dan 'y_train'. Disni features yang kita lewatkan adalah features yang sudah kita scaling.
- Lalu setelah modelnya kita training, train model atau model yang sudah kita training ini akan kita gunakan untuk melakukan prediksi dengan memanggil function 'model.predict' dengan menyertakan parameter '(X_test_scaled)' yang hasilnya akan kita tampung kedalam variabel 'y_pred'.
- Selanjutnya, kita akan hitung nilai errornya. Pada kali ini, nilai error yang akan kita hitung adalah baik MAE maupun MSE nya. Untuk MAE, kita tinggal memanggil function 'mean_absolute_error' dengan menyertakan parameter 'y_test' dan 'y_pred'.
- Sedangkan untuk MSE, kita akan memangggil function 'mean_squared_error' dengan menyertakan kembali 'y_test' maupun 'y_pred' nya sebagai parameter.

Berdasarkan hasil scaling pada output code 22, hasilnya lebih baik setelah kita menerapkan fetures scaling yakni hasilnya menjadi lebih kecil atau dengan kata lain, kita bisa menghasilkan model dengan kualitas atau performa yang lebih baik setelah kita menerapkan features scaling.



Untuk pembelajaran lebih lengkapnya, jangan lupa untuk mengunjungi channel youtube Indonesia Belajar pada link https://www.youtube.com/watch?v=W8adIcfv16M dan jangan lupa untuk subscribe.

# "Banyak Belajar Biar Bisa Bantu Banyak Orang"

By : Clarence Code Pianist