# SKLearn 07 | Regression dengan KNN | K-Nearest Neighbours | Belajar Machine Learning Dasar

## 07 Regression dengan KNN (K Nearest Neighbours)

* KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
* Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Jadi dapat disimpulkan bahwa KNN dapat digunakan baik untuk classification tasks dan juga regression tasks. Dalam pembelajaran kali ini lebih difokuskan untuk regression tasks.

Referensi: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

### Sample Dataset

Sebelum memulai, pertama-tama akan dipersiapkan terlebih dahulu dataset yang akan digunakan untuk pembejalaran. Kali ini dataset yang dibentuk adalah dataset yang berisikan daftar berat dan tinggi badan sejumlah partisipan beserta gender atau jenis kelaminnya, kemudian dataset ini akan ditampung kedalam format pandas dataframe. 

**Penjelasan Code:**
1. Mengimport pandas dataframe dengan import pandas as pd
2. Menyiapkan variable sensus yang akan menampung suatu data dictionary, dimana akan ditampung 3 buah keys dalam dictionary tersebut yaitu tinggi, jk (jenis kelamin), dan berat. 
3. Kemudian dictionary sensus ini akan dibentuk menjadi pandas dataframe dengan menggunakan pd.DataFrame yang diikuti 1 buah parameter yaitu sensus seabgai dictionary yang akan dibentuk menjadi pandas dataframe.
   Kemudian hasilnya akan ditampung kedalam variable sensus_df.

In [1]:
import pandas as pd
# mengimport pandas

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk': ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
          'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67]}
# membentuk dataset sensus

sensus_df = pd.DataFrame(sensus)
# menjadikan dataset yang dimiliki menjadi pandas dataframe

sensus_df
# menampilkan dataset

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


Dalam pembelajaran kali ini akan dibentuk model machine learning sederhana yang dapat digunakan untuk memprediksi berat badan seseorang berdasarkan data tinggi dan jenis kelaminnya. Dengan kata lain disini data tinggi dan jenis kelamin akan menjadi features dan berat akan menjadi target.

### Regression dengan KNN

Sekarang akan coba menerapkan KNN untuk melakukan estimasi nilai (regression) berat badan. Model machine learning ini akan melakukan prediksi berat badan.

#### Features & Target

Sebelum melakukan training model, terlebih dulu akan dilakukan pengelompokkan sekumpulan nilai features dan target dari dataset yang dimiliki. 

Dalam kasus ini data tinggi badan dan jenis kelamin akan dikonversi kedalam numpy array yang kemudian akan ditampung kedalam variable x_train sebagai sekumpulan features untuk training set. Dan kolom berat badan juga akan dikonversikan menjadi numpy array dan ditampung kedalam variable y_train sebagai sekumpulan nilai target untuk training set.

**Caranya:**
1. Mengimport numpy array dengan import numpy array as np
2. Membentuk numpy array pertama berdasarkan kolom tinggi dan jenis kelamin dari sensus_df menggunakan np.array yang diikuti 1 buah parameter yaitu data yang mau diambil (tinggi & jenis kelamin dari sensus_df). Kemudian hasilnya akan ditampung kedalam variable x_train.
3. Membentuk numpy array kedua berdasarkan kolom berat dari sensus_df menggunakan np.array yang diikuti 1 buah parameter yaitu data yang mau diambil (berat dari sensus_df). Kemudian hasilnya akan ditampung kedalam variable y_train.
4. Menampilkan hasil pembuatan dari x_train & y_train.

In [2]:
import numpy as np
# mengimport numpy

X_train = np.array(sensus_df[['tinggi', 'jk']])
# membentuk array berisikan features

y_train = np.array(sensus_df['berat'])
# membentuk array berisikan target

print(f'X_train:\n{X_train}\n')
# menampilkan data features

print(f'y_train: {y_train}')
# menampilkan data target

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


Disini KNN akan digunakan untuk melakukan prediksi berat badan berdasarkan data tinggi badan dan jenis kelamin. Dan karena disini yang diprediksi merupakan nilai continuous dan bukan kategory, maka kasus ini termasuk dalam regression task.

#### Preprocess Dataset: Konversi Label menjadi Numerik Biner

Dari pembelajaran sebelumnya sudah diketahui bahwa KNN akan melakukan prediksi berdasarkan sejumlah tetangga terdekat, dimana data terdekat ditentukan berdasarkan jarak dengan memanfaatkan Euclidean Distance. Jadi data features yang dimiliki harus berupa data numeric agar dapat dilakukan kalkulasi jarak antar data pointnya. 

Karena pada data yang dimiliki data featuresnya ada yang bukan data numeric yaitu data jenis kelamin, maka data ini perlu dilakukan konversi menjadi data numeric terlebih dahulu.

Transpose berguna untuk mengubah posisi baris menjadi kolom dan kolom menjadi baris. Untuk mengetahui perbedaannya pada code dibawah akan ditampilkan data X_train sebelum dilakukan transpose dan setelah dilakukan transpose.

Jika dilihat pada data x_train yang belom dilakukan transpose, posisi baris mengindikasikan instance sedangkan posisi kolomnya mengindikasikan features. Kolom pertama berisikan features pertama (tinggi badan) sedangkan kolom kedua berisikan features kedua (jenis kelamin).

Dan kali ini akan dilakukan perubahan pada data yaitu mengubah posisi featuresnya dari kolom menjadi baris, maka dilakukan transpose.

**Cara Melakukan Transpose:**
1. Melakukan proses transpose terhadap x_train dengan np.transpose yang disertai dengan data yang akan dilakukan transpose. Kemudian hasilnya akan ditampung kedalam variable X_train_transposed.


In [3]:
X_train_transposed = np.transpose(X_train)
# melakukan proses transpose

print(f'X_train:\n{X_train}\n')
# menampilkan data x_train yang belum di transpose

print(f'X_train_transposed:\n{X_train_transposed}')
# menampilkan data x_train yang sudah di transpose

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


Setelah melakukan proses transpose, selanjutnya akan dilakukan proses konversi untuk mengubah nilai pria dan wanita menjadi nilai biner 0 dan 1.

**Cara Mengkonversikannya:**
1. Mengimport labelBinarizer dengan from sklearn.preprocessing import LabelBinarizer
2. Membentuk objek dari class binarizer dengan memanggil LabelBinarizer() dan hasilnya akan ditampung kedalam variable lb.
3. Memanggil lb.fit_transform yang disetai dengan 1 buah parameter yaitu data yang akan diterapkan transform (x_train_transposed[1], index ke 1 karena nilai jenis kelamin terdapat pada index ke 1 sedangkan index ke 0 merupakan tinggi badan)menggunakan labelBinarizer, kemudian hasilnya ditampung kedalam variable jk_binarised.

In [4]:
from sklearn.preprocessing import LabelBinarizer
# melakukan import label binarizer

lb = LabelBinarizer()
# membuat objek class binarizer

jk_binarised = lb.fit_transform(X_train_transposed[1])
# melakukan proses tranform nilai jenis kelamin

print(f'jk: {X_train_transposed[1]}\n')
# menampilkan data jenis kelamin sebelum dilakukan binarizer

print(f'jk_binarised:\n{jk_binarised}')
# menampilkan data jenis kelamin sedudah dilakukan binarizer

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


Dari hasil data jenis kemalin yang sudah dijadikan nilai biner, terlihat bahwa data yang dimiliki berbentuk array 2 dimesi. Oleh karena itu datanya perlu diubah menjadi array 1 dimensi dengan menggunakan flatten.

**Cara Melakukan Flatten:**
* Melakukan flatten dengan menggunakan jk_binarised.flatten, kemudian hasilnya akan ditampung kedalam variable jk_binarised. Setelah itu hasilnya akan ditampilkan.

In [5]:
jk_binarised = jk_binarised.flatten()
# melakukan proses flatten

jk_binarised
# menampilkan hasilnya

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

Setelah diubah menjadi nilai biner dan dijadikan array 2 dimensi, maka data yang sebelumnya sudah diubah kolom dan barisnya akan dikembalikan ke posisi sebelumnya dengan melakukan transpose kembali. 

In [6]:
X_train_transposed[1] = jk_binarised
# memasukan data yang sudah diubah menjadi data biner kedalamx_transposed index pertama

X_train = X_train_transposed.transpose()
# mengembalikan data yang telah di transpose ke posisi semula

print(f'X_train_transposed:\n{X_train_transposed}\n')
# menampilkan data yang telah di transpose

print(f'X_train:\n{X_train}')
# menampilkan data yang sudah dikembalikan seperti semula

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


Dengan ini data yang dimiliki sudah siap untuk dilakukan training model.

### Training KNN Regression Model

Dalam proses training kali ini model machine learning yang akan digunakan adalah KNN. Regression task biasa disebut juga sebagai Regressor.

**Cara Melakukan Training Model dengan KNN:**
1. Mengimport estimator classnya yaitu KNN dengan memanggil from sklearn.neighbors import KNeighborsRegressor, dalam kasus ini yang diimport adalah KNeighborsRegressor bukan Classifier.
2. Menentukan jumlah tetangga terdekat untuk melakukan proses prediksi, jumlah yang ditentukan kali ini adalah 3.
3. Membentuk objek modelnya dengan memanggil KNeighborsRegressor yang disertai dengan 1 buah parameter yaitu n_neighbors yang berisikan variable K (jumlah tetangga terdekat yang telah ditentukan).
4. Setelah objek modelnya terbentuk, setelahnya dilakukan proses training model dengan memanggil model.fit yang disertai dengan 2 buah parameter yaitu x_train dan y_train sebagai nilai features dan targetnya.  

In [7]:
from sklearn.neighbors import KNeighborsRegressor
# mengimport KNeighborsRegressor

K = 3
# menentukan jumlah tetangga terdekat

model = KNeighborsRegressor(n_neighbors=K)
# membentuk objek model untuk KNeighborsRegressor

model.fit(X_train, y_train)
# melakukan proses training

KNeighborsRegressor(n_neighbors=3)

### Prediksi Berat Badan

Setelah melakukan training pada model Regressornya, selanjutnya akan dilakukan proses prediksi terhadap data berat badan yang baru dibentuk.

Sebelum melakukan prediksi maka terlebih dahulu akan dipersiapkan data baru yang dibentuk.

**Penjelasan Code:**
* Membentuk data baru yang berisikan data tinggi dan jenis kelamin (155, 1) yang ditampung kedalam numpy array dengan menggunakan np.array([[155, 1]]). Kemudian data baru tersebut akan ditampaung kedalam variable x_new.
* Menampilkan hasil dari data baru yang dibentuk.

In [8]:
X_new = np.array([[155, 1]])
# membentuk data baru dalam nump array

X_new
# menampilkan data baru

array([[155,   1]])

Setelah data baru siap maka dilakukan proses prediksi menggunakna model machine learning yang telah di training sebelumnya.

**Penjelasan Code:**
* Melakukan prediksi berat badan dari data baru dengan memanggil model.predict yang disertai dengan data yang akan dilakukan prediksi. Kemudian hasilnya akan ditampung kedalam variable y_pred.
* Menampilkan hasil prediksi berat badan dari x_new (data baru).

In [9]:
y_pred = model.predict(X_new)
# melakukan prediksi terhadap data baru

y_pred
# menampilkan hasil prediksi

array([55.66666667])

### Evaluasi KNN Regression Model

Setelah melakukan prediksi terhadap data baru, maka setelahnya akan dilakukan proses evaluasi terhadap machine learning.

Sebelum melakukan evaluasi akan disiapkan dulu testing setnya.

**Menyiapkan Testing Set:**
1. Memasukan data features kedalam numpy array dengan menggunakan np.array yang disertai dengan datanya, kemudian hasilnya ditampung kedalam variable x_test.
2. Memasukan data target kedalam numpy array dengan menggunakan np.array yang disertai dengan datanya, kemudian hasilnya ditampung kedalam variable y_test.

In [10]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
# menyiapkan data features untuk testing set

y_test = np.array([65, 96, 52, 67])
# menyiapkan data target untuk testing set

print(f'X_test:\n{X_test}\n')
# menampilkan data features

print(f'y_test: {y_test}')
# menampilkan data target

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


Setelah testing set siap maka akan dilakukan prediksi terhadap testing set ini dengan menggunakan model.predict yang disertai data features yang akan diprediksi. kemudian hasilnya akan ditampung kedalam variable y_pred dan ditampilkan.

In [11]:
y_pred = model.predict(X_test)
# melakukan prediksi terhadap data features testing set

y_pred
# menampilkan hasil prediksi

array([70.66666667, 79.        , 59.        , 70.66666667])

**Berikut ini adalah beberapa metrics evaluasi yang dapat digunakan:**

#### 1. Coefficient of Determination atau $R^2$

Referensi: https://en.wikipedia.org/wiki/Coefficient_of_determination

**Penjelasan Code:**
1. Mengimport metrics Coefficient of Determination atau $𝑅^2$ dengan memanggil from sklearn.metrics import r2_score
2. Melakukan evaluasi dengan memanggil r2_score disertai dengan 2 parameter yaitu data yang akan dievaluasi (y_test dan y_pred). Kemudian hasilnya akan ditampung kedalam variable r_squared.
3. Menampilkan evaluasi

In [12]:
from sklearn.metrics import r2_score
# mengimport Coefficient of Determination

r_squared = r2_score(y_test, y_pred)
# melakukan perhitungan Coefficient of Determination

print(f'R-squared: {r_squared}')
# menampilkan hasil perhitungan

R-squared: 0.6290565226735438


#### 2. Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)

$MAE$ is the average of the absolute values of the errors of the predictions (nilai rata-rata absolute error dari prediksi).

Referensi: https://en.wikipedia.org/wiki/Mean_absolute_error

**Formula untuk MAE:**
$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

* yi => merepresentasikan setiap nilai target yang ada dalam testing set.
* $\hat{y}_i$ => merepresentasikan nilai prediksi yang dihasilkan oleh model.
* n => merepresentasikan jumlah data point.

MAE akan menghitung selisih dari yi dan $\hat{y}_i$, proses perhitungan ini memungkinkan untuk menghasilkan nilai positif (jika hasil prediksi lebih kecil dari yang seharusnya) / negatif (jika hasil prediksi lebih besar dari yang seharusnya). 

Untuk menghindari nilai negatif maka digunakan absolute function. Absolute function akan menghilangkan nilai negatif / semua nilai negatif akan dirubah menjadi positif. Kemudian hasilnya akan diakumulasikan dan dipangkatkan dengan n.

**Cara Melakukan Perhitungan MAE pada SKLearn:**
1. Melakukan import MAE dengan memanggil from sklearn.metrics import mean_absolute_error
2. Melakukan perhitungan dengan menggunakan mean_absolute_error disertai dengan 2 parameter yaitu 2 data yang akan dievaluasi (y_test & y_pred). Kemudian hasil perhitungannya akan ditampung kedalam variable MAE.
3. Menampilkan hasil perhitungannya.

In [13]:
from sklearn.metrics import mean_absolute_error
# mengimport MAE

MAE = mean_absolute_error(y_test, y_pred)
# melakukan perhitungan MAE

print(f'MAE: {MAE}')
# menampilkan hasil perhitungan

MAE: 8.333333333333336


Karena MAE menghitung selisih nilai prediksi dengan nilai sebenarnya maka semakin sedikit / kecil nilai errornya maka kualitas modelnya semakin baik, sedangkan semakin banyak / besar nilai errornya maka kualitas modelnya semakin buruk.

#### 3. Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)

$MSE$ is the average of the squares of the errors of the predictions (rata-rata dari error kuadrat untuk prediksi).

Referensi: https://en.wikipedia.org/wiki/Mean_squared_error

**Formula untuk MSE:**

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

* yi => merepresentasikan setiap nilai target yang ada dalam testing set.
* 𝑦̂𝑖  => merepresentasikan nilai prediksi yang dihasilkan oleh model.
* n => merepresentasikan jumlah data point.

MSE akan menghitung selisih dari yi dan 𝑦̂𝑖 , proses perhitungan ini memungkinkan untuk menghasilkan nilai positif (jika hasil prediksi lebih kecil dari yang seharusnya) / negatif (jika hasil prediksi lebih besar dari yang seharusnya).

Untuk menghindari nilai negatif maka nilanya akan dipangkatkan 2. Kemudian hasil pemangkatannya akan diakumulasikan kemudian akan dibagi degnan n.

**Cara Melakukan Perhitungan MAE pada SKLearn:**

1. Melakukan import MSE dengan memanggil from sklearn.metrics import mean_squared_error
2. Melakukan perhitungan dengan menggunakan mean_squared_error disertai dengan 2 parameter yaitu 2 data yang akan dievaluasi (y_test & y_pred). Kemudian hasil perhitungannya akan ditampung kedalam variable MSE.
3. Menampilkan hasil perhitungannya.

In [14]:
from sklearn.metrics import mean_squared_error
# mengimport MAE

MSE = mean_squared_error(y_test, y_pred)
# melakukan perhitungan MAE

print(f'MSE: {MSE}')
# menampilkan hasil perhitungan

MSE: 95.8888888888889


Sama seperti MAE, MSE menghitung selisih nilai prediksi dengan nilai sebenarnya maka semakin sedikit / kecil nilai errornya maka kualitas modelnya semakin baik, sedangkan semakin banyak / besar nilai errornya maka kualitas modelnya semakin buruk.

Bila dibandingkan dengan MAE, nilai MSE selalu akan lebih besar karena untuk setiap nilai MSE akan dipangkatkan 2.

### Permasalahan Scaling pada Features

Dalam dataset yang digunakan kali ini terdapat 2 features yaitu tinggi badan dan jenis kelamin, tinggi badan direpresentasikan dalam centimeter sedangkan jenis kelamin direpresentasikan dalam nilai biner 0 dan 1. 

Padahal untuk tinggi badan dapat diukur dengan satuan pengukuran lain misalnnya milimeter / meter. Disini akan dipelajari apakah perbedaan satuan pengukuran akan berdampak pada konsistensi hasil kalkulasi euclidean distance nya.

Untuk memperjelas sebelumnya ukuran dataset yang dimiliki akan diperkecil terlebih dahulu menjadi 2 instances. Baru setelahnya akan dilakukan 2 eksperimen:
1. Menggunakan mm sebagai satuan pengukuran tinggi badan.
2. Menggunakan m sebagai satuan pengukuran tinggi badan.

**Penjelasan Code:**
1. Mengimport euclidean distance dengan memanggil from scipy.spatial.distance import euclidean
2. Menyiapkan dataset x_train yang berisikan sekumpulan nilai features untuk training set, dan x_new yang berisikan sekumpulan features untuk data point yang akan diprediksi. Namun kali ini satuan pengukuran untuk tinggi badannya menggunakan milimeter.
3. Melakukan pengukuran euclidean distance dengan menggunakan [euclidean(X_new[0], d) for d in X_train]

In [15]:
from scipy.spatial.distance import euclidean
# mengimport euclidean distance

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])
# menyiapkan dataset dalam milimeter

[euclidean(X_new[0], d) for d in X_train]
# melakukan pengukuran euclidean distance

[60.0, 40.01249804748511]

Dari hasil perhitungan terdapat 2 hasil:
1. Hasil yang pertama merupakan jarak antara data point yang baru dengan data point yang pertama pada training set.
2. Hasil yang kedua merupakan jarak antara data point yang baru dengan data kedua pada training set.

Pada eksperimen pertama dapat terlihat bahwa data point yang baru lebih dekat dengan data point kedua bila dibandingkan dengan data point pertama.

Selanjutnya akan dilakukan eksperimen kedua menggunakan data yang sama namun berbeda satuan pengukurannya. Satuan pengukuran yang akan digunakan pada eksperimen kedua adalah meter. 

**Penjelasan Code:**
1. Mengimport euclidean distance dengan memanggil from scipy.spatial.distance import euclidean
2. Menyiapkan dataset x_train yang berisikan sekumpulan nilai features untuk training set, dan x_new yang berisikan sekumpulan features untuk data point yang akan diprediksi. Namun kali ini satuan pengukuran untuk tinggi badannya menggunakan meter.
3. Melakukan pengukuran euclidean distance dengan menggunakan [euclidean(X_new[0], d) for d in X_train]

In [16]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])
# menyiapkan dataset dalam meter

[euclidean(X_new[0], d) for d in X_train]
# melakukan pengukuran euclidean distance

[0.06000000000000005, 1.0007996802557442]

Dari hasil perhitungan terdapat 2 hasil:

1. Hasil yang pertama merupakan jarak antara data point yang baru dengan data point yang pertama pada training set.
2. Hasil yang kedua merupakan jarak antara data point yang baru dengan data kedua pada training set.

Pada eksperimen pertama dapat terlihat bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

Dari hasil kedua eksperimen yang dilakukan ditemui adanya ketidak konsistenan dalam pengukuran jarak meskipun menggunakan dataset yang sama persis, namun hanya berbeda satuan pengukurannya saja.

### Menerapkan Standard Scaler (Standard Score atau Z-Score)

Untuk mengatasi permasalahan scalling pada features dapat digunakan standard scaler. Menerapkan Standard scaler atau Z-Score yang umum ditemui dalam bidang statistika.

Standardize features by removing the mean and scaling to unit variance.

Referensi: https://en.wikipedia.org/wiki/Standard_score

**Formula:**

$z = \frac{x - \bar{x}}{S}$

* x = nilai features
* $\bar{x}$ = rata-rata nilai features
* s = nilai standard deviation dari sekumpulan nilai features tersebut

Dengan ini standard scaler akan diterapkan pada 2 eksperimen yang telah dilakukan sebelumnya. 

**Penjelasan Code:**
1. Mengimport class standard scaler dengan memanggil from sklearn.preprocessing import StandardScaler
2. Membuat objek class nya dengan memanggil StandardScaler(), kemudian hasilnya akan ditampung kedalam variable ss

In [17]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

Setelah mengimport standard scaler maka selanjutnya barulah diterapkannya standard scaler pada kedua eksperimen yang telah dilakukan. Penerapan standard scaler akan dilakukan pada eksperimen pertama terlebih (satuan milimeter) dahulu.

**Penjelasan Code:**
1. Membentuk nilai features x_train
2. Menerapkan standard scaler dengan menggunakan ss.fit_transform yang diikuti oleh data yang akan diterapkan standard scaler (x_train), kemudian hasilnya akan ditampung kedalam variable x_train_scaled.
3. Menampilkan hasil x_train_scaled. 
4. Membentuk nilai features x_new
5. Menerapkan standard scaler dengan menggunakan ss.transform yang diikuti oleh data yang akan diterapkan standard scaler (x_new), namun kali ini tidak perlu memanggil fit lagi karena proses fit nya hanya dikenakan pada x_train saja sedangkan proses transformnya akan dikenakan pada x_train dan x_new. Kemudian hasilnya akan ditampung kedalam variable x_new_scaled.
6. Menampilkan hasil x_new_scaled. 
7. Menghitung jarak dengan euclidean distance

In [20]:
# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
# Membentuk nilai features x_train

X_train_scaled = ss.fit_transform(X_train)
# Menerapkan standard scaler

print(f'X_train_scaled:\n{X_train_scaled}\n')
# Menampilkan hasil

X_new = np.array([[1640, 0]])
# Membentuk nilai features x_new

X_new_scaled = ss.transform(X_new)
# Menerapkan standard scaler

print(f'X_new_scaled: {X_new_scaled}\n')
# Menampilkan hasil

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
# Menghitung jarak dengan euclidean distance

print(f'jarak: {jarak}')
# Menampilkan hasil perhitungan euclidean distance

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2, 2.1540659228538015]


Hasil perhitungan jarak yang telah diterapkan standard scaler sudah tidak lagi memiliki satuan pengukuran. Dan dari hasil perhitungan dapat dilihat bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

Selanjutnya akan diterapkan standard scaler pada eksperimen kedua yang menggunakan satuan pengukuran meter.

*Penjelasan code sama dengan yang sebelumnya.*

In [19]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
# Membentuk nilai features x_train

X_train_scaled = ss.fit_transform(X_train)
# Menerapkan standard scaler

print(f'X_train_scaled:\n{X_train_scaled}\n')
# Menampilkan hasil

X_new = np.array([[1.64, 0]])
# Membentuk nilai features x_new

X_new_scaled = ss.transform(X_new)
# Menerapkan standard scaler

print(f'X_new_scaled: {X_new_scaled}\n')
# Menampilkan hasil

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
# Menghitung jarak dengan euclidean distance

print(f'jarak: {jarak}')
# Menampilkan hasil perhitungan euclidean distance

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2000000000000026, 2.1540659228538006]


Jika dari hasil perhitungan dapat dilihat bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua. Dan dapat dilihat bahwa hasil perhitungan eksperimen kedua memiliki hasil yang mendekati / sama dengan hasil perhitungan eksperimen pertama.

Jadi dapat disimpulkan dengan menggunakan standard scaler maka dapat menjaga konsistensi hasil perhitungan euclidean distance.

### Menerapkan Features Scaling pada KNN

#### Dataset

Kali ini akan dilakukan kembali proses training dan evaluasi model KNN yang sudah dilakukan sebelumnya, namun kali ini akan diterapkan features scaling. Dan features scaling yang akan diterapkan adalah standard scaler.

**Penjelasan Code:**
1. Menampung sekumpulan nilai features untuk training set dalam numpy array dan hasilnya ditampung kedalam variable x_train.
2. Menampung sekumpulan nilai target untuk training set dalam numpy array dan hasilnya ditampung kedalam variable y_train.
3. Menampung sekumpulan nilai features untuk testing set dalam numpy array dan hasilnya ditampung kedalam variable x_test.
4. Menampung sekumpulan nilai target untuk testing set dalam numpy array dan hasilnya ditampung kedalam variable y_test.

In [22]:
# Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]])
# membentuk nilai features untuk training set

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])
# membentuk nilai target untuk training set

# Test Set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
# membentuk nilai features untuk testing set

y_test = np.array([65, 96, 52, 67])
# membentuk nilai target untuk testing set

#### Features Scaling (Standard Scaler)

Setelah training dan testing set terbentuk akan dilakukan features scaling terlebih dahulu sebelum melakukan training dan evaluasi.

**Penjelasan Code:**
1. Menerapkan features scaling pada training set dengan memanggil ss.fit_transform diikuti degnan data yang akan dilakukan transformasi (x_train). Kemudian hasilnya akan ditampung kedalam variable x_train_scaled
2. Menerapkan features scaling pada testing set dengan memanggil ss.ransform diikuti degnan data yang akan dilakukan transformasi (x_test). Kemudian hasilnya akan ditampung kedalam variable x_test_scaled
3. Menampilkan hasilnya

In [24]:
X_train_scaled = ss.fit_transform(X_train)
# Menerapkan features scaling pada x_train

X_test_scaled = ss.transform(X_test)
# Menerapkan features scaling pada x_test

print(f'X_train_scaled:\n{X_train_scaled}\n')
# menampilkan hasil x_train yang sudah ditransformasi

print(f'X_test_scaled:\n{X_test_scaled}\n')
# menampilkan hasil x_test yang sudah ditransformasi

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



#### Training & Evaluasi Model

Setelah diterapkan features scaling, maka selanjutnya barulah akan dilakukan training model.

**Penjelasan Code:**
1. Melakukan training objek model dengan memanggil model.fit disertai dengan 2 parameter yaitu data yang akan ditraining (X_train_scaled, y_train).
2. Melakukan prediksi dengan memanggil model.predict diikuti dengan data features yang akan diprediksi. Kemudian hasilnya akan ditampung kedalam variable y_pred.
3. Menghitung nilai errornya dengan MAE dengan menggunakan mean_absolute_error diikuti dengan 2 parameter yaitu data yang akan dievaluasi (y_test, y_pred).
4. Menghitung nilai errornya dengan MSE dengan menggunakan mean_squared_error diikuti dengan 2 parameter yaitu data yang akan dievaluasi (y_test, y_pred).
5. Menampilkan hasil perhitungan errornya.

In [None]:
model.fit(X_train_scaled, y_train)
# Melakukan training objek model

y_pred = model.predict(X_test_scaled)
# Melakukan prediksi

MAE = mean_absolute_error(y_test, y_pred)
# Menghitung MAE 

MSE = mean_squared_error(y_test, y_pred)
# Menghitung MSE

print(f'MAE: {MAE}')
# Menampilkan hasil perhitungan MAE

print(f'MSE: {MSE}')
# Menampilkan hasil perhitungan MAE

Jika dibandingkan dengan hasil perhitungan tanpa menggunakan features scaling, maka hasil MAE dan MSE dari model yang sudah diterapkan features scaling lebih kecil. Artinya model yang dihasilkan akan lebih baik jika sudah diterapkan features scaling.