# Regression dengan KNN (K Nearest Neighbours)

- KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.
- Fokus untuk penerapan KNN untuk regression task.

Referensi: [https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm)

## Sample Dataset

In [2]:
import pandas as pd

sensus = {'tinggi': [191, 155, 163, 180, 158, 170,158, 170, 183], 
          'jk': ['pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita','pria', 'pria', 'pria'],
          'berat': [80, 49, 59, 67, 54, 67, 64, 86, 84]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,191,pria,80
1,155,wanita,49
2,163,wanita,59
3,180,wanita,67
4,158,wanita,54
5,170,wanita,67
6,158,pria,64
7,170,pria,86
8,183,pria,84


- import modul pandas 'import pandas as pd' untuk membuat table.
-  Siapkan dictionary yang terdiri dari 3 buah keys yaitu, 'tinggi', 'jk', dan 'berat'.
<!--  Key 'tinggi' akan berasosiasi dengan sekumpulan nilai tinggi badan. -->
<!--  Key 'jk' akan berasosiasi dengan sekumpulan nilai jenis kelamin. Dalam kali ini nilai jenis kelamin terdiri dari 2 nilai string, yaitu 'pria' dan 'wanita'. -->
<!-- Key 'berat' akan berasosiasi dengan sekumpulan nilai berat badan. -->
- Nilai dictionary tersebut ditampung ke variabel 'sensus'.
- Variabel 'sensus' digunakan sebagai dasar pembentukan pandas dataframe 'pd.DataFrame(sensus)'.
- Sebuah objek 'pd.DataFrame(sensus)' ini akan ditampung kedalam variabel 'sensus_df'.

Soal diatas kita bentuk sebagai model machine learning sederhana yang dapat digunakan untuk memprediksi berat badan seseorang berdasarkan tinggi badan dan jenis kelaminnya. Dengan kata lain, tinggi badan dan jenis kelamin akan berperan sebaagai features, sedangkan berat badan akan berperan sebagai target.

## Regression dengan KNN


masuk untuk mencoba menerapkan KNN atau Key Nearest Neighbours untuk melakukan estimasi nilai berat badan.

penggunaan KNN Berfokus untuk melakukan regression untuk sebuah estimasi nilai, dimana nilai yang akan prediksi adalah nilai berat badan.


### Features & Target
Pengelompokan dengan menggunakan Features dan Target dari sebuah dataset

In [3]:
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'jk']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']
 [158 'pria']
 [170 'pria']
 [183 'pria']]

y_train: [80 49 59 67 54 67 64 86 84]


- Import modul numpy 'import numpy as np'.
- Nilai features ini adalah tinggi dan jenis kelamin akan  dibundle menjadi suatu numpy array dan berikutnya ditampung kedalam variabel 'X_train'.
- Nilai target ini adalah berat badan akan dikoversikan juga menjadi suatu numpy array yang kemudian ditampung kedalam variabel 'y_train'.
- Kemudian akan ditampilkan nilai 'X_train' dan 'y_train'.

Sebuah data tinggi badan dan jenis kelamin akan dikonversikan kedalam numpy array dan ditampung ke dalam variabel 'X_train' sebagai sekumpulan features untuk training set.

Lalu untuk data berat badan juga akan dikonversikan menjadi numpy array, Ditampung kedalam variabel 'y_train' sebagai sekumpulan nilai target untuk training set.

Nilai continous akan diprediksi makan nilai terdekat tersebut ditentukan berdasarkan kalkulasi jarak dengan memanfaatkan "euclidean distance".

Perlu diperhatikan agar nilai featuresnya bertipe data numerik agar dapat dihitung jarak antar data pointnya.


### Preprocess Dataset: Konversi Label menjadi Numerik Biner
Tahapan data preprocessing untuk mengkonversi nilai pria dan wanita menjadi numerik biner 0 dan 1.

In [4]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']
 [158 'pria']
 [170 'pria']
 [183 'pria']]

X_train_transposed:
[[191 155 163 180 158 170 158 170 183]
 ['pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita' 'pria' 'pria'
  'pria']]


- lakukan proses transpose terhadap 'X_train'.
- Proses transpose ini pada dasarnya akan mengubah posisi baris kolom dan posisi kolom menjadi baris.
- Jika diperhatikan pada hasil output posisi barisnya mengindikasikan instance, sedangkan posisi kolomnya mengindikasikan features.
- Kolom pertama (sebelah kiri pada output 'X_train') tersebut yang merupakan features pertama yaitu tinggi badan.
- Kolom kedua (sebelah kanan pada output 'X_train') tersebut yang merupakan features kedau yaitu jenis kelamin.
- Mengubah posisi features agar tidak berada dalam kolom, tetapi yang mau posisi featuresnya berada ingin dimasukan ke dalam baris. Oleh karena itu, lakukan proses transpose.
- Panggil 'np.transpose(X_train)' yang ditampung kedalam variabel 'X_train_transposed'.

Jika diperhatikan pada hasil output pada hasil 'X_train_transposed', terdiri dari 2 baris saja yaitu baris pertama dan baris kedua, dan jika dilihat nilai pada baris pertama tersebut merepresentasikan nilai 'tinggi badan', sedangkan nilai untuk baris kedua merepresentasikan sekumpulan nilai 'jenis kelamin'.

In [5]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita' 'pria' 'pria' 'pria']

jk_binarised:
[[0]
 [1]
 [1]
 [1]
 [1]
 [1]
 [0]
 [0]
 [0]]


Penerapan 'LabelBinariser' akan digunakan lagi karena menkonversikan nilai pria dan wanita tersebut menjadi nilai biner 0 dan 1.

- mengimport label binarizernya dengan memanggil fungsi 'from sklearn.preprocessing import LabelBinarizer'.
- Lalu berikutnya, membentuk objek dari class label binarizer ini yang akan ditampung kedalam variabel 'lb'.
- Pada kali ini, proses transformasi label binarizernya akan diterapkan pada 'jenis kelamin'. Oleh karena itu, panggil 'lb.fit_transform' yang akan diterapkan pada 'X_train_transposed[1]' berarti index kesatu. Karena index ke nolnya adalah 'tinggi badan', sedangkan index kesatunya adalah 'jenis kelamin', lalu hasil transformnya ditampung kedalam variabel 'jk_binarised'.
- Untuk selanjutnya, akan mencetak baik nilai 'X_train_transposed' index kesatu dan juga 'jk_binarised'.

Bisa kita lihat pada hasil output data pria berubah menjadi 0 dan data wanita akan berubah menjadi 1, akan tetapi ada sebuah permasalahan yang lain. Jika dilihat pada kondisi awal, datanya terdiri dari satu dimensi saja, sedangkan setelah proses transformasi datanya berubah menjadi 2 dimensi. Oleh karena itu, perlu yang namanya proses faltten method atau function flatten dapat digunakan untuk mengkonversikan multi- dimension array menjadi single dimenssion array.

In [6]:
jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 1, 1, 1, 1, 1, 0, 0, 0])

bentuk arraynya sudah dalam satu dimensi. Langkah selanjutnya adalah nilai yang sudah dikonversikan, akan ditampung lagi kedalam 'X_train_tanspose' karena nilai pada output masih berada dalam variabel 'jk_binarised'

In [7]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[191 155 163 180 158 170 158 170 183]
 [0 1 1 1 1 1 0 0 0]]

X_train:
[[191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]
 [158 0]
 [170 0]
 [183 0]]


- 'X_train_transposed' atau index kesatu yang berkolerasi dengan 'jenis kelamin' yang nilainya akan diganti dengan nilai 'jk_binarised'.
- Lalu berikutnya, 'X_train_transposed' tersebut akan ditranspose balik, agar yang tadinya baris kembali menjadi kolom dan yang tadinya kolom akan menjadi baris lalu akan ditampung kedalam variabel 'X_train'.
- Terakhir, cetak kembali nilai 'X_train_transposed' dan nilai 'X_train'.

Jika kita perhatikan kembali, saat ini sekumpulan nilai features dan targetnya sudah siap digunakan untuk training model.

### Training KNN Regression Model



Setelah training setnya  dipersiapkan, selanjutnya lakukan proses training model dengan Machine Learning KNN.

In [8]:
from sklearn.neighbors import KNeighborsRegressor

K = 3
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

- Import estimeter classnya dengan memanggil fungsi 'from sklearn.neighbors import KNeighborsRegressor'.
- Menentukan nilai 'K' yang akan berkolerasi dengan jumlah atau banyaknya neighbors atau banyaknya tetangga yang akan digunakan untuk melakukan proses prediksi yang dalam kasus ini bernilai 3.
- Lalu selanjutnya akan membentuk objek modelnya dengan cara memanggil 'KNeighborsRegressor' dan menyertakan nilai parameter 'n_neighbors' yang diinput dengan nilai 'K' atau dengan kata lain 'n_neighbors' set sebagai 3.
- Setelah objek modelnya terbentuk, lalu berikutnya melakukan proses training model dengan memanggil 'model.fit' serta '(X_train, y_train)' sebagai parameternya.


### Prediksi Berat Badan


Setelah KNN Regressiornya sudah ditraining, tahapan selanjutnya akan menggunakan train model tersebut untuk melakukan prediksi berat badan berdasarkan data tinggi badan dan jenis kelamin.


In [9]:
X_new = np.array([[155, 1]])
X_new

array([[155,   1]])

- persiapkan terlebih dahulu data baru yang akan digunakan untuk prediksi. siapkan data baru yang dimana nilai tinggi badannya adalah 155 cm dan jenis kelaminnya wanita, disini jenis kelamin wanitanya sudah diencode menajadi nilai 1.
- Lalu berikutnya, pasangan nilai array tersebut akan dibundle menjadi suatu array 2 dimensi yang ditampung kedalam variable 'X_new'.

Setelah data tinggi badan dan jenis kelaminnya siap, selanjutnya akan lakukan prediksi berat badan dengan memanfaatkan model KNN Regressor yang sudah ditraining sebelumnya.

In [10]:
y_pred = model.predict(X_new)
y_pred

array([55.66666667])

- Memanggil fungsi 'model.predict' dengan menyertakan parameternya yaitu 'X_new'.
- Lalu hasil prediksinya ditampung kedalam variabel 'y_pred'.

Berdasarkan hasil output bisa dibilang bahwa untuk data dengan tinggi badan 155 cm dan jenis kelamin wanita, ini diprediksi model memiliki berat badan 55,6 kg.

### Evaluasi KNN Regression Model
Disini mulai mempelajari beberapa matrix yang bisa digunakan untuk mengukur performa dari model machine learning untuk kasuk regression task dengan menyiapkan testing setnya.

In [11]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


- Siapakan sekumpulan nilai features untuk testing setnya yang akan ditampung kedalam variabel 'X_test'.
- Setelah itu, Siapkan sekumpulan nilai target lalu ditampung kedalam varibel 'y_test'.

Setelah testing setnya siap, selanjutnya lakukan prediksi terhadap testing set tersebut dengan menmafaatkan model KNN Regressor yang sudah ditraining sebelumnya.

In [12]:
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

Menerapkan prediksi terhadap sekumpulan features dari 'X_test' ini dengan memanfaatkan model KNN yang sudah ditraining sebelumnya. Oleh karena itu,pemanggilan 'model.predict' lalu menyertakan parameter 'X_test' yang hasil prediksinya ditampung kedalam variabel 'y_pred'.

Berdasarkan hasil bisa dibilang bahwa data untuk tinggi 168 cm dan jenis kelamin pria, ini diprediksi memiliki berat badan 70,66, sedangkan data yang diharapkan adalah 65.

Lalu berikutnya untuk data point yang paling akhir, bahwa untuk data dengan tinggi badan 169 dan jenis kelamin wanita, ini diprediksi memiliki berat badan 70.66 sekian, sedangkan nilai yang diharapkan adalah 67.

#### Coefficient of Determination atau $R^2$

Referensi: [https://en.wikipedia.org/wiki/Coefficient_of_determination](https://en.wikipedia.org/wiki/Coefficient_of_determination)

In [12]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


#### Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)

$MAE$ is the average of the absolute values of the errors of the predictions.

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$



Diatas merupakan formula untuk MAE yang intinya MAE ini akan menghitung selisih atau error antara $yi$ dengan $\hat{y}_i$.

- $yi$ = merepresentasikan setiap nilai target pada testing set.
- $\hat{y}_i$ = merepresentasikan nilai prediksi yang dihasilkan oleh model kita.
- Disini yang dihitung adalah selisih antara $yi$ dengan $\hat{y}_i$. Proses tersebut memungkinkan untuk menghasilkan nilai positif maupun nilai negatif.
- Jika hasil prediksinya ternyata lebih kecil dari nilai yang seharusnya, maka nilainya akan menjadi positif.
- Jika hasil prediksinya ternyata lebih besar dari nilai yang seharusnya, maka nilainya akan menjadi negatif.
- Untuk menghindari nilai negatif, maka kita harus menerapkan yang namanya absolute function. Absolute function ini akan menghilangkan nilai negatif artinya semua hasilnya, baik itu negatif maupun positif akan diubah menjadi nilai positif.
- Lalu berikutnya, selisih nilai ini akan diakumulasikan atau dijumlahkan untuk berikutnya kita akan bagi dengan 'n'. 'n' merepresentasikan jumlah data pointnya.



Referensi: [https://en.wikipedia.org/wiki/Mean_absolute_error](https://en.wikipedia.org/wiki/Mean_absolute_error)

In [13]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

MAE: 8.333333333333336


- Import mean absolute error dengan memanggil function 'from sklearn.metrics import mean_absolute_error'.
- Lalu berikutnya untuk menggunakan function mean absolute error tersebut, Panggil function 'mean_absolute_error' dengan menyertakan parameter 'y_test' serta 'y_pred' yang akan ditampung kedalam variabel 'MAE'.
- Lalu tampilkan nilai'MAE' dengan function print.

Berdasarkan hasil 'MAE' nya adalah 8,33. Oleh karena disini yang dihitung nilai errornya atau selisih antara nilai prediksi dengan nilai sebenarnya, oleh karenanya semakin kecil nilai 'MAE' nya akan mengindikasikan kualitas modal yang lebih baik.

#### Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)

$MSE$ is the average of the squares of the errors of the predictions.

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$



Formula $MSE$ pada intinya sama dengan $MAE$, menghitung error artinya disini juga kita menghitung nilai selisih antara $y_i$ dengan $\hat{y}_i$.

- $y_i$ merupakan nilai target dari testing set.
- $\hat{y}_i$ merupakan nilai estimasi yang dihasilkan oleh model kita.
- Kedua nilai tersebut kita selisihkan yang dimana serupa dengan kasus sebelumnya, selisih kedua nilai terebut bisa postif dan juga bisa bernilai negatif.
- Jika ternyata nilai prediksinya lebih besar dari nilai sebenarnya, maka akan menghasilkan nilai negatif.
- Sedangkan jika nilai prediksinya lebih kecil dari nilai sebenarnya atau nilai ekspetasinya, maka akan menghasilkan nilai positif.
- Untuk menghindari nilai negatif pada $mse$, selisih nilainya akan kita pangkatkan 2.
- Lalu berikutnya, hasil pemangkata ini akan kita akumulasikan untuk kemudian kita bagi dengan 'n' yang diman 'n' merupakan jumlah untuk data pointnya.



Referensi: [https://en.wikipedia.org/wiki/Mean_squared_error](https://en.wikipedia.org/wiki/Mean_squared_error)

In [14]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

MSE: 95.8888888888889


- Import Modul dengan memanggil function 'from sklearn.metrics import mean_squared_error'.
- Lalu untuk menggunakan mean squared error caranya panggil 'mean_squared_error' dengan menyertakan parameter 'y_test' dan juga 'y_pred' lalu ditampung nilainya kedalam variabel 'MSE'.
- Tampilkan nilai 'MSE' tersebut pada layar dengan menggunakan print.

Berdasarkan output untuk $MSE$ juga sama konsepnya dengan $MAE$. Karenanya yang dihitung nilai adalah nilai error, maka tentunya makin kecil nilai $MSE$ nya akan mengindikasikan model yang makin baik.

Perlu diingat juga bahwa nilai $MSE$ akan selalu lebih besar bila dibandingkan dengan nilai $MAE$ karena setiap nilai errornya untuk $MSE$ akan selalu dipangkatkan 2.

### Permasalahan Scaling pada Features



Pada kali ini, kita akan melihat permasalahan terkait scaling pada nilai features.

Dataset yang kita gunakan pada kali ini memiliki 2 features yaitu tinggi badan dan jenis kelamin.

- Nilai tinggi badan direpresentasikan dalam satuan cm.
- Nilai jenis kelamin direpresentasikan dalam bilangan biner 0 dan 1.

Pada intinya, kita pada kali ini akan mempelajari apakah perbedaan satuan pengukuran yang tersedia akan berdampak pada konsistensi hasil kalkulasi euclidean distancenya.

Untuk memperjelas pemahaman, kita akan perkecil terlebih dahulu ukuran datasetnya menjadi 2 instances saja, selanjutkan kita akan melakukan 2 eksperimen. Pada eksperimen pertama, kita akan menggunakan milimeter sebagai satuan pengukuran tinggi badan, sedangkan untuk eksperimen kedua kita akan menggunakan meter sebagai satuan pengukurannya.


In [15]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])

[euclidean(X_new[0], d) for d in X_train]

[60.0, 40.01249804748511]

- Karena kita membutuhkan euclidean distance, maka kita akan mengimport dahulu 'from scipy.spatial.distance import euclidean'.
- Lalu berikutnya, kita akan siapkan datasetnya yaitu 'X_train' dan 'X_new'. 'X_train' akan berisi sekumpulan nilai features untuk training set, sedangkan 'X_new' akan berisi sekumpulan fetures untuk data point yang akan kita prediksi.
- Hanya saja disni kita perhatikan bahwa nilai features untuk tinggi badan direpresentasikan dalam satuan milimeter.
- Oleh karenanya disini untuk data point pertama pada training set, tinggi badannya adalah 1700 dan 1600. Sedangkan pada data point baru yang akan diprediksi, tinggi badannya adalah 1640.
- Pada kali ini nilainya akan menjadi besar karena ukuran satuannya diubah yang awalnya cm menjadi mm.
- Lalu berikutnya, kita akan mencoba menggukur jarak untuk data point yang baru ini terhadapa 2 data point pada training setnya.
- Untuk proses pengukurannya, kita akan memanfaatkan euclidean distance.

Berdasarkan hasil code 15, angka 60.0 merupakan jarak antara data point 'X_new' dengan data point pertama pada 'X_train' yaitu 1700. Sedangkan angka 40.01249804748511 merupakan jarak antara data point 'X_new' terhadap data kedua dari 'X_train' atau tranining setnya yaitu 1600.

Pada eksperimen pertama ini, terlihat jelas bahwa data point yang baru lebih dekat dengan data point kedua bila dibandingkan dengan data point pertama. Bisa kita lihat bahwa nilai jaraknya lebih pendek.

In [16]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

[0.06000000000000005, 1.0007996802557442]

- Untuk eksperimen kali ini, tinggi badannya diukur dalam satuan meter.
- Jika kita lihat untuk traning set nya bernilai 1.7 yang berarti 1,7 meter dan 1.6 yang berarti 1,6 meter untuk tinggi badannya.
- Nilai 1,7 meter setara dengan nilai 1700 milimeter, demikian juga dengan 1,6 meter setara dengan nilai 1600 milimeter.
- Lalu untuk data point yang baru, disini tinggi badannya adalah 1.64 meter yang setara dengan 1640 milimeter. Disini kita yakin bahwa kedua dataset ini merupakan dataset yang sebenarnya identik, hanya saja direpresentasikan dengan ukuran yang berbeda.
- Berikutnya, kita akan coba mengukur jarak antara data point baru ('X_new') dengan kedua nilai data point pada training setnya.
- Pada kali ini juga kita akan memanfaatkan euclidean distance.

Berdasarkan hasil output bahwa hasil 0.06000000000000005 tersebut merupakan antara data point yang baru 'X_new' dengan data point pertama pada pertama pada 'X_train'. Lalu hasil 1.0007996802557442 merupakan jarak antara yang baru 'X_new' dengan data point kedua pada 'X_train'.

Pada eksperimen kali ini, bisa nampak bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

### Menerapkan Standard Scaler (Standard Score atau Z-Score)

Standardize features by removing the mean and scaling to unit variance.


$z = \frac{x - \bar{x}}{S}$

Diatas merupakan formula yang kita gunakan untuk mencari nilai z-score, yang memiliki beberap komponen sebagai berikut :

- $x$ : merepresentasikan nilai features.
- $\bar{x}$ : merepresentasikan rata-rata nilai features.
- $S$ : merepresentasikan nilai standard deviation dari sekumpulan nilai features.
- $z$ : merepresentasikan nilai z-score.


Referensi: [https://en.wikipedia.org/wiki/Standard_score](https://en.wikipedia.org/wiki/Standard_score)

In [17]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [18]:
# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2, 2.1540659228538015]


- Nilai feature untuk tinggi badan direprsentasikan dalam satuan mm.
- Yang berbeda dengan eksperimen sebelumnya adalah setelah nilai features atau X_train nya dibentuk, berikutnya kita akan mengenakan standard scaler ini pada nilai X_train nya.
- panggil objek standar scalernnya ('ss') lalu kita panggil ('.fit_transform') yang kita kenakan pada 'X_train' yang hasilnya kita tampung ke dalam variabel 'X_train_scaled' lalu kita cetak dengan print.
- Demikian juga untuk 'X_new' nya yang akan kita kenakan proses transformasi. Hanya saja disini untuk proses transformasinya, kita langsung memanggil function transformnya bukan fit_transform karena proses fit nya akan kita kenakan pada 'X_train' tetapi proses transformnya akan kita kenakan baik pada 'X_train' maupun pada 'X_new' yang akan kita tampung kedalam variabel 'X_new_scaled'.
- Lalu kita tampilkan ke layar.
- Berikutnya kita akan hitung jaraknya dengan menggunakan euclidean distances, yang kita hitung jaraknya disini adalah nilai 'X_new_scaled' dengan nilai 'X_train_scaled'.

Bisa kita lihat bahwa nilai-nilai pada hasil output tersebut sudah tidak lagi menggunakan satuan cm atau mm maupun m, melainkan satuannya sudah menggunakan satuan standard score atau $z$-score. Jika kita perhatikan pada hasil 'jarak' 1,2 yaitu merupakan jarak antara 'X_new_scaled' dengan X_train_scaled' untuk data point yang pertama, sedangkan jarak 2.1540659228538015 merupakan jarak antara 'X_new_scaled' dengan data point kedua pada 'X_train_scaled'.

Pada hasil output eksperimen tersebut terlihat dengan jelas bahwa data point yang baru lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

In [19]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2000000000000026, 2.1540659228538006]


- Selanjutnya kita akan melakukan eksperimen kedua dengan memanfaatkan dataset yang sama. Hanya saja kita akan menggunakan meter sebagai satuan pengukuran untuk tinggi badan.
- Disini sekumpulan nilai features nya sama, namun yang berbeda adalah satuan pengukurannya saja dalam kasus ini adalah meter (m).
- Tetapi sebelum kita menghitung jaraknya dengan menggunakan euclidean distance, nilai-nilai fetaures tersebut kita akan scaling terlebih dahulu dengan memanfaatkan standar scaler.
- Disini untuk 'X_train' nya kita panggil terlebih dahulu function 'fit_transform(X_train)' yang hasilnya akan kita tampung kedalam variabel 'X_train_scaled'.
- Lalu berikutnya untuk 'X_new', kita tinggal memanggil saja function 'ss.transform' dengan menyertakan paremeter pada 'X_new' nya lalu hasilnya kita tampung kedalam variabel 'X_new_scaled'.
- Berikutnya, kita akan menghitung jaraknya. Untuk perhitungan jaraknya, disini juga sama kita akan menggunakan euclidean distance.

Berdasarkan hasil nilai di atas mendapatkan nilai 'X_train_scaled', 'X_new_scaled' serta 'jarak'. Eksperimen ini menghasilkan jarak yang sama atau setidaknya sangat mendekati dengan nilai jarak pada eksperimen pertama, disini juga bisa dilihat bahwa data point baru juga lebih dekat dengan data point pertama bila dibandingkan dengan data point kedua.

### Menerapkan Features Scaling pada KNN


Pada kali ini, kita akan ulangi kembali proses training dan evaluasi model KNN yang pernah kita lakukan sebelumnya, tetapi pada kali ini kita akan menerapkan features scaling.

Untuk kasus dibawah, features scaling yang akan kita terapkan adalah standard scaler. Kita akan melihat bagaiman features scaling ini berpotensi dalam meningkatkan performa dari model KNN.

#### Dataset

In [20]:
# Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

# Test Set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

- Siapkan training setnya dengan menyiapkan 'X_train' untuk menampung sekumpulan nilai features untuk training set dan 'y_train' untuk menampung sekumpulan nilai target untuk training setnya.
- Selain itu untuk keperluan evaluasi, akan diperisiapkan 'X_test' dan 'y_test'.

### Features Scaling (Standard Scaler)

Yang berbeda disini adalah setelah training dan testing set nya tersedia, kita tidak langsung melakukan proses training model, tetapi kita akan menscaling feturesnya terlebih dahulu.

In [21]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



- Panggil function 'ss.fit_transform' yang diterapkan pada 'X_train', lalu hasil scalingnya ditampung kedalam variabel 'X_train_scaled'.
- Demikian juga untuk 'X_test' nya, Panggil function 'ss.transform' dengan menyertakan parameter 'X_test' lalu hasil scalingnya akan  ditampung kedalam variabel 'X_test_scaled'.

### Training & Evaluasi Model
Setelah nilai featuresnya discaling, tahapan berikutnya lakukan proses training model.

In [22]:
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893


- Panggil function 'model.fit' dengan menyertakan parameter 'X_train_scaled' dan 'y_train'. features yang telah dilewatkan adalah features yang sudah discaling.
- Lalu setelah modelnya kita training, train model atau model yang sudah kita training ini akan kita gunakan untuk melakukan prediksi dengan memanggil function 'model.predict' dengan menyertakan parameter '(X_test_scaled)' yang hasilnya akan kita tampung kedalam variabel 'y_pred'.
- Selanjutnya, kita akan hitung nilai errornya. Pada kali ini, nilai error yang akan kita hitung adalah baik MAE maupun MSE nya. Untuk MAE, kita tinggal memanggil function 'mean_absolute_error' dengan menyertakan parameter 'y_test' dan 'y_pred'.
- Sedangkan untuk MSE, kita akan memangggil function 'mean_squared_error' dengan menyertakan kembali 'y_test' maupun 'y_pred' nya sebagai parameter.

Berdasarkan hasil scaling pada output hasilnya lebih baik setelah kita menerapkan fetures scaling yakni hasilnya menjadi lebih kecil atau dengan kata lain, kita bisa menghasilkan model dengan kualitas atau performa yang lebih baik setelah kita menerapkan features scaling.