# REGRESSION dengan KNN (K Nearest Neighbours)

Sumber : 
- https://www.youtube.com/watch?v=W8adIcfv16M&ab_channel=IndonesiaBelajar

- KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression task 
- Regression dengan KNN berguna untuk melakukan estimasi nilai, dimana pada kasus ini adalah estimasi nilai berat badan 

## SAMPLE DATASET

Kita akan menggunakan sample dataset sebelumnya yaitu pada classification dengan KNN. Disini terdapat variable 'sensus' yang terdiri dari data-data tinggi, gender/jenis kelamin dan berat badan. Kemudian variable 'sensus' ini menjadi dasar pembentukan pandas dataframe. Objek dataframe ini akan ditampung ke dalam variable 'sensus_df'. Dalam sesi ini kita akan membentuk machine learning sederhana yang dapat digunakan untuk memprediksi berat badan seseorang berdasarkan tinggi dan jenis kelaminnya. Tinggi dan gender akan berperan sebagai features, dan berat akan berperan sebagai target.

In [26]:
import pandas as pd

sensus = {'tinggi':[158,170,183,191,155,163,180,158,170],
         'gender': ['pria','pria','pria','pria','wanita','wanita','wanita','wanita','wanita'],
         'berat': [64,86,84,80,49,59,67,54,67]}
sensus_df=pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,gender,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


## FEATURES & TARGET

Pada tahap ini kita akan mentraining model dan mengumpulkan sekumpulan nilai features dan nilai target. Data tinggi dan gender akan dikonversikan menjadi numpy array dan akan ditampung dalam variable 'X_train' sebagai sekumpulan features. Kemudian untuk data berat badan akan dikonversikan ke dalam numpy array dan akan ditampung ke dalam variabel 'y_train' sebagai sekumpulan nilai target. 

In [27]:
import numpy as np

X_train = np.array(sensus_df[['tinggi','gender']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train:{y_train}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train:[64 86 84 80 49 59 67 54 67]


## PREPROCESS DATASET : KONVERSI LABEL menjadi NUMERIK BINER

Pada tahap ini kita akan demokan tahapan preprocessing untuk mengkonversi nilai pria dan wanita menjadi numerik biner dan satu. 
- Melakukan transpose pada 'X_train', transpose ini berguna untuk mengubah posisi baris menjadi kolom, dan posisi kolom menjadi baris. Kolom pertama adalah merupakan data tinggi dan kolom kedua adalah gender, kemudian kita akan mengubah bentuk kolom ini menjadi baris.
- Pada output terdapat perubahan antara X_train sebelumnya dan X_train_tranposed.

In [28]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


Kita menggunakan Label Binarizer untuk mengkonversi nilai pria dan wanita menjadi 0 dan 1.Pada output dapat terlihat pada variable 'jk_binarised' bahwa pria sudah berubah menjadi nilai 0 dan wanita sudah berubah menjadi nilai 1. 

In [29]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk:{X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk:['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


Kemudian langkah selanjutnya adalah memflattenkan variable 'jk_binarised' agar menjadi 1 dimensi

In [30]:
jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

In [31]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


## TRAINING KKN REGRESSION MODEL

Setelah training setnya sudah disiapkan, maka pada tahap ini adalah melakukan training model dengan menggunakan KNN. 
- Mengimport KneighborsRegressor
- Kemudian menentukan nilai K yang berkolerasi dengan banyaknya tetangga yang akan digunakan untuk melakukan proses prediksi, dimana K = 3.
- Membentuk objek model
- Selanjutnya adalah melakukan training model

In [32]:
from sklearn.neighbors import KNeighborsRegressor

K = 3
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

## PREDIKSI BERAT BADAN

Setelah KNN regressor ditraining maka kita akan menggunakan trained model tersebut untuk memprediksi nilai berat badan berdasarkan data tinggi dan jenis kelamin. 
- Menyiapkan data baru dimana tinggi badannya adalah 155 dan gendernya adalah wanita, kemudian dikonversi menjadi array 2 dimensi yang ditampung kedalam variable 'X_new'
- Kemudian lakukan prediksi berat badan dengan menggunakan KNN regressor yang telah ditraining sebelumnya, dengan memanggil model.predict dimana parameternya adalah 'X_new'


In [33]:
X_new = np.array([[155,1]])
X_new

array([[155,   1]])

In [34]:
y_pred = model.predict(X_new)
y_pred

array([55.66666667])

## EVALUASI KNN REGRESSION MODEL 

- Pada tahap ini kita menyiapkan testing setnya yang terdiri dari 4 data point. 4 data point ini merupakan sekumpulan data features yang di tampung dalam variable 'X_test'. Kemudian menyiapkan data target yang ditampung dalam variable 'y_pred' untuk testing set.

In [35]:
X_test = np.array([[168,0],[180,0],[160,0],[169,1]])
y_test = np.array([65,96,52,67])

print(f'X_test:\n{X_test}\n')
print(f'y_test:{y_test}')

X_test:
[[168   0]
 [180   0]
 [160   0]
 [169   1]]

y_test:[65 96 52 67]


Melakukan prediksi pada X_test yang hasil prediksinya ditampung dalam variable 'y_pred'

In [36]:
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

## COEFFICIENT of DETERMINATION 

Tahapan menggunakan R square semakin mendekati 1 maka akan semakin baik, jika mendekati 0 berarti model akan semakin buruk.

In [37]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


## MEAN ABSOLUTE ERROR (MAE) atau MEAN ABSOLUTE DEVIATION (MAD)

MAE adalah nilai rata-rata dari absolute error dari prediksi. 

In [38]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test,y_pred)

print(f'MAE:{MAE}')

MAE:8.333333333333336


## MEAN SQUARED ERROR (MSE) atau MEAN SQUARED DEVIATION (MSD)

MSE adalah nilai rata-rata dari error kuadrat untuk prediksi

In [39]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test,y_pred)

print(f'MSE: {MSE}')

MSE: 95.8888888888889


## PERMASALAHAN SCALLING pada FEATURES

Dataset memiliki 2 features yaitu tinggi badan dan jenis kelamin. Tinggi badan direpresentasikan dalam cm dan jenis kelamin direpresentasikan dalam bentuk bilangan biner yaitu 1 dan 0. Pada tahap ini kita akan belajar apakah perbedaan satuan pengukuran ini akan berdampak pada konsistensi hasil euclidean distancenya. 

EKSPERIMENT 1 : MENGGUNAKAN MILIMETER
- menyiapkan dataset yaitu X_train yang berisi sekumpulan nilai features untuk training set dan X_new sekumpulan nilai features untuk data point yang akan diprediksi. Tinggi badannya dalam milimeter
- Kemudian menggunakan euclidean untuk mengukur jarak pada data point yang baru terhadap 2 data point pada training setnya.

In [40]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700,0],[1600,1]])
X_new = np.array([[1640,0]])

[euclidean(X_new[0],d) for d in X_train]

[60.0, 40.01249804748511]

EKSPERIMENT 2 : MENGGUNAKAN METER 
- Tinggi badannya dalam meter.

In [41]:
# tinggi dalam meter
X_train = np.array([[1.7,0],[1.6,1]])
X_new = np.array([[1.64,0]])

[euclidean(X_new[0],d) for d in X_train]

[0.06000000000000005, 1.0007996802557444]

## MENERAPKAN STANDARD SCALER (STANDARD SCORE atau Z-SCORE)

Z-score adalah standarisasi fitur dengan menghilangkan mean dan menskalakan ke unit varians

In [42]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [43]:
# tinggi dalam milimeter
X_train = np.array([[1700,0],[1600,1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640,0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0],d) for d in X_train_scaled]
print(f'jarak:{jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak:[1.2, 2.154065922853802]


In [44]:
# tinggi dalam meter
X_train = np.array([[1.7,0],[1.6,1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64,0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0],d) for d in X_train_scaled]
print(f'jarak:{jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak:[1.2000000000000026, 2.1540659228538006]


## MENERAPKAN FEATURES SCALLING PADA KNN

### Dataset

In [45]:
# Training Set
X_train = np.array([[158,0],[170,0],[183,0],[191,0],[155,1],[163,1],
                    [180,1],[158,1],[170,1]])

y_train = np.array([64,86,84,80,49,59,67,54,67])

# Test Set
X_test = np.array([[168,0],[180,0],[160,1],[169,1]])
y_test = np.array([65,96,52,67])

### Features Scalling (Standard Scaler)

In [46]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



### Training & Evaluasi Model 

In [47]:
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test,y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893
