# Scikit Learn 07: Regression dengan KNN

KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

In [1]:
#sample dataset panads DataFrame berat badan dan jenis kelamin dari partisipan
import pandas as pd

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk': ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
          'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


Regression dengan KNN/estimasi nilai

In [2]:
#Feaures & Target
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'jk']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')
#tinggi badan berperan sebagai features
#berat badan berperan sebagai target
#KNN melakukan prediksi dari jarak tetangga terdekat ditentukan berdasarkan kalkulasi jarak Euclidience Distance nya.
#yang diprediksi merupakan nilai continuous bukan kategori maka kasus ini termasuk regression task. KNN menghitung jarak antar numeriknya oleh karena itu pdataset perlu diubah menjadi numerik.

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


Preprocess dataset: konversi label menjadi numerik biner

In [3]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')
#proses transpose mengubah posisi baris menjadi kolom dan sebaliknya. Baris mengindikasikan instance dan kolom mengindikasikan feature

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


In [4]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])#mengubah x_train yang tertranspose menjadi nilai biner

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


In [5]:
jk_binarised = jk_binarised.flatten()#mengubah multi dimentional array menjadi single dimention array
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

In [6]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


In [7]:
#Training KNN regression model
from sklearn.neighbors import KNeighborsRegressor

K = 3#jumlah banyaknya tetangga yang akan digunakan untuk proses prediksi
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)
#model machine learning yang digunakan untuk regression task disebut Regressor

Prediksi berat badan dengan model yang sudah ditrain

In [8]:
#data baru untuk prediksi
X_new = np.array([[155, 1]])#tinggi 155, jenis kelamin wanita
X_new

array([[155,   1]])

In [9]:
y_pred = model.predict(X_new)
y_pred
#hasil prediksi untuk tinggi badan wanita 155cm berat badannya 55.66666667 kg

array([55.66666667])

Evaluasi KNN regression model

In [10]:
#mempersiapkan testing set, terdiri dari beberapa contoh ajuan untuk diprediksi
#X_test:feature,y_test:target
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


In [11]:
#prediksi testing set dengan model KNN Regressor yang telah ditrain
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

Metrik evaluasi: Coefficient of Determiation atay $R^2$

In [13]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)#nilai evaluasi. Semakin baik jika besar r square menuju nilai satu, jika menauh dari satu tidak baik.

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


Mean absolute error (MAE) atau Mean absolute deviation (MAD) <br>
MAE adalah rata-rata dari nilai absolut dari prediksi error<br>
$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$<br>
n: jumlah data point<br>
$y_i$: nilai target<br>
$\hat{y_i}$: nilai prediksi<br><br>
Jika hasil prediksi lebih kecil daripada yang seharusnya, sebaliknya akan bernilai negatif.<br>
Absolute function ($|y_i - \hat{y}_i|$) untuk mencegah munculnya hasil nilai negatif, semua nilai negatif akan menjadi positif.<br>
Jumlah selisih nilai absolute function akan diakumulasikan dan dibagi dengan n.

In [15]:
#mean absolute error
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')
#makin kecil MAE berarti model makin baik

MAE: 8.333333333333336


Mean squared error (MSE) atau Mean squared devision (MSD)<br>
MSE adalah rata-rata dari error kuadrat untuk prediksi<br>
$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$<br>
n: jumlah data point<br>
$y_i$: nilai target<br>
$\hat{y_i}$: hasil estimasi nilai prediksi<br><br>
Jika hasil prediksi lebih kecil daripada yang seharusnya, sebaliknya akan bernilai negatif.<br>
Untuk mencegah hasil bernilai negatif, dilakukan pemangkatan: $(y_i - \hat{y_i})^2$, lalu diakumulasikan dan dibagi dengan n.

In [17]:
#Mean square error
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')
#makin kecil MAE berarti model makin baik
#Nilai MSE lebih besar daripada nilai MAE karena peangkatan 2

MSE: 95.8888888888889


Permasalahan scalling pada features<br>
Pengaruh perbedaan satuan pengukuran terhadap hasil konsistensi Euclidience Distance

In [18]:
from scipy.spatial.distance import euclidean

#Eksperimen pengukuran tinggi badan dalam satuan milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])

[euclidean(X_new[0], d) for d in X_train]
#hasil merupakan selisih jarak antara training set lama dan baru

[60.0, 40.01249804748511]

In [19]:
#Eksperimen pengukuran tinggi badan dalam satuan meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]
#hasil merupakan selisih jarak antara training set lama dan baru. Dengan pengukuran satuan lain hasil yang didapati tidak konsisten

[0.06000000000000005, 1.0007996802557442]

Metode untuk mengatasi ketidakkosisten-an hasil jarak Euclediean Distance: Standard Scaler (Standard score atau z-score)<br>
Menstandarisasi feature dengan menghapus rata-rata dan scalling pada unit variance<br>
$z = \frac{x - \bar{x}}{S}$<br>
x: nilai feature<br>
$\bar{x}$: rata-rata nilai feature<br>
S: standard deviation nilai feature

In [20]:
#Mengimport class Standard scaler 
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [21]:
#Eksperimen pengukuran tinggi badan dalam satuan milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train)#Stanard scaler
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new)#X_new ditransform bukan fit karena diberlakukan pada X_train dan X_new
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]#menghitung jarak menggunakan Eucliadean Distance X_new_scaled dan X_train_scaled
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2, 2.1540659228538015]


In [22]:
#Eksperimen pengukuran tinggi badan dalam satuan meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2000000000000026, 2.1540659228538006]


Menerapkan features scaling pada KNN: Standard scaler<br>
Potensi feature scaling untuk meningkatkan performa dari model KNN

In [23]:
#Dataset
#Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

#Test Set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

In [25]:
#Features scaling (Standard scaler)
X_train_scaled = ss.fit_transform(X_train)#X_train yang sudah di-scaling
X_test_scaled = ss.transform(X_test)#X_test yang sudah di-scaling

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



In [26]:
#Training dan evalusasi model
model.fit(X_train_scaled, y_train)#gunakan X_train yang sudah di-scaling
y_pred = model.predict(X_test_scaled)#Menghitung perdiksi dari X_test_scaled

MAE = mean_absolute_error(y_test, y_pred)#menghitung nilai MAE
MSE = mean_squared_error(y_test, y_pred)#menghitung nilai MSE

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')
#hasil MAE dan MSE lebih kecil dari sebelum dilakukan feature scaling, dapat menghasilkan model dengan performa yang lebih baik setelah menerapkan feature scaling.

MAE: 7.583333333333336
MSE: 85.13888888888893
