Regression dengan KNN (K Nearest Neighbour)

Sample Dataset

In [1]:
import pandas as pd

sensus = {'tinggi' : [158, 170, 183, 191, 155, 163, 180, 158, 170],
         'jk' : ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
         'berat' : [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


Import module pandas dengan memanggil import pandas as pd. Kemudian dilanjutkan dengan menyiapkan dictionary yang akan terdiri dari 3 buah case yaitu tinggi, jk, dan berat. Tinggi akan berasosiasi dengan tinggi badan, jk akan berasosiasi dengan jenis kelamin yang terdiri dari dua string (pria dan wanita), dan berat akan berasosiasi dengan sekumpulan nilai berat badan. Dictionary tersenjt ditampung dalam sebuab variabel yang bernama sensus yang akan digunakan untuk pandas dataframe. Objek yang terbentuk pada data frame akan ditampung pada variable sensus_df. Tinggi badan dan jenis kelamin dalam kasus ini akan berperan sebagai features dan berat badan sebagai target. 

*Regression dengan KKN*

Mengestimasi nilai berat badan (mengikuti kasus yang ada)

Features dan Target

In [2]:
import numpy as np 

X_train = np.array(sensus_df[['tinggi', 'jk']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


Dalam kasus ini tinggi badan dan jenis kelamin akan menggunakan numpy array yang ditampung dalam variabel X_train sebagai sekumpulan features untuk training set. Data berat badan menggunakan numpy array juga dengan menggunakan variabel y_train sebagai sekumpulan nilai target untuk training set.

*Preprocess Dataset: Konverdi Label menjadi Numerik Biner*

In [3]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


Melakukan proses transpose terlebih dahulu terhadap X_train. Transpose merupakan proses yang merubah posisi baris menjadi kolom dan posisi kolom menjadi baris. Hasil transpose akan ditampung pada X_train_transposed

In [4]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


Label Binarizer untuk mengkonversikan nilai pria dan wanita dalam kasus ini menjadi 0 dan 1. Caranya dengan melakukan import label binarizer yang berikutnya membuat objek binarizer yang ditampung dalam variabel lb. Proses selanjutnya adalah proses transform jenis kelaminnya dengan memanggil lb.fit_transform(X_train_transposer[1]). [1] merupakan index kesatu di mana pada hasil sebelumnya index ke 0 adalah tinggj badan dan index kesatu merupakan jenis kelamin. Hasil transform ditampung dalam variabel jk_binarised.

In [5]:
jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

Flatten adalah methode yang dapat digunakan untuk mengkonversikan array multi dimensi menjadi array dimensi tunggal.

In [6]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

#Proses transform mengembalikan posisi baris dan kolom .

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


*Training KKN Regression Model*

Import KNeighborsRegressor yang kemudian menggunakan nilai K=3 dan selanjutnya akan memanggil objek model yang selanjutnya memanggil model.fit yang disertakan oleh parameternya.

Prediksi Berat Badan

In [8]:
X_new = np.array([[155, 1]])
X_new

array([[155,   1]])

Menggunakan data baru, yaitu tinggi nadan 155 dan jenis kelaminnya wanita. Nilai features tersebut disatukan menjadi nilai array 2 dimensi yang ditampung dalam variabel X_new.

In [9]:
y_pred = model.predict(X_new)
y_pred

#Memanggil model.predict yang berasal dari data yang sudah dibuat sebelumnya.

array([55.66666667])

*Evaluasi KNN Regression Model*

In [10]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


Testing set dalam kasus terdiri dari 4 point. Pertama-tama harus menyiapkan testing set untuk nilai featuresnya untuk kemudian ditampung ke dalam variabel X_test. Kemudian sekumpulan nilai target ditampung ke dalam variabel y_test.

In [11]:
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

Setelah melakukan testing set, langkah selanjutnya adalah melakukan prediksi dengan memanfaatkan model KNN Regression yang sudah ditraining sebelumnya, yaitu dengan memanggil X_test yang hasilnya akan ditampung dalam variabel y_pred.

*Coefficient of Determination atau R²*

In [12]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


Langkah pertama adalah dengan mengimport metrics r2_score kemudian langkah selanjutnya adalah dengan memanggil r2_score yang disertai oleh parameternya, yaitu y_test, y_pred yang ditampung dalam variabel r_squared. Nilai r2_square bila mendekati 1 dapat dinilai baik dan sebaliknya.

*Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)*
Merupakan nilai absolute error dari nilai rata-rata dan prediksi.

![rumus13.svg](attachment:rumus13.svg)

$yi$ = merepresentasikan setiap nilai target pada testing set.

$\hat{y}_i$ = merepresentasikan nilai prediksi yang dihasilkan oleh model kita.

Disini yang dihitung adalah selisih antara $yi$ dengan $\hat{y}_i$. Proses tersebut memungkinkan untuk menghasilkan nilai positif maupun nilai negatif.
Jika hasil prediksinya ternyata lebih kecil dari nilai yang seharusnya, maka nilainya akan menjadi positif.
Jika hasil prediksinya ternyata lebih besar dari nilai yang seharusnya, maka nilainya akan menjadi negatif.
Untuk menghindari nilai negatif, maka kita harus menerapkan yang namanya absolute function. Absolute function ini akan menghilangkan nilai negatif artinya semua hasilnya, baik itu negatif maupun positif akan diubah menjadi nilai positif.
Lalu berikutnya, selisih nilai ini akan diakumulasikan atau dijumlahkan untuk berikutnya kita akan bagi dengan 'n'. 'n' merepresentasikan jumlah data pointnya.

In [13]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE : {MAE}')

MAE : 8.333333333333336


Langkah pertama adalah dengan mengimport mean_absolute_error. Cara menggunakan mean_absolute_error ini cukup mudah dengan memanggil mean_absolute_error dengan menyertakan pramaternya, yaitu (y_test, y_pred). Nilai absolute error akan ditampunh pada variabel MAE. Semakin kecil nilai MAE nya akan semakin mengindikasikan nilai model yang lebih baik.

*Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)*
MSE merupakan rata-rata dari error kuadrat untuk prediksi.

![rumus14.svg](attachment:rumus14.svg)

$y_i$ merupakan nilai target dari testing set.

$\hat{y}_i$ merupakan nilai estimasi yang dihasilkan oleh model kita.

Kedua nilai tersebut kita selisihkan yang dimana serupa dengan kasus sebelumnya, selisih kedua nilai terebut bisa postif dan juga bisa bernilai negatif.
Jika ternyata nilai prediksinya lebih besar dari nilai sebenarnya, maka akan menghasilkan nilai negatif.
Sedangkan jika nilai prediksinya lebih kecil dari nilai sebenarnya atau nilai ekspetasinya, maka akan menghasilkan nilai positif.
Untuk menghindari nilai negatif pada $mse$, selisih nilainya akan kita pangkatkan 2.
Lalu berikutnya, hasil pemangkata ini akan kita akumulasikan untuk kemudian kita bagi dengan 'n' yang diman 'n' merupakan jumlah untuk data pointnya.

In [14]:

from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE : {MSE}')

MSE : 95.8888888888889


Langkah pertama adalah dengan mengimport mean_squared_error, kemudian mean_squared_error ini memiliki 2 parameter, yaitu y_test dan y_pred untum kemudian ditampung ke dalam variabel MSE. Semakin kecil nilai MSE akan mengindikasikan nilai model yang lebih baik. Nilai MSE akan selalu lebih besar dari nilai MAE karena setiap nilai error dari MSE akan selalu dipangkatkan 2.

*Permasalahan Scaling pada Features*
Dalam kasus ini memiliki 2 features, yaitu tinggi badan dan jenis kelamin. Nilai tinggi badan direpresentasikan dalam satuan mm, sedangkan nilai jenis kelamin direpresentasikan dengan bilangan biner 0 dan 1. Nilai tinggi badan dapat direpresentasikan dengan mm dan m.

In [15]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])

[euclidean(X_new[0], d) for d in X_train]

[60.0, 40.01249804748511]

Langkah pertama adalah mengimport euclidean. Kemudian membuat 2 variabel yang akan menampung data, yaitu variabel X_train dan X_new. X_train berisi nilai features untuk training set, sedangkan X_new berisi sekumlulan nilai features untuk data point yang akan diprediksi. Enclidean digunakaj untuk proses mengukur jarak antara data point dengan training set. Hasil yang pertama merupakan jarak antara data point baru dengan data jarak oada training set. Hasil yang kedua merupakan jarak anatara data point baru dengan data kedja dari trainning set. Data point yang barublebih dekat dengan data point yang kedua dibandingkan dengan data point pertama.

In [16]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

[0.06000000000000005, 1.0007996802557442]

Tinggi badan diukur dalam satuan meter. Methode yang sama dengan tinggi badan yang menggunakan satuan mm. Perbedaannya adalah hasil dari data point yang pertama lebih dekat dengan data point yang baru. 

*Menerapkan Standard Scaler (Standard Score atau Z-Score)*

![rumus15.svg](attachment:rumus15.svg)

$x$ : merepresentasikan nilai features.

$\bar{x}$ : merepresentasikan rata-rata nilai features.

$S$ : merepresentasikan nilai standard deviation dari sekumpulan nilai features.

$z$ : merepresentasikan nilai z-score.

In [17]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

Langkah pertama adalah dengan mengimport class StandardScaler yang kemudian dibentuk objek dengan menampung objeknya dalam variabel ss.

In [18]:
# Tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')


jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak : {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak : [1.2, 2.1540659228538015]


Dengan menampung np.array yang di dalamya berisi tinggi badan dengan satuan milimeter dan juga jenis kelamin ke dalam variabel X_train yang kemudian ditransform dengan menggunakan variabel X_train_scaled. X_new juga akan dilakukan X_new yang hasilnya akan ditampung kedalam variabel X_new_scaled yang kemudian dihitung ke dalam jarak X_nee_scaled dengan nilai X_train_scaled. Hasilnya adalah tidak lagi menggunakan satuan mm atau cm, tetapi sudah menjadi satuan standard score atau Z-Score. Data point yang baru lebih dekat dengan data point yang pertama.

In [19]:
# Tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled : {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'Jarak : {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]
X_new_scaled : [[-0.2 -1. ]]

Jarak : [1.2000000000000026, 2.1540659228538006]


Semua langkah untuk menghitung sama dengan eksperimen sebelimnya yang menggunakan satuan mili meter. Perbedaannya hanya disatuan pengukur yang menggunakan meter. Nilai jarak yang dihasilkan sama dengan nilai jarak pada satuan yang sudah diubah menjadi Z-Score lada eksperimen sebelumnya. 

*Menerapkan Features Scaling pada KKN*

Dataset 

In [20]:
#Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163,1],
                   [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

# Test set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169,1]])
y_test = np.array([65, 96, 52, 67])

Pada training set disediakan X_train untuk menampung sekumpulan nilai features dan juga sekumpulan nilai target. Sedangkan pada Test set berisi sekumpulan nilai y_test features dan juga y_test terget.

*Features Scaling (Standaed Scaler)*

In [21]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



Langkah pertama adalah memanggil ss.fit_transform(X_train) yang kemudian ditampung pada variabel X_train_scaled. Kemudian juga memanggil ss.transform(X_test) yang ditampung pada variabek X_test_scaled.

*Training dan Evaluasi Model*

In [22]:
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893


Objek modelnhya ditraining dengan menyertakan model.fit(X_train_scaled, y_train) sebagai parameternya. Setelah dilakukan training set, kemudian akan dilakukan prediksi dengan memanggil model.predict dan menyertakan (X_test_scaled) yang akan ditampung dalam variabel y_pred. Setelah itu akan dihitung nilai errornya dengan memanggil mean_absolute_errir(y_test, y_pred) yang ditampung pada variabel MAE. Sedangkan untum menghitung MSE caranya adalah dengan memanggil mean_squared_error(y_test, y_pred) yang ditampung dalam variabel MSE. Hasil dari MAE dan MSE dengan menggunakan features scalinh lebih baik dibandingkan dengan tidak menggunakannya karena hasik MSE dan MAE jauh lebih kecil dibandingkan sebelumnya.

*SUMBER :  https://www.youtube.com/watch?v=W8adIcfv16M*