# Regression dengan KNN (K Nearest Neighbours)

- KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Referensi: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

## Sample Dataset

In [1]:
import pandas as pd

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk': ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
          'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


- Dictionary menampung 3 keys yaitu : 'tinggi', 'jk', 'berat'
- 'tinggi' akan berasosiasi dengan nilai tinggi badan
- 'jk' akan berasosiasi dengan daftar jenis kelamin
- 'berat' akan berasosiasi dengan sekumpulan nilai berat badan
- sensus merupakan variabel yang menampung dictionary
- pd.DataFrame(sensus) untuk membentuk dictionary sensus menjadi pandas data frame
- objek dataframe ditampung dalam variabel sensus_df
- data tinggi dan jenis kelamin berperan sebagai features
- data berat badan berperan sebagai target

## Regression dengan KNN

### Features & Target

In [2]:
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'jk']])
y_train = np.array(sensus_df['berat'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


- tinggi badan dan jenis kelamin di set kedalam np.array dan ditampung dalam variabel x_train sebagai features untuk training set
- berat badan di set ke dalam np.array dan ditampung dalam variabel y_train sebagai target untuk training set
- nilai features sudah termasuk format array dua dimensi dan tipe data numerik

### Preprocess Dataset: Konversi Label menjadi Numerik Biner

In [3]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


- Proses transpose mengubah posisi baris menjadi kolom,dan mengubah posisi kolom menjadi baris
- Posisi baris mengindikasikan instance
- Posisi kolom mengindikasikan feature
- X_train akan dikenakan proses transpose, dan hasil transpose akan ditampung dalam variabel X_train_transposed
- Pada X_train_transposed terdiri dari dua baris
- Baris pertama berkorelasi dengan nilai feature
- Baris kedua merepresentasikan nilai untuk jenis kelamin

In [4]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1])

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


- variabel lb menampung objek LabelBinarizer
- lb.fit_transform(X_train_transposed[1]) agar tranposed LabelBinarizer diterapkan pada jenis kelamin
- variabel jk_binarised menampung hasil tranform
- Data pria adalah 0
- Data wanita adalah 1

In [5]:
jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

- method flatten untuk mengkonversikan array multi dimensi menjadi array dimensi tunggal

In [6]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


- X_train_transposed akan di tranpose kembali agar yang tadi baris menjadi kolom, dan yang tadi kolom menjadi baris
- Hasil tranpose akan ditampung pada variable X_train

### Training KNN Regression Model

In [7]:
from sklearn.neighbors import KNeighborsRegressor

K = 3
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

- KNeighborsRegressor dipakai karena kita akan menggunakan KNN untuk regression
- nilai parameter K digunakan untuk menentukan jumlah tetangga terdekat yang akan dilibatkan untuk proses prediksi
- model.fit(X_train, y_train) digunakan sebagai method training

### Prediksi Berat Badan

In [8]:
X_new = np.array([[155, 1]])
X_new

array([[155,   1]])

- Prediksi berat badan berdasarkan data tinggi badan dan jenis kelamin
- Tinggi badan 155 cm
- Jenis kelamin wanita / 1
- [[155,   1]] merupakan nilai feature yang akan di prediksi

In [9]:
y_pred = model.predict(X_new)
y_pred

array([55.66666667])

- model.predict digunakan untuk melakukan prediksi

### Evaluasi KNN Regression Model

In [10]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


- testing set terdiri dari 4 data point
- variabel X_test untuk menampung sekumpulan nilai features
- variabel y_test untuk menampung sekumpulan nilai target

In [11]:
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

- untuk data dengan tinggi badan 168 dan jenis kelamin pria diprediksi memiliki berat badan 70.66666667, sedangkan data yang diharapkan adalah 65
- untuk data dengan tinggi badan 180 dan jenis kelamin pria diprediksi memiliki berat badan 79, sedangkan data yang diharapkan adalah 96
- untuk data dengan tinggi badan 160 dan jenis kelamin wanita diprediksi memiliki berat badan 59, sedangkan data yang diharapkan adalah 59
- untuk data dengan tinggi badan 169 dan jenis kelamin wanita diprediksi memiliki berat badan 70.66666667, sedangkan data yang diharapkan adalah 67

#### Coefficient of Determination atau $R^2$

Referensi: https://en.wikipedia.org/wiki/Coefficient_of_determination

In [12]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


- Hasil pengukuran matrik r2_score(y_test, y_pred) ditampung pada variabel r_squared
- semakin nilai R-squared mendekati 1, semakin baik

#### Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)

$MAE$ is the average of the absolute values of the errors of the predictions.

$MAE$ adalah nilai rata-rata dari absolute error dari prediksi

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

- $yi$ merepresentasikan setiap nilai target pada testing set
- $\hat{y}_i$ merupakan nilai prediksi yang dihasilkan oleh model
- jika nilai prediksi lebih kecil dari nilai yang seharusnya, maka akan bernilai positif
- jika nilai prediksi lebih besar dari nilai yang seharusnya, maka akan bernilai negatif
- absolute function akan menghilangkan nilai negatif

Referensi: https://en.wikipedia.org/wiki/Mean_absolute_error

In [13]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

MAE: 8.333333333333336


- untuk menggunakan mean_absolute_error, kita memanggil mean_absolute_error dan sertakan (y_test, y_pred) sebagai parameter
- variabel MAE untuk menampung nilai mean_absolute_error
- semakin kecil nilai MAE akan mengindikasi kualitas modal yang lebih baik

#### Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)

$MSE$ is the average of the squares of the errors of the predictions.

$MSE$ merupakan rata-rata dari error kuadrat untuk prediksi

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
- $yi$ merepresentasikan setiap nilai target pada testing set
- $\hat{y}_i$ merupakan nilai prediksi yang dihasilkan oleh model
- $^2$ untuk menghindari nilai negatif
- n adalah jumlah data point

Referensi: https://en.wikipedia.org/wiki/Mean_squared_error

In [14]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

MSE: 95.8888888888889


- untuk menggunakan mean_squared_error, kita memanggil mean_squared_error dan sertakan (y_test, y_pred) sebagai parameter
- variabel MSE untuk menampung nilai mean_squared_error
- semakin kecil nilai MSE akan mengindikasi kualitas modal yang lebih baik

### Permasalahan Scaling pada Features

In [15]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_new = np.array([[1640, 0]])

[euclidean(X_new[0], d) for d in X_train]

[60.0, 40.01249804748511]

- Variabel X_train akan berisi sekumpulan nilai features untuk training set
- Variabel X_new akan berisi sekumpulan data point yang akan di prediksi
- euclidean untuk mengukur jarak untuk data point baru [1640, 0] terhdap kedua data point [[1700, 0], [1600, 1]] untuk training set
- 60.0 merupakan jarak antara data point yang baru [1640, 0] dengan data point pertama [1700, 0]
- 40.01249804748511 merupakan jarak antara data point yang baru [1640, 0] dengan data point kedua [1600, 1]
- Data point yang baru lebih dekat dengan data point kedua

In [16]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

[0.06000000000000005, 1.0007996802557444]

- 0.06000000000000005 merupakan jarak antara data point yang baru [1.64, 0] dengan data point pertama [1.7, 0]
- 1.0007996802557444 merupakan jarak antara data point yang baru [1.64, 0] dengan data point kedua [1.6, 1]
- Data point baru lebih dekat dengan data point pertama

### Menerapkan Standard Scaler (Standard Score atau Z-Score)

Standardize features by removing the mean and scaling to unit variance.

$z = \frac{x - \bar{x}}{S}$
- $x$ merepresentasikan nilai features
- $\bar{x}$ merepresentasikan rata-rata nilai features
- $S$ merepresentasikan nilai standar deviasi dari sekumpulan nilai features

Referensi: https://en.wikipedia.org/wiki/Standard_score

In [17]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

Variabel ss menampung objek dari kelas StandardScaler()

In [18]:
# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2, 2.154065922853802]


- Variabel X_train_scaled untuk menampung hasil trasform dari ss.fit_transform yang dikenai pada (X_train)
- Variabel X_new_scaled untuk menampung hasil tranform dari ss.transform yang dikenai pada (X_new)
- euclidean untuk menghitung jarak dari X_train_scaled dan X_new_scaled
- 1.2 merupakan jarak antara data point X_new_scaled [-0.2 -1. ] dengan data point pertama X_train_scaled [ 1. -1.]
- 2.154065922853802 merupakan jarak antara data point X_new_scaled [-0.2 -1. ] dengan data point kedua X_train_scaled [-1.  1.]
- Data point X_new_scaled lebih dekat dengan data point pertama X_train_scaled

In [19]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2000000000000026, 2.1540659228538006]


- 1.2000000000000026 merupakan jarak antara data point X_new_scaled [-0.2 -1. ] dengan data point pertama X_train_scaled [ 1. -1.]
- 2.1540659228538006 merupakan jarak antara data point X_new_scaled [-0.2 -1. ] dengan data point kedua X_train_scaled [-1.  1.]
- Data point X_new_scaled lebih dekat dengan data point pertama X_train_scaled

### Menerapkan Features Scaling pada KNN

#### Dataset

In [20]:
# Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]])

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67])

# Test Set
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

- X_train untuk menampung sekumpulan nilai features untuk training set
- y_train untuk menampung sekumpulan nilai target untuk training set
- X_test untuk menampung sekumpulan nilai features untuk testing set
- y_test untuk menampung sekumpulan nilai target untuk testing set

#### Features Scaling (Standard Scaler)

In [21]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



- Variabel X_train_scaled untuk menampung hasil tranform ss.fit_transform yang dikenakan pada(X_train)
- Variabel X_test_scaled untuk menampung hasil transform ss.transform yang dikenakan pada (X_test)

#### Training & Evaluasi Model

In [22]:
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893


- Objek model di traing dengan menggunakan model.fit dan disertakan (X_train_scaled, y_train) sebagai parameter
- Variabel y_pred untuk menampung hasil prediksi dari model.predict(X_test_scaled)
- Variabel MAE untuk menampung nilai eror dari mean_absolute_error(y_test, y_pred)
- Variabel MSE untuk menampung nilai eror dari mean_squared_error(y_test, y_pred)