# Regression dengan KNN (K Nearest Neighbours)
Rangkuman dan pembelajaran dikutip dari sumber: https://www.youtube.com/watch?v=W8adIcfv16M.

- KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
- Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Referensi: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

## Sample Dataset

In [1]:
import pandas as pd

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk': ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'],
          'berat': [64, 86, 84, 80, 49, 59, 67, 54, 67]}

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


Sesi pembelajaran ini membentuk suatu model machine learning untuk memprediksi berat badan berdasarkan data tinggi badan dan jenis kelamin.
- Tinggi dan jenis kelamin sebagai features.
- Berat badan sebagai target.

## Regression (Estimasi Nilai) dengan KNN
### Features & Target

In [2]:
import numpy as np

X_train = np.array(sensus_df[['tinggi', 'jk']]) # sekumpulan nilai features untuk training set
y_train = np.array(sensus_df['berat']) # sekumpulan nilai target untuk training set

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

y_train: [64 86 84 80 49 59 67 54 67]


- Kita akan memanfaatkan KNN untuk memprediksi berat badan berdasarkan data tinggi badan dan jenis kelamin, dan karena nilai yang diprediksi berupa nilai continuous dan bukan categorical seperti Week05, maka kasus ini termasuk dalam regression tasks. 

- KNN akan melakukan prediksi berdasarkan sejumlah tetangga terdekat, di mana tetangga terdekat ini ditentukan dari kalkulasi jarak dengan memanfaatkan Euclidean Distance. Maka perlu dipastikan nilai featuresnya bertipe data numerik supaya dapat dihitung jarak antar data pointnya.

### Preprocess Dataset: Konversi Label menjadi Numerik Biner

In [3]:
X_train_transposed = np.transpose(X_train)

print(f'X_train:\n{X_train}\n')
print(f'X_train_transposed:\n{X_train_transposed}')

X_train:
[[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


Proses transpose akan mengubah posisi baris menjadi kolom dan posisi kolom menjadi baris.
- Posisi baris di atas menunjukkan instance sedangkan posisi kolomnya menunjukkan features. 
- Maka kasus di atas mengubah posisi features menjadi baris dan bukan kolom.

LabelBinarizer disini digunakan untuk mengkonversikan nilai pria dan wanita menjadi nilai biner 0 dan 1.

In [4]:
from sklearn.preprocessing import LabelBinarizer

lb = LabelBinarizer()
jk_binarised = lb.fit_transform(X_train_transposed[1]) # index 1 karena merupakan jenis kelamin (0 adalah tinggi badan)

print(f'jk: {X_train_transposed[1]}\n')
print(f'jk_binarised:\n{jk_binarised}')

jk: ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita' 'wanita']

jk_binarised:
[[0]
 [0]
 [0]
 [0]
 [1]
 [1]
 [1]
 [1]
 [1]]


Lalu diubah menjadi array 1 dimensi menggunakan flatten().

In [5]:
jk_binarised = jk_binarised.flatten()
jk_binarised

array([0, 0, 0, 0, 1, 1, 1, 1, 1])

Lalu diubah menjadi variable X_train, lalu balik ke awal menggunakan transpose.

In [6]:
X_train_transposed[1] = jk_binarised
X_train = X_train_transposed.transpose()

print(f'X_train_transposed:\n{X_train_transposed}\n')
print(f'X_train:\n{X_train}')

X_train_transposed:
[[158 170 183 191 155 163 180 158 170]
 [0 0 0 0 1 1 1 1 1]]

X_train:
[[158 0]
 [170 0]
 [183 0]
 [191 0]
 [155 1]
 [163 1]
 [180 1]
 [158 1]
 [170 1]]


### Training KNN Regression Model
Mengimport KNeighborsRegressor karena akan menggunakan KNN untuk regression tasks.

In [7]:
from sklearn.neighbors import KNeighborsRegressor

K = 3 # K digunakan untuk menentukan jumlah tetangga terdekat yang akan dilibatkan untuk proses prediksi
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

**Reminder :** Model machine learning yang digunakan untuk regression tasks dapat dikenal dengan istilah **Regressor** sedangkan model machine learning yang digunakan untuk classification tasks dapat dikenal dengan istilah **Classifier**.

### Prediksi Berat Badan

In [8]:
X_new = np.array([[155, 1]]) # bundle menjadi array 2 dimensi
X_new

array([[155,   1]])

In [9]:
y_pred = model.predict(X_new)
y_pred

array([55.66666667])

Diprediksi dengan tinggi badan 155 dan jenis kelamin wanita memiliki berat badan 55.66666667.

### Evaluasi KNN Regression Model
Disini mempelajari beberapa metrics yang dapat digunakan untuk mengukur performa dari model machine learning untuk kasus regression tasks.

In [10]:
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]]) # menyiapkan 4 instances/data point
y_test = np.array([65, 96, 52, 67])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[168   0]
 [180   0]
 [160   1]
 [169   1]]

y_test: [65 96 52 67]


In [11]:
y_pred = model.predict(X_test)
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

#### Coefficient of Determination atau $R^2$
Referensi: https://en.wikipedia.org/wiki/Coefficient_of_determination

In [12]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6290565226735438


R-squared semakin mendekati 1 maka semakin baik dan semakin mendekati 0 maka semakin buruk pula. Tidak menutup kemungkinan mendapatkan nilai (-) sebagai nilai terburuk.

#### Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)
$MAE$ is the average of the absolute values of the errors of the predictions.

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

Referensi: https://en.wikipedia.org/wiki/Mean_absolute_error

- MAE akan menghitung selisih atau error antara 𝑦𝑖 dan 𝑦̂𝑖.
  - 𝑦𝑖 mempresentasikan setiap nilai target pada testing set.
  - 𝑦̂𝑖 mempresentasikan nilai prediksi yang dihasilkan dari model kita.
  
- Memungkinkan hasil nilai positive ataupun negative, maka jika nilai yang diprediksi lebih kecil dari nilai yang seharusnya maka nilainya positive dan jika lebih besar dari nilai yang seharusnya maka nilainya negative.

- Untuk menghindari nilai negative maka digunakanlah absolute function.

- Setiap nilai selisihnya akan diakumulasi untuk dibagi dengan 𝑛 (jumlah data point).

In [13]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

MAE: 8.333333333333336


Semakin kecil nilai MAE akan mengindikasikan kualitas model yang lebih baik.

#### Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)
$MSE$ is the average of the squares of the errors of the predictions.

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

Referensi: https://en.wikipedia.org/wiki/Mean_squared_error

- MSE akan menghitung selisih atau error antara 𝑦𝑖 dan 𝑦̂𝑖.
  - 𝑦𝑖 mempresentasikan setiap nilai target pada testing set.
  - 𝑦̂𝑖 mempresentasikan nilai prediksi yang dihasilkan dari model kita.
  
- Memungkinkan hasil nilai positive ataupun negative, maka jika nilai yang diprediksi lebih kecil dari nilai yang seharusnya maka nilainya positive dan jika lebih besar dari nilai yang seharusnya maka nilainya negative.

- Untuk menghindari nilai negative maka selisih akan dipangkatkan dua.

- Setiap nilai selisihnya akan diakumulasi untuk dibagi dengan 𝑛 (jumlah data point).

In [14]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

MSE: 95.8888888888889


Semakin kecil nilai MSE akan mengindikasikan kualitas model yang lebih baik.
- **Reminder :** Nilai MSE akan selalu lebih besar dari nilai MAE karena setiap nilai error untuk MSE akan dipangkatkan dua.

### Permasalahan Scaling pada Features
Mempelajari apa dampak dari perbedaan satuan pengukuran terhadap konsistensi hasil kalkulasi Euclidean Distancenya.

In [15]:
from scipy.spatial.distance import euclidean

# tinggi dalam milimeter
# menggunakan 2 instances/data point 
X_train = np.array([[1700, 0], [1600, 1]]) # features untuk training set
X_new = np.array([[1640, 0]]) # features untuk data point yang akan diprediksi

[euclidean(X_new[0], d) for d in X_train] # mengukur jarak untuk data point yang baru terhadap kedua data point training setnya

[60.0, 40.01249804748511]

- Yang pertama merupakan jarak antara data point yang baru terhadap data point pertama pada training set dan yang kedua merupakan jarak antara data point yang baru terhadap data point kedua pada training set.
- Data point yang baru lebih dekat dengan data point **kedua** pada training set.

In [16]:
# tinggi dalam meter
# menggunakan 2 instances/data point
X_train = np.array([[1.7, 0], [1.6, 1]])
X_new = np.array([[1.64, 0]])

[euclidean(X_new[0], d) for d in X_train]

[0.06000000000000005, 1.0007996802557442]

- Sama halnya dengan milimeter, yang pertama merupakan jarak antara data point yang baru terhadap data point pertama pada training set dan yang kedua merupakan jarak antara data point yang baru terhadap data point kedua pada training set.
- Data point yang baru lebih dekat dengan data point **pertama** pada training set.
- Dan dari dua percobaan tersebut kita menemui **inkonsistensi** dalam pengukuran jarak.

Berikut kita akan mempelajari suatu metode untuk membantu agar tidak menimbulkan inkonsistensi dalam pengukuran jarak.

### Menerapkan Standard Scaler (Standard Score atau Z-Score)
Standardize features by removing the mean and scaling to unit variance.

$z = \frac{x - \bar{x}}{S}$

Referensi: https://en.wikipedia.org/wiki/Standard_score

- 𝑥 mempresentasikan nilai features.
- x̄ mempresentasikan rata-rata nilai features.
- 𝑆 mempresentasikan standard deviation dari sekumpulan nilai features.

In [17]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()

In [18]:
# tinggi dalam milimeter
X_train = np.array([[1700, 0], [1600, 1]])
X_train_scaled = ss.fit_transform(X_train) # mengenakan standard scaled pada nilai X_train
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1640, 0]])
X_new_scaled = ss.transform(X_new) #tidak panggil lagi fit, karena fit akan dikenakan pada X_train tetapi proses transformnya akan dikenakan pada X_train dan X_new
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2, 2.1540659228538015]


- Menggunakan satuan standard score.
- **1.2** adalah jarak antara X_new_scaled dengan data point pertama pada X_train_scaled sedangkan **2.1540659228538015** adalah jarak X_new_scaled dengan data point kedua pada X_train_scaled.
- Data point yang baru lebih dekat dengan data point **pertama** pada training set.

In [19]:
# tinggi dalam meter
X_train = np.array([[1.7, 0], [1.6, 1]])
X_train_scaled = ss.fit_transform(X_train)
print(f'X_train_scaled:\n{X_train_scaled}\n')

X_new = np.array([[1.64, 0]])
X_new_scaled = ss.transform(X_new)
print(f'X_new_scaled: {X_new_scaled}\n')

jarak = [euclidean(X_new_scaled[0], d) for d in X_train_scaled]
print(f'jarak: {jarak}')

X_train_scaled:
[[ 1. -1.]
 [-1.  1.]]

X_new_scaled: [[-0.2 -1. ]]

jarak: [1.2000000000000026, 2.1540659228538006]


- **1.2000000000000026** adalah jarak antara X_new_scaled dengan data point pertama pada X_train_scaled sedangkan **2.1540659228538006** adalah jarak X_new_scaled dengan data point kedua pada X_train_scaled.
- Data point yang baru lebih dekat dengan data point **pertama** pada training set.

### Menerapkan Features Scaling pada KNN
- Pada tahap ini kita akan mengulang proses training dan evaluasi model KNN namun akan menerapkan Features Scaling.
- Features Scaling yang akan digunakan adalah Standard Scaler.
- Kita akan melihat bagaimana features scaling dalam meningkatkan performa dari model KNN.
#### Dataset

In [20]:
# Training Set
X_train = np.array([[158, 0], [170, 0], [183, 0], [191, 0], [155, 1], [163, 1],
                    [180, 1], [158, 1], [170, 1]]) # features

y_train = np.array([64, 86, 84, 80, 49, 59, 67, 54, 67]) # target

# Test Set untuk evaluasi
X_test = np.array([[168, 0], [180, 0], [160, 1], [169, 1]])
y_test = np.array([65, 96, 52, 67])

#### Features Scaling (Standard Scaler)
Scaling terlebih dahulu featuresnya.

In [21]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-0.9908706  -1.11803399]
 [ 0.01869567 -1.11803399]
 [ 1.11239246 -1.11803399]
 [ 1.78543664 -1.11803399]
 [-1.24326216  0.89442719]
 [-0.57021798  0.89442719]
 [ 0.86000089  0.89442719]
 [-0.9908706   0.89442719]
 [ 0.01869567  0.89442719]]

X_test_scaled:
[[-0.14956537 -1.11803399]
 [ 0.86000089 -1.11803399]
 [-0.82260955  0.89442719]
 [-0.06543485  0.89442719]]



#### Training & Evaluasi Model

In [22]:
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 7.583333333333336
MSE: 85.13888888888893


Hasil MAE dan MSE lebih baik setelah menerapkan features scaling.