# Tutorial 07: 
# Regression dengan KNN (K Nearest Neighbours)
- KNN adalah model machine learning yang dapat digunakan untuk melakukan **prediksi berdasarkan kedekatan karakter, dengan sejumlah tetangga terdekat**. 
- Prediksi yang dilakukan dapat **diterapkan baik pada classification maupun regression tasks**. 

### Sample Dataset

In [2]:
import pandas as pd 

sensus = {'tinggi': [158, 170, 183, 191, 155, 163, 180, 158, 170], 
          'jk'    : ['pria', 'pria', 'pria', 'pria', 'wanita', 'wanita', 'wanita', 'wanita', 'wanita'], 
          'berat' : [64, 86, 84, 80, 49, 59, 67, 54, 67]}
          ### Ada 3 keys pada dictionaries ini yaitu tinggi, jenis kelamin, dan berat badan.

sensus_df = pd.DataFrame(sensus)
sensus_df

Unnamed: 0,tinggi,jk,berat
0,158,pria,64
1,170,pria,86
2,183,pria,84
3,191,pria,80
4,155,wanita,49
5,163,wanita,59
6,180,wanita,67
7,158,wanita,54
8,170,wanita,67


### Regression dengan KNN
Di tahap ini **variable features yang dipakai adalah data dari tinggi dan jenis kelamin**, sedangkan **variable target** yang dipakai adalah **berat**. Oleh karena itu, kita mencoba untuk **memprediksi nilai (berat badan) yang mana bersifat cointinues dengan menggunakan Regresi pada KNN**. 
#### Features dan Target

In [3]:
import numpy as np 

x_train = np.array(sensus_df[['tinggi', 'jk']]) # Konversi data frame menjadi array pada features variable
y_train = np.array(sensus_df['berat'])          # Konversi data frame menjadi array pada target variable

print(f'x train: {x_train}')
print(f'y train: {y_train}')

x train: [[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]
y train: [64 86 84 80 49 59 67 54 67]


#### Preprocess Dataset: Konversi Label Menjadi Numerik Biner

In [4]:
x_train_transposed = np.transpose(x_train)

print(f'x train: {x_train}')
print(f'x train: {x_train_transposed}') # Merubah posisi kolom menjadi baris, dan baris menjadi kolom

x train: [[158 'pria']
 [170 'pria']
 [183 'pria']
 [191 'pria']
 [155 'wanita']
 [163 'wanita']
 [180 'wanita']
 [158 'wanita']
 [170 'wanita']]
x train: [[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]


In [5]:
from sklearn.preprocessing import LabelBinarizer
lb = LabelBinarizer()

jk_binarized = lb.fit_transform(x_train_transposed[1]) # Kita merubah data string di jenis kelamin menjadi biner
jk_binarized = jk_binarized.flatten() # Merubah menjadi 1 dimensi

print(f'jk: {x_train_transposed}')
print(f'jk_binarized: {jk_binarized}')

jk: [[158 170 183 191 155 163 180 158 170]
 ['pria' 'pria' 'pria' 'pria' 'wanita' 'wanita' 'wanita' 'wanita'
  'wanita']]
jk_binarized: [0 0 0 0 1 1 1 1 1]


In [6]:
# Memasukan data biner atas jenis kelamin pada x train 

x_train_transposed[1] = jk_binarized
x_train = x_train_transposed.transpose()
x_train

array([[158, 0],
       [170, 0],
       [183, 0],
       [191, 0],
       [155, 1],
       [163, 1],
       [180, 1],
       [158, 1],
       [170, 1]], dtype=object)

### Training KNN Regression Model

In [7]:
from sklearn.neighbors import KNeighborsRegressor 

K = 3 # Jumlah tetangga yang akan digunakan dalam proses regresi
model = KNeighborsRegressor(n_neighbors=K)
model.fit(x_train, y_train) # Training model atas data training yaitu x_train dan y_train

KNeighborsRegressor(n_neighbors=3)

### Prediksi Berat Badan 

In [8]:
x_new = np.array([[155,1]])
x_new

array([[155,   1]])

In [9]:
y_pred = model.predict(x_new)
y_pred

array([55.66666667])

### Evaluasi KNN Regression Model

In [13]:
x_test = np.array([[168,0], [180,0], [160,1], [169,1]]) # Testing test dari variable features yaitu tinggi dan jenis kelamin
y_test = np.array([65, 96, 52, 67])                     # Testing test dari variable target yaitu berat badan

print(f'x test: {x_test}')
print(f'y test: {y_test}')

x test: [[168   0]
 [180   0]
 [160   1]
 [169   1]]
y test: [65 96 52 67]


In [14]:
y_pred = model.predict(x_test) # Prediksi variable target yaitu berat badan
y_pred

array([70.66666667, 79.        , 59.        , 70.66666667])

Berdasarkan hasil operasi diatas, **model kita memberikan prediksi sebagai berikut yaitu 70 kg, 79 kg, 59 kg, dan 71 kg**. Sedangkan hasil yang kita inginkan adalah antara lain **65 kg, 96 kg, 52 kg, dan 67 kg**. Oleh karena itu ditahap ini, terdapat beberapa **metode untuk mengevaluasi model KNN Regresi** yang telah kita buat. Antara lain:  

#### 1. Coefficient of Determination atau R2
Untuk menggunakan metode R Squared, kita perlu **mengimport r2_score dari sklearn.metrics** dimana metode ini mempunyai 2 parameter yaitu **y_test dan y_pred**. Berdasarkan evaluasi menggunakan metode ini, didapat **nilai R-Squared** dari model kita adalah sebesar **0.6**, apabila model semakin mendekati nilai 1 maka model tersebut dapat dianggap sudah baik. 

In [15]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-Squared: {r_squared}')

R-Squared: 0.6290565226735438


#### 2. Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)
**MAE adalah nilai rerata dari absolut error dari prediksi**. Secara matematika, MAE dapat dituliskan sebagai berikut: 
<br>
MAE = 1/n * Zigma * |yi-ym|
<br>
dimana: 
- **n  : jumlah data** 
- **yi : nilai rerata error dari model** 
<br><br>
Untuk menggunakan metode MAE, kita perlu mengimportnya dari sklearn.metrcis, dimana metode ini mempunyai **2 parameter, yaitu y_test dan y_pred**. Berdasarkan hasil perhitungan dari metode tersebut didapat nilai MAE sebesar 8.3. **Semakin kecil nilai MAE maka model semakin baik**.

In [16]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

MAE: 8.333333333333336


#### 3. Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)
**MSE adalah nilai rerata dari selisih error dari hasil prediksi yang telah dikuadratkan.** Secara matematik dapat dituliskan sebagai berikut: 
<br>
MSE = 1/n * Zigma * (yi-ym)^^2
<br>
dimana: 
- **n  : jumlah data** 
- **yi : nilai rerata error dari model** 
<br><br>
Untuk menggunakan metode MSE, kita perlu mengimportnya dari sklearn.metrcis, dimana metode ini mempunyai **2 parameter, yaitu y_test dan y_pred**. Berdasarkan hasil perhitungan dari metode tersebut didapat nilai MSE sebesar 96. **Semakin kecil nilai MSE maka model semakin baik**.

In [17]:
from sklearn.metrics import mean_squared_error 

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

MSE: 95.8888888888889


### Permasalahan Scaling pada Features
Dataset yang digunakan pada dataset ini memiliki **2 features, yaitu Tinggi Badan dan Jenis Kelamin**.