# Regression KNN
* KNN adalah model machine learning yang dapat digunakan untuk melakukan prediksi berdasarkan kedekatan karakteristik dengan sejumlah tetangga terdekat.
* Prediksi yang dilakukan dapat diterapkan baik pada classification maupun regression tasks.

Referensi: https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

In [1]:
from sklearn.datasets import load_boston

boston = load_boston()
boston

{'data': array([[6.3200e-03, 1.8000e+01, 2.3100e+00, ..., 1.5300e+01, 3.9690e+02,
         4.9800e+00],
        [2.7310e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9690e+02,
         9.1400e+00],
        [2.7290e-02, 0.0000e+00, 7.0700e+00, ..., 1.7800e+01, 3.9283e+02,
         4.0300e+00],
        ...,
        [6.0760e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         5.6400e+00],
        [1.0959e-01, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9345e+02,
         6.4800e+00],
        [4.7410e-02, 0.0000e+00, 1.1930e+01, ..., 2.1000e+01, 3.9690e+02,
         7.8800e+00]]),
 'target': array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
        18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2, 13.6, 19.6,
        15.2, 14.5, 15.6, 13.9, 16.6, 14.8, 18.4, 21. , 12.7, 14.5, 13.2,
        13.1, 13.5, 18.9, 20. , 21. , 24.7, 30.8, 34.9, 26.6, 25.3, 24.7,
        21.2, 19.3, 20. , 16.6, 14.4, 19.4, 19.7, 20.5, 25. , 23.4, 18.9,
        35.4, 24.7, 3

In [2]:
print(boston.DESCR)

.. _boston_dataset:

Boston house prices dataset
---------------------------

**Data Set Characteristics:**  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pu

## Sample Dataset

In [4]:
import pandas as pd

harga_rmh = {'crime': [0.00632, 0.02731, 0.02729, 0.03237, 0.06905], 
         'room': [6.575, 6.421, 7.185, 6.998, 7.147],
         'harga': [24, 21.6, 34.7, 33.4, 36.2]}

harga_rmh_df = pd.DataFrame(harga_rmh)
harga_rmh_df

Unnamed: 0,crime,room,harga
0,0.00632,6.575,24.0
1,0.02731,6.421,21.6
2,0.02729,7.185,34.7
3,0.03237,6.998,33.4
4,0.06905,7.147,36.2


siapkan sebuah variable yang akan menampung suatu data dictionary dimana dictionanry ini akan menampung tiga buah keys yaitu crime, room, dan harga. harga ini akan berasosiasi dengan daftar target sedangkan crime dan room ini akan berasosiasi dengan nilai tingkat kejahatan di suatu kota dan juga rata-rata kamar.

Alasan mengambil features tersebut untuk mengetahui harga rumah bila diketahui tingkat kejahatan dan rata-rata kamar pada suatu kota

### Features & Target

In [5]:
import numpy as np

X_train = np.array(harga_rmh_df[['crime', 'room']])
y_train = np.array(harga_rmh_df['harga'])

print(f'X_train:\n{X_train}\n')
print(f'y_train: {y_train}')

X_train:
[[6.320e-03 6.575e+00]
 [2.731e-02 6.421e+00]
 [2.729e-02 7.185e+00]
 [3.237e-02 6.998e+00]
 [6.905e-02 7.147e+00]]

y_train: [24.  21.6 34.7 33.4 36.2]


Code diatas memanfaatkan KNN untuk melakukan prediksi harga berdasarkan data tingkat kejahatan dan rata-rata kamar, karena disini yang diprediksi berupa nilai continous dan bukan kategori maka ini akan termasuk dalam regression task.

### Training KNN Regression Model

In [7]:
from sklearn.neighbors import KNeighborsRegressor

K = 3 
model = KNeighborsRegressor(n_neighbors=K)
model.fit(X_train, y_train)

KNeighborsRegressor(n_neighbors=3)

Model machine learning yang akan digunakan adalah KNN dan yang akan di import adalah KNeighborsRegressor karena akan menggunakan KNN untuk regression tasks.

### Prediksi

In [14]:
X_new = np.array([[25.31, 25.42]])
X_new

array([[25.31, 25.42]])

Selanjutnya train model yang sebelumnya akan digunakan untuk melakukan prediksi harga berdasarkan data tingkat kejahatan dan rata-rata kamar

In [15]:
y_pred = model.predict(X_new)
y_pred

array([34.76666667])

Selanjutnya kita akan melakukan prediksi harga dengan memanfaatkan model KNeighborsRegressor yang sudah di training sebelumnya.

### Evaluasi KNN Regression Model

In [16]:
X_test = np.array([[0.00632, 6.575], [0.02731, 6.421], [0.02729, 7.185], [0.03237, 6.998],[0.06905, 7.147]])
y_test = np.array([23, 21.5, 32.6, 32.1, 34.2])

print(f'X_test:\n{X_test}\n')
print(f'y_test: {y_test}')

X_test:
[[6.320e-03 6.575e+00]
 [2.731e-02 6.421e+00]
 [2.729e-02 7.185e+00]
 [3.237e-02 6.998e+00]
 [6.905e-02 7.147e+00]]

y_test: [23.  21.5 32.6 32.1 34.2]


Disini akan menggunakan beberapa matriks untuk mengukur performa dari model machine learning untuk kasus Regression task tapi sebelumnya kita harus menyiapkan testing set nya. Code diatas sudah disiapkan 5 buah data point, Pertama siapkan dulu sekumpulan nilai features untuk testing set nya kemudian dimasukkan kedalam variable X_test selain itu juga perlu disiapkan sekumpulan nilai target untuk kita tampung kedalam variable y_test.

In [17]:
y_pred = model.predict(X_test)
y_pred

array([26.33333333, 26.33333333, 34.76666667, 34.76666667, 34.76666667])

Setelah testing set nya siap selanjutnya akan dilakukan prediksi terhadap testing set dengan memanfaatkan model KNN Regessor yang sudah di training sebelumnya

### Coefficient of Determination atau $R^2$

In [18]:
from sklearn.metrics import r2_score

r_squared = r2_score(y_test, y_pred)

print(f'R-squared: {r_squared}')

R-squared: 0.6703250920501963


jika R-squared semakin mendekati 1 maka semakin baik dan jika R-squared semakin mendekati 0 atau bahkan nilainya negatif maka mengindikasikan bahwa modelnya kurang baik

### Mean Absolute Error (MAE) atau Mean Absolute Deviation (MAD)
$MAE$ is the average of the absolute values of the errors of the predictions.

$MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$

In [19]:
from sklearn.metrics import mean_absolute_error

MAE = mean_absolute_error(y_test, y_pred)

print(f'MAE: {MAE}')

MAE: 2.713333333333334


Mean Absolute Error atau yang biasa disebut sebagai Mean Absolute Deviation adalah nilai rata-rata dari absolute error dari prediksi. MAE akan menghiting selisih atau error antara 𝑦𝑖 dengan 𝑦̂𝑖, 𝑦𝑖 ini merepresentasikan setiap nilai target pada testing set sedangkan 𝑦̂𝑖 ini merupakan nilai prediksi yang dihasilkan oleh model kita. Proses perhitungan selisih ini akan memungkinkan saja untuk menghasilkan nilai positif atau negatif, jika hasil prediksinya ternyata lebih kecil dari apa yang seharusnya maka nilainya positif, tetapi jika hasil prediksinya ternyata lebih besar dari yang seharusnya maka nilainya akan menjadi negatif, untuk menghindari nilai negatif maka harus menerapkan yang namanya absolute function yang berfungsi untuk menghilangkan nilai negatif.

### Mean Squared Error (MSE) atau Mean Squared Deviation (MSD)
$MSE$ is the average of the squares of the errors of the predictions.

$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$

In [20]:
from sklearn.metrics import mean_squared_error

MSE = mean_squared_error(y_test, y_pred)

print(f'MSE: {MSE}')

MSE: 9.319777777777777


Mean Squared Error atau yang biasa disebut dengan Mean Squared Deviation akan menghitung selisih atau error antara 𝑦𝑖 dengan 𝑦̂𝑖. 𝑦𝑖 merupakan nilai target dari testing set, sedangkan 𝑦̂𝑖 merupakan nilai estimasi yang dihasilkan oleh model kita. Untuk menghindari kemunculan nilai negatif pas MSE selisih nilainya akan dipangkatkan 2.

### Menerapkan Features Scaling pada KNN
#### Dataset

In [22]:
import numpy as np
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()

# Training Set
X_train = np.array([[0.00521, 5.213], [0.03123, 7.239], [0.03123, 5.213], [0.02152, 5.2134],[0.03421, 6.2312]])
y_train = np.array([21, 22.3, 35.2, 33.4, 37.4])


# Test Set
X_test = np.array([[0.00632, 6.575], [0.02731, 6.421], [0.02729, 7.185], [0.03237, 6.998],[0.06905, 7.147]])
y_test = np.array([23, 21.5, 32.6, 32.1, 34.2])

Code diatas menjelaskan bagaimana features scaling akan berpotensi dalam meningkatkan performa dari model KNN. Features Scaling yang akan digunakan adalah Standard Scaler.

#### Features Scaling (Standard Scaler)

In [23]:
X_train_scaled = ss.fit_transform(X_train)
X_test_scaled = ss.transform(X_test)

print(f'X_train_scaled:\n{X_train_scaled}\n')
print(f'X_test_scaled:\n{X_test_scaled}\n')

X_train_scaled:
[[-1.83046227 -0.75095351]
 [ 0.61579496  1.7476207 ]
 [ 0.61579496 -0.75095351]
 [-0.29708581 -0.7504602 ]
 [ 0.89595816  0.50474652]]

X_test_scaled:
[[-1.72610618  0.92873952]
 [ 0.24725813  0.73881828]
 [ 0.24537784  1.68102494]
 [ 0.72297149  1.45040629]
 [ 4.17142326  1.63416126]]



Hasil code diatas merupakan X_train yang sudah di scaling dan X_test yang sudah di scaling

#### Training & Evaluasi Model

In [24]:
model.fit(X_train_scaled, y_train) #features yang sudah kita scalling
y_pred = model.predict(X_test_scaled)

MAE = mean_absolute_error(y_test, y_pred)
MSE = mean_squared_error(y_test, y_pred)

print(f'MAE: {MAE}')
print(f'MSE: {MSE}')

MAE: 3.34
MSE: 23.402444444444452


Nilai MAE dan MSE setelah menerapkan fitur scaling bisa dilihat bahwa hasilnya lebih kecil atau dengan kata lain kita bisa menghasilkan model dengan kualitas atau performa yang lebih baik setelah menerapkan fitur scaling.