# 1. k-Nearest Neighbors

## 1.1. Thuật toán
[$k$-NN](https://scikit-learn.org/stable/modules/neighbors.html#classification) ($k$-Nearest Neighbors, tiếng Việt: $k$ láng giềng gần nhất) là một trong số các thuật toán cổ điển cơ bản của Machine Leanring. Thuật toán này sử dụng khoảng cách giữa các điểm dữ liệu trong không gian - là một khái niệm xuất hiện dày đặc trong lĩnh vực Data Science. Giải thuật kNN trong bài toán phân loại được trình bày như sau:

Đầu vào:
- $k$ - số điểm lân cận sẽ xét trong thuật toán
- Độ đo khoảng cách, thường là Euclidean

Thuật toán:
- Với một điểm dữ liệu mới (query point) $\mathbf{o}_q=\begin{bmatrix}x_{1q}&x_{2q}&\dots\end{bmatrix}$, tìm khoảng cách từ query point đến tất cả các điểm trong tập train $\mathbf{o}_n=\begin{bmatrix}x_{1n}&x_{2i}&\dots\end{bmatrix}$
- Sắp xếp các khoảng cách đã tìm được trong tập train theo thứ tự giảm dần
- Lựa chọn $k$ điểm có khoảng cách gần nhất với query point, $k$ điểm này được gọi là neighbors, hay điểm lân cận.
- Thực hiện *majority voting* (bình chọn đa số) hoặc *weighted voting* (bình chọn với trọng số là nghịch đảo khoảng cách) xem các neighbors rơi vào nhãn nào nhiều nhất, ta sẽ gán nhãn này cho query point.

Có thể thấy kNN là một thuật toán rất đơn giản, thời gian training bằng 0 khi chỉ phải lưu lại dữ liệu chứ không cần tính toán và rất dễ giải thích.

In [None]:
oq 1

on1 0.34 1/100 -> 100
on2 0.75 1/10 -> 10
on3 0.56 1/8 -> 8
on4 0.20 1/7 -> 7
on5 0.54 1/6 -> 6

(0.34*100 + 0.75*10 + ...) / (100+10+...)

In [None]:
psuedo code

## 1.2. Độ đo khoảng cách
Độ đo khoảng cách là một thành phần quan trọng trong thuật toán kNN. Mỗi độ đo phát huy tối đa hiệu quả trong các trường hợp cụ thể. Sau đây là một số độ đo phổ biến:
- [Manhattan distance](https://en.wikipedia.org/wiki/Taxicab_geometry): là tổng khoảng cách theo mỗi trục

<img src='image/distance_manhattan.png' style='height:200px; margin: 0 auto 40px;'>

- [Euclidean distance](https://en.wikipedia.org/wiki/Euclidean_distance): khoảng cách trực tiếp trong không gian

<img src='image/distance_euclidean.png' style='height:200px; margin: 0 auto 40px;'>

- [Cosine similarity](https://en.wikipedia.org/wiki/Cosine_similarity): cosine của góc giữa 2 vector

<img src='image/distance_cosine.png' style='height:300px; margin: 0 auto 40px;'>

Tuy nhiên, Euclidean distance vẫn là độ đo phổ biến nhất:

$$d_i = \sqrt{(x_{1i}-x_{1q})^2+(x_{2i}-x_{2q})^2+\dots}$$

In [None]:
normalization

## 1.3. Thực thi

Trong phần này, chúng ta sẽ thực hành chạy thuật toán kNN trên tập dữ liệu hoa diên vĩ (iris). Có 3 loại hoa là Setosa, Versicolor và Virginica. Chúng ta sẽ dựa vào đặc điểm hình thái của hoa, bao gồm chiều dài, chiều rộng của cánh hoa (petal) và đài hoa (petal) để phân loại một bông hoa chưa biết vào một trong 3 loài. Các thông tin trường dữ liệu được mô tả trong hình sau:

<img src='image/iris.png' style='height:300px; margin: 0 auto 40px;'>

In [21]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [22]:
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df = df.assign(species=iris.target)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [23]:
df.groupby('species').size()

species
0    50
1    50
2    50
dtype: int64

In [11]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [24]:
X = iris.data # features
y = iris.target # label

In [58]:
XTrain, XTest, yTrain, yTest = train_test_split(X, y, test_size=0.2, random_state=1)
XTrain, XValid, yTrain, yValid = train_test_split(XTrain, yTrain, test_size=0.25, random_state=1)
# yTest

array([0, 1, 1, 0, 2, 1, 2, 0, 0, 2, 1, 0, 2, 1, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 0, 2, 1, 0, 0, 1, 2])

In [69]:
XTrain.shape

(120, 4)

In [71]:
XValid.shape

(30, 4)

In [72]:
XTest.shape

(30, 4)

In [None]:
pseudo-random

In [73]:
# khoi tao thuat toan
model = KNeighborsClassifier(n_neighbors=5, weights='uniform', metric='euclidean')

# huan luyen mo hinh
model.fit(XTrain, yTrain)

# du doan tren tap train
yTrainPred = model.predict(XTrain)
print(accuracy_score(yTrain, yTrainPred))

# du doan tren tap valid
yValidPred = model.predict(XValid)
print(accuracy_score(yValid, yValidPred))

0.9833333333333333
0.9666666666666667


In [None]:
X_train, X_test pascal_case

XTrain, XTest snakeCase

In [None]:
dfIris
dfBoston
dfWine

df_iris

In [76]:
model.predict(XTrain) == yTrain

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False,  True,  True,  True,
        True,  True,  True])

In [75]:
yTrain

array([2, 1, 0, 2, 1, 0, 0, 0, 0, 2, 2, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 0,
       2, 0, 2, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 0, 2, 0, 0, 2, 2, 0, 2, 0,
       1, 2, 1, 0, 1, 0, 2, 2, 1, 0, 0, 1, 2, 0, 2, 2, 1, 0, 1, 0, 2, 2,
       0, 0, 2, 1, 2, 2, 1, 0, 0, 2, 0, 0, 1, 2, 2, 1, 1, 0, 2, 0, 0, 1,
       1, 2, 0, 1, 1, 2, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 2, 2, 1, 2,
       0, 2, 1, 1, 0, 2, 1, 2, 1, 0])

In [15]:
# du doan tren tap test
yTestPred = model.predict(XTest)
print(accuracy_score(yTest, yTestPred))

1.0


In [16]:
# hien thi 5 diem lan can
# tham khao docs de hieu dau ra
XQuery = np.array([[5, 4, 1.2, 0.4]])
model.kneighbors(XQuery)

(array([[0.47958315, 0.5       , 0.54772256, 0.55677644, 0.55677644]]),
 array([[34, 36, 10, 83, 69]]))

In [20]:
XTrain[model.kneighbors(XQuery)[1].flatten()]

array([[5.2, 4.1, 1.5, 0.1],
       [5.1, 3.8, 1.6, 0.2],
       [4.9, 3.6, 1.4, 0.1],
       [5.3, 3.7, 1.5, 0.2],
       [5.1, 3.5, 1.4, 0.3]])

In [77]:
yTrain[model.kneighbors(XQuery)[1].flatten()]

array([0, 0, 0, 0, 0])

In [24]:
# du doan xac suat
model.predict_proba(XTest)[0:10]

array([[1. , 0. , 0. ],
       [0. , 1. , 0. ],
       [0. , 1. , 0. ],
       [1. , 0. , 0. ],
       [0. , 0. , 1. ],
       [0. , 0.8, 0.2],
       [0. , 0. , 1. ],
       [1. , 0. , 0. ],
       [1. , 0. , 0. ],
       [0. , 0. , 1. ]])

## 1.4. Hyperparameters tuning
Các hyperparameters của thuật toán [$k$-NN](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html):

Hyperparameter|Ý nghĩa|Mặc định|Giá trị khả dĩ|
:---|:---|:---|:---|
`n_neighbors`|Số điểm lân cận|`5`||
`weights`|Phương pháp voting là majority hay weighted|`uniform`|`uniform` `distance`|
`metrics`|Độ đo khoảng cách|`euclidean`|`euclidean` `manhattan` `mahalanobis`|

In [65]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV, RandomizedSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

In [38]:
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df = df.assign(species=iris.target)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [39]:
X = iris.data
y = iris.target

In [57]:
XTrain, XTest, yTrain, yTest = train_test_split(X, y, test_size=0.3, random_state=1)

### Grid Search

In [79]:
20*2*2 * 6

480

In [58]:
params = {
    'n_neighbors': np.arange(2, 22),
    'weights': ['uniform', 'distance'],
    'metric': ['manhattan', 'euclidean']
}

knn = KNeighborsClassifier()
knn = GridSearchCV(knn, params, cv=5, scoring='accuracy')
knn = knn.fit(XTrain, yTrain)

knn.best_params_

{'metric': 'manhattan', 'n_neighbors': 8, 'weights': 'uniform'}

In [60]:
yTrainPred = knn.predict(XTrain)
yTestPred = knn.predict(XTest)

In [62]:
matrix = confusion_matrix(yTrain, yTrainPred, labels=[0, 1, 2])
pd.DataFrame(matrix, columns=iris.target_names, index=iris.target_names)

Unnamed: 0,setosa,versicolor,virginica
setosa,36,0,0
versicolor,0,30,2
virginica,0,1,36


In [64]:
print(classification_report(yTrain, yTrainPred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        36
           1       0.97      0.94      0.95        32
           2       0.95      0.97      0.96        37

    accuracy                           0.97       105
   macro avg       0.97      0.97      0.97       105
weighted avg       0.97      0.97      0.97       105



In [63]:
print(classification_report(yTest, yTestPred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       0.94      0.94      0.94        18
           2       0.92      0.92      0.92        13

    accuracy                           0.96        45
   macro avg       0.96      0.96      0.96        45
weighted avg       0.96      0.96      0.96        45



### Randomized Search
Bên cạnh Grid Search, một phương pháp cũng hay được dùng đó là Randomized Search, dựa trên việc lấy ngẫu nhiên các hyperparameters trong vùng được chỉ định thay vì tìm tất cả các trường hợp. Phương pháp này có các ưu điểm sau:
- Đối với hyperparameters nhận giá trị continuous, ta chỉ cần đưa ra khoảng thay vì liệt kê các giá trị.
- Không bị ảnh hưởng bởi các hyperparameter có ít ảnh hưởng đến hiệu năng mô hình.
- Tiết kiệm số lần search hơn so với Grid Search.

Hai phương pháp được so sánh trong hình dưới. Tuy nhiên, trong bài toán Iris này, chúng ta sẽ không so sánh kết quả của hai phương pháp do mẫu dữ liệu quá nhỏ, không đảm bảo ý nghĩa thống kê.

<img src='image/grid_search_random_search.png' style='height:200px; margin: 0 auto 40px;'>

In [68]:
params = {
    'n_neighbors': np.arange(2, 22),
    'weights': ['uniform', 'distance'],
    'metric': ['manhattan', 'euclidean']
}

knn = KNeighborsClassifier()
knn = RandomizedSearchCV(knn, params, cv=5, scoring='accuracy', n_iter=20) # number of iterations
knn = knn.fit(XTrain, yTrain)

knn.best_params_

{'weights': 'distance', 'n_neighbors': 21, 'metric': 'manhattan'}

In [69]:
yTrainPred = knn.predict(XTrain)
yTestPred = knn.predict(XTest)

In [70]:
matrix = confusion_matrix(yTrain, yTrainPred, labels=[0, 1, 2])
pd.DataFrame(matrix, columns=iris.target_names, index=iris.target_names)

Unnamed: 0,setosa,versicolor,virginica
setosa,36,0,0
versicolor,0,32,0
virginica,0,0,37


In [71]:
print(classification_report(yTrain, yTrainPred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        36
           1       1.00      1.00      1.00        32
           2       1.00      1.00      1.00        37

    accuracy                           1.00       105
   macro avg       1.00      1.00      1.00       105
weighted avg       1.00      1.00      1.00       105



In [72]:
print(classification_report(yTest, yTestPred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        14
           1       1.00      0.94      0.97        18
           2       0.93      1.00      0.96        13

    accuracy                           0.98        45
   macro avg       0.98      0.98      0.98        45
weighted avg       0.98      0.98      0.98        45



# 2. Các ứng dụng

## 2.1. kNN cho bài toán regression
Ý tưởng của kNN regression hoàn toàn giống kNN trong classification, chỉ khác là khi dự đoán điểm dữ liệu mới, ta sẽ lấy trung bình nhãn thay vì thực hiện voting. Việc tính trung bình cũng có thể sử dụng bình quân có trọng số.

In [86]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use(['seaborn', 'seaborn-whitegrid'])
%config InlineBackend.figure_format = 'retina'

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error as MSE, mean_absolute_error as MAE, r2_score as R2

In [89]:
df = pd.read_csv('data/boston.csv')
df

Unnamed: 0,crime_rate,land_rate,indus,chas,nox,room,age,distance,radial,tax,ptratio,black,lstat,price
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273,21.0,396.90,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273,21.0,396.90,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273,21.0,393.45,6.48,22.0


In [90]:
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

XTrain, XTest, yTrain, yTest = train_test_split(X, y, test_size=0.2, random_state=7)

In [92]:
yTrain.shape

(404,)

In [93]:
params = {
    'n_neighbors': np.arange(2, 22, 2),
    'weights': ['uniform', 'distance'],
    'metric': ['manhattan', 'euclidean']
}

knn = KNeighborsRegressor()
knn = GridSearchCV(knn, params, cv=5)
knn = knn.fit(XTrain, yTrain)

knn.best_params_

{'metric': 'manhattan', 'n_neighbors': 6, 'weights': 'distance'}

In [94]:
yTrainPred = knn.predict(XTrain)
yTestPred = knn.predict(XTest)

In [96]:
print(R2(yTrain, yTrainPred))
print(R2(yTest, yTestPred))

1.0
0.6420258072603173


## 2.2. Điền dữ liệu bị thiếu
kNN cũng có thể dùng để điền dữ liệu thiếu bằng cách rất *bản năng* đó là lấy trung bình của $k$ giá trị gần nhất.

In [97]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use(['seaborn', 'seaborn-whitegrid'])
%config InlineBackend.figure_format = 'retina'

from sklearn.impute import KNNImputer

In [110]:
dfCredit = pd.read_csv('data/credit_scoring.csv', nrows=2000)
dfCredit[dfCredit.income.isna()].head()

Unnamed: 0,bad_customer,credit_balance_percent,age,num_of_group1_pastdue,debt_ratio,income,num_of_loans,num_of_times_late_90days,num_of_estate_loans,num_of_group2_pastdue,num_of_dependents
6,0,0.305682,57,0,5710.0,,8,0,3,0,0.0
8,0,0.116951,27,0,46.0,,2,0,0,0,
16,0,0.061086,78,0,2058.0,,10,0,2,0,0.0
32,0,0.083418,62,0,977.0,,6,0,1,0,0.0
41,0,0.072898,81,0,75.0,,7,0,0,0,0.0


In [109]:
imputer = KNNImputer()
dfImputed = pd.DataFrame(imputer.fit_transform(dfCredit), columns=dfCredit.columns)
dfImputed[dfCredit.income.isna()].head()

Unnamed: 0,bad_customer,credit_balance_percent,age,num_of_group1_pastdue,debt_ratio,income,num_of_loans,num_of_times_late_90days,num_of_estate_loans,num_of_group2_pastdue,num_of_dependents
6,0.0,0.305682,57.0,0.0,5710.0,0.0,8.0,0.0,3.0,0.0,0.0
8,0.0,0.116951,27.0,0.0,46.0,50.4,2.0,0.0,0.0,0.0,0.0
16,0.0,0.061086,78.0,0.0,2058.0,0.6,10.0,0.0,2.0,0.0,0.0
32,0.0,0.083418,62.0,0.0,977.0,0.4,6.0,0.0,1.0,0.0,0.0
41,0.0,0.072898,81.0,0.0,75.0,4.6,7.0,0.0,0.0,0.0,0.0
