# K-nearest Neighbors



### 1. Giới thiệu

K-nearest neighbors (KNN) là một trong những thuật toán Supervised learning đơn giản. Khi huấn luyện thuật toán này không học một điều gì từ dứ liệu huấn luyện mà nhớ lại một cách máy móc toàn bộ dữ liệu. KNN có thể được áp dụng vào cả classification và regression. KNN còn được gọi là thuật toán instance-based hay memory-based learning.

- Trong bài toán classification, nhãn của một điểm dữ liệu mới được suy ra trực tiếp từ K điểm dữ liệu được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong tập huấn luyện. Nhãn đó có thể được quyết định bằng bầu chọn theo đa số trong số K điểm gần nhất, hoặc có thể được úy ra bằng cách đánh trọng số khác nhau cho mỗi các điểm gần nhất đó rồi suy ra kết quả.

- Một cách ngắn gọn KNN là thuật toán tìm ra đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên thông tin của K điểm dữ liệu gần nhất trong tập huấn luyện.

![Map1NN.png](img/Map1NN.png)

(Hình 1: ví dụ về 1NN. Các hình tròn là các điểm dữ liệu huấn luyện. Cac màu khác nhau thể hiện các lớp khác nhau)


### 2. Ví dụ trên dữ liệu Iris

**Thông tin về tập dữ liệu Iris**

Iris là tập dữ liệu bao gồm thông tin của 2 laoij hoa Iris khác nhau: Iris setora, Iris virginica và Iris versicolor. Đặc điểm của mỗi loại dựa trên 4 thông tin : chiều dài, chiều rộng đài hoa (sepal) và chiều dài, chiều rộng cánh hoa (petal).
![iris.png](img/iris.png)

**Bài toán**
Tách 150 dữ liệu trong Iris flower dataset thành 2 phần, gọi là `training set` và `test set`. Thuật toán KNN sẽ dựa vào thông tin ở `training set` để dự đoán dữ liệu trong `test set` tương ứng với loại hoa nào.

**Giải quyết trên Python**

In [16]:
#Khai báo thư viên
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets

In [17]:
#load data
iris =datasets.load_iris()
iris_X = iris.data
iris_Y = iris.target

print("Number of classes: %d" %len(np.unique(iris_Y)))
print("Number of data points: %d" %len(iris_X))

x0 = iris_X[iris_Y == 0, :]
print("\nSamples from class 0: \n", x0[:5, :])

x1 = iris_X[iris_Y == 1, :]
print("\nSamples from class 1: \n", x1[:5, :])

x2 = iris_X[iris_Y == 2, :]
print("\nSamples from class 2: \n", x2[:5, :])


Number of classes: 3
Number of data points: 150

Samples from class 0: 
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

Samples from class 1: 
 [[7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]]

Samples from class 2: 
 [[6.3 3.3 6.  2.5]
 [5.8 2.7 5.1 1.9]
 [7.1 3.  5.9 2.1]
 [6.3 2.9 5.6 1.8]
 [6.5 3.  5.8 2.2]]


In [18]:
#Tách training và test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_Y, test_size=50)

print("Training size: %d" %len(y_train))
print("Test size: %d" %len(y_test))

Training size: 100
Test size: 50


Xét trường hợp đơn giản K = 1, tức là với mỗi điểm test dât, ta chỉ xét 1 điểm training dât gần nhất và lấy label của điểm đó để dự đoán cho điểm test này.

In [19]:
clf = neighbors.KNeighborsClassifier(n_neighbors=1, p=2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print('Result for 20 test data points: ')
print('Predicted labels: ', y_pred[20:40])
print('Ground truth    : ', y_test[20:40])

Result for 20 test data points: 
Predicted labels:  [0 1 2 0 2 1 0 2 1 1 2 0 2 0 0 2 2 2 0 2]
Ground truth    :  [0 1 2 0 1 1 0 1 1 1 2 0 2 0 0 2 2 2 0 2]


Phương pháp đánh giá (evaluation method): Đơn giản là lấy số lượng dự đoán chính xác trên tổng số lượng tập test. Scrikit-learn cung cấp hàm accuracy_score để thực hiện công việc này

In [20]:
from sklearn.metrics import accuracy_score
print('Accuracy of 1NN: %.2f%%' %(100*accuracy_score(y_test, y_pred)))

Accuracy of 1NN: 94.00%


Xét trường hợp kì K=10

In [21]:
clf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print('Result for 20 test data points: ')
print('Predicted labels: ', y_pred[20:40])
print('Ground truth    : ', y_test[20:40])

print('Accuracy of 10NN: %.2f%%' %(100*accuracy_score(y_test, y_pred)))

Result for 20 test data points: 
Predicted labels:  [0 1 2 0 1 1 0 1 1 1 2 0 2 0 0 2 2 2 0 2]
Ground truth    :  [0 1 2 0 1 1 0 1 1 1 2 0 2 0 0 2 2 2 0 2]
Accuracy of 10NN: 98.00%


Ở 2 trường hợp trên, độ chính xác cũng đã tương đối cao, tuy nhiên tập dữ liệu của chúng ta ở đây còn đơn giản, ta hoàn toàn có thể nâng cao độ chính xác lên nữa thông qua việc đánh giá trọng số cho các điểm lân cận.

Nếu trường hợp trên, kỹ thuật major voting cứ môi 10 điểm được coi có vai trò như nhau, tuy nhiên rõ ràng những điểm gần hơn nên có trọng số cao hơn. Vì vậy, ta có thể đánh trọng số khác nhau cho mỗi 10 điểm gần nhất này. Các điềm càng gần điểm test thì sẽ có trọng số càng cao. (Cách đơn giản là lấy nghịch đảo khoảng cách của chúng, trường hợp distance = 0 ta lấy luôn label của điểm training data)

Thực hiện trên sklear:

In [22]:
clf = neighbors.KNeighborsClassifier(n_neighbors=10, p=2, weights='distance')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print('Accuracy of 10NN: %.2f%%' %(100*accuracy_score(y_test, y_pred)))

Accuracy of 10NN: 98.00%
