# Giới thiệu

K-nearest neighbor là 1 trong những thuật toán supervised-learning đơn giản nhất, mọi tính toán được thực hiện khi nó cần dự đoán kết quả của dữ liệu mới. 

Trong KNN, label của điểm dữ liệu mới được suy ra trực tiếp từ k điểm dữ liệu gần nhất trong training set theo 2 cách:
- quyết định bằng major voting của các điểm gần nhất
- quyết định dựa trên trọng số của các điểm gần nhất 

# Ví dụ về bộ cơ sở dữ liệu Iris

Iris flower dataset là bộ dữ liệu nhỏ gồm 4 loại hoa khác nhau, mỗi loại có 50 bông hoa với 4 thông tin: chiều dài, chiều rộng đài hoa, chiều dài chiều rộng cánh hoa.

Mỗi điểm dữ liệu trong tập này là 1 vector 4 chiều chứ không phải ảnh

In [53]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

In [75]:
iris = datasets.load_iris()
iris_X = iris.data # đặc điểm từng loại hoa
iris_y = iris.target #label
print ('Number of classes: %d' %len(np.unique(iris_y)))
print ('Number of data points: %d' %len(iris_y))


X0 = iris_X[iris_y == 0,:]
print ('\nSamples from class 0:\n', X0[:5,:])

X1 = iris_X[iris_y == 1,:]
print ('\nSamples from class 1:\n', X1[:5,:])

X2 = iris_X[iris_y == 2,:]
print ('\nSamples from class 2:\n', X2[:5,:])
print(iris_X.shape)
print(iris_y.shape)

Number of classes: 3
Number of data points: 150

Samples from class 0:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

Samples from class 1:
 [[7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]]

Samples from class 2:
 [[6.3 3.3 6.  2.5]
 [5.8 2.7 5.1 1.9]
 [7.1 3.  5.9 2.1]
 [6.3 2.9 5.6 1.8]
 [6.5 3.  5.8 2.2]]
(150, 4)
(150,)


In [55]:
# tách training và test set
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=50)

In [56]:
clf = neighbors.KNeighborsClassifier(n_neighbors = 1, p =2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
print ("Print results for 20 test data points:")
print( "Predicted labels: ", y_pred[20:40])
print ("Ground truth    : ", y_test[20:40])

Print results for 20 test data points:
Predicted labels:  [1 2 2 2 2 2 1 1 1 1 0 1 0 0 1 2 2 2 0 2]
Ground truth    :  [1 2 2 2 2 2 1 1 1 1 0 1 0 0 1 2 1 2 0 2]


Để đánh giá độ chính xác của thuật toán, ta xem có bao nhiêu điểm trong data set được dự đoán đúng, lấy số lượng đó chia cho tổng số lượng điểm trong test data

In [57]:
"Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred))

'Accuracy of 1NN: 96.00 %'

In [58]:
clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print ("Accuracy of 10NN with major voting: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 10NN with major voting: 96.00 %


Đánh trọng số cho các điểm lân cận, trọng số càng cao thì điểm training data càng được tin tưởng. nếu khoảng cách = 0 (trọng số max) thì điểm test sẽ lấy luôn label của điểm training data đó

In [59]:
clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2, weights = 'distance')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print ("Accuracy of 10NN (1/distance weights): %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 10NN (1/distance weights): 96.00 %


# Quyết định số neighbour trong kNN


Độ chính xác phân loại phụ thuộc nhiều đến k. Nếu k nhỏ, nhiễu sẽ có ảnh hưởng lớn tới kết quả, khi đó xảy ra hiện tượng overfitting. Nếu k quá cao thì sẽ mất rất nhiều chi phí để xây dựng model. Khi số class chẵn, ta chọn k lẻ để phục vụ major voting.

In [60]:
df = pd.read_csv("C:\AI\data\/breast-cancer-wisconsin.data.txt", header = None)
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,1000025,5,1,1,1,2,1,3,1,1,2
1,1002945,5,4,4,5,7,10,3,2,1,2
2,1015425,3,1,1,1,2,2,3,1,1,2
3,1016277,6,8,8,1,3,4,3,7,1,2
4,1017023,4,1,1,3,2,1,3,1,1,2


In [61]:
df.columns = ['Id', 'Clump_thickness', 'Uniformity_Cell_Size', 'Uniformity_Cell_Shape', 'Marginal_Adhesion', 
             'Single_Epithelial_Cell_Size', 'Bare_Nuclei', 'Bland_Chromatin', 'Normal_Nucleoli', 'Mitoses', 'Class']
df = df.drop(['Id'], axis = 1)
df.head()

Unnamed: 0,Clump_thickness,Uniformity_Cell_Size,Uniformity_Cell_Shape,Marginal_Adhesion,Single_Epithelial_Cell_Size,Bare_Nuclei,Bland_Chromatin,Normal_Nucleoli,Mitoses,Class
0,5,1,1,1,2,1,3,1,1,2
1,5,4,4,5,7,10,3,2,1,2
2,3,1,1,1,2,2,3,1,1,2
3,6,8,8,1,3,4,3,7,1,2
4,4,1,1,3,2,1,3,1,1,2


In [62]:
df.dtypes

Clump_thickness                 int64
Uniformity_Cell_Size            int64
Uniformity_Cell_Shape           int64
Marginal_Adhesion               int64
Single_Epithelial_Cell_Size     int64
Bare_Nuclei                    object
Bland_Chromatin                 int64
Normal_Nucleoli                 int64
Mitoses                         int64
Class                           int64
dtype: object

In [63]:
df['Bare_Nuclei'] = pd.to_numeric(df['Bare_Nuclei'], errors='coerce')

In [64]:
df.dtypes

Clump_thickness                  int64
Uniformity_Cell_Size             int64
Uniformity_Cell_Shape            int64
Marginal_Adhesion                int64
Single_Epithelial_Cell_Size      int64
Bare_Nuclei                    float64
Bland_Chromatin                  int64
Normal_Nucleoli                  int64
Mitoses                          int64
Class                            int64
dtype: object

In [80]:
df= df.dropna(axis=0)

In [81]:
X = df.values[:,:9]
y = df['Class']

In [82]:
print(X.shape)
print(y.shape)

(683, 9)
(683,)


In [83]:
# tách training và test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=50)

In [84]:
bc = neighbors.KNeighborsClassifier(n_neighbors = 1, p =2)
bc.fit(X_train, y_train)
y_pred = bc.predict(X_test)
print ("Print results for 20 test data points:")
print( "Predicted labels: ", y_pred[20:40])
print ("Ground truth    : ", y_test[20:40])

Print results for 20 test data points:
Predicted labels:  [2 2 4 2 2 4 2 4 2 2 2 2 4 4 2 2 2 4 4 2]
Ground truth    :  671    2
342    2
449    4
413    2
516    2
571    4
688    2
53     4
504    2
79     2
562    2
601    2
132    4
391    4
529    2
72     2
108    2
648    4
159    4
350    2
Name: Class, dtype: int64


In [91]:
"Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred))


'Accuracy of 1NN: 98.00 %'

In [93]:
bc = neighbors.KNeighborsClassifier(n_neighbors = 3, p =2)
bc.fit(X_train, y_train)
y_pred = bc.predict(X_test)
"Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred))

'Accuracy of 1NN: 100.00 %'

In [98]:
clf = neighbors.KNeighborsClassifier(n_neighbors = 9, p = 2, weights = 'distance')
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print ("Accuracy of 10NN (1/distance weights): %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 10NN (1/distance weights): 100.00 %


In [1]:
print("a")

a
