In [63]:
import numpy as np
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split # for splitting data
from sklearn.metrics import accuracy_score # for evaluating results

In [65]:
np.random.seed(7)
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
print('Labels:', np.unique(iris_y))
# split train and test
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=130)
print('Train size:', X_train.shape[0], ', test size:', X_test.shape[0])

Labels: [0 1 2]
Train size: 20 , test size: 130


Dòng np.random.seed(7) để đảm bảo rằng khi các bạn chạy lại các đoạn code này cũng nhận
được kết quả tương tự. Có thể thay 7 bằng một số tự nhiên bất kỳ 32 bit

In [68]:
model = neighbors.KNeighborsClassifier(n_neighbors = 1, p = 2)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 1NN: 92.31 %


Như đã đề cập, 1NN rất dễ gây ra hiện tượng overfitting. Để giảm thiểu việc này, ta có thể
tăng lượng điểm lân cận lên, ví dụ bảy điểm, và xem xét trong bảy điểm gần nhất, đa số
chúng thuộc vào class nào

In [71]:
model = neighbors.KNeighborsClassifier(n_neighbors = 7, p = 2)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Accuracy of 7NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 7NN: 93.85 %


# Đánh trọng số cho các điểm gần hơn

Trong kỹ thuật major voting bên trên, mỗi trong bảy điểm gần nhất được coi là có vai trò
như nhau và giá trị lá phiếu của mỗi điểm này là như nhau. Như thế có thể không công
bằng, vì những điểm gần hơn cần có trọng số cao hơn. Vì vậy, ta sẽ đánh trọng số khác
nhau cho mỗi trong bảy điểm gần nhất này. Cách đánh trọng số phải thoải mãn điều kiện là
một điểm càng gần điểm kiểm thử phải được đánh trọng số càng cao. Cách đơn giản nhất
là lấy nghịch đảo của khoảng cách này. Trong trường hợp test data trùng với một điểm dữ
liệu trong training data, tức khoảng cách bằng 0, ta lấy luôn đầu ra của điểm training data.
Scikit-learn giúp chúng ta đơn giản hóa việc này bằng cách gán thuộc tính weights = ’
distance’. (Giá trị mặc định của weights là ’uniform’, tương ứng với việc coi tất cả các điểm
lân cận có giá trị như nhau như ở trên).

In [75]:
model = neighbors.KNeighborsClassifier(n_neighbors = 7, p = 2, weights = 'distance')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print("Accuracy of 7NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 7NN: 94.62 %
