# K-Nearest Neighbors (KNN)

In [73]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [74]:

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
X_train, X_test, y_train, y_test = train_test_split( iris_X, iris_y, test_size=50)

print ("Training size:", len(y_train))
print ("Test size    :", len(y_test))

Training size: 100
Test size    : 50


#### Note:
- $weight$ mặc định ***uniform***, tức coi K neighbors như nhau, ***distance*** cách đánh trọng số phải thoải mãn điều kiện là một điểm càng gần điểm test data thì phải được đánh trọng số càng cao (tin tưởng hơn). Cách đơn giản nhất là lấy nghịch đảo của khoảng cách này.
- ở trên, scikit-learn còn cung cấp cho chúng ta một cách để đánh trọng số một cách tùy chọn. Ví dụ, một cách đánh trọng số phổ biến khác trong Machine Learning là: <br>
    $w_i = \exp \left( \frac{-||\mathbf{x} - \mathbf{x}_i||_2^2}{\sigma^2} \right)$

In [75]:
clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2,  weights = 'distance') #p = 2 tức norm 2
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print ("Print results for 50 test data points:")
print ("Predicted labels: ", y_pred[:])
print ("Ground truth    : ", y_test[:])
print ("Accuracy of 1NN: %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Print results for 50 test data points:
Predicted labels:  [2 0 2 0 0 2 0 2 2 2 2 2 1 0 1 1 0 1 0 1 0 2 1 0 1 2 2 0 2 0 1 1 2 2 2 1 2
 0 0 0 0 1 0 1 1 0 1 1 1 1]
Ground truth    :  [2 0 2 0 0 2 0 2 2 2 2 2 1 0 1 1 0 1 0 1 0 2 1 0 1 2 2 0 2 0 1 1 2 2 2 1 2
 0 0 0 0 1 0 1 1 0 1 1 1 1]
Accuracy of 1NN: 100.00 %


In [76]:
def myweight(distances):
    sigma2 = .5 # we can change this number
    return np.exp(-distances**2/sigma2)

clf = neighbors.KNeighborsClassifier(n_neighbors = 10, p = 2, weights = myweight)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print ("Accuracy of 10NN (customized weights): %.2f %%" %(100*accuracy_score(y_test, y_pred)))

Accuracy of 10NN (customized weights): 100.00 %
