Implementation of KNN method

In [6]:
import numpy as np
from collections import Counter
def euclidean(x,x_train):
    return [np.sqrt(sum(i)) for i in np.square(x-x_train)]
def knn_classifier(X_train,y_train, X_text, k=2):
    prediction = []
    for i in range(len(X_text)):
        dist = euclidean(X_text[i],X_train)
        dist_with_class = [(i,j) for i,j in zip(dist,y_train)]
        sorted_dist_with_class = dist_with_class
        sorted_dist_with_class.sort(key= lambda x: x[0])
        k_sorted_dist_with_class = sorted_dist_with_class[:k]
        # print(k_sorted_dist_with_class)
        k_sorted_dist_with_class_counter = Counter([c[1] for c in k_sorted_dist_with_class])
        prediction.append(k_sorted_dist_with_class_counter.most_common(1)[0][0])

    return prediction



KNN applied in a small data

In [11]:
x_train=np.array([[1,2],[3,4],[5,6],[7,8],[9,10]])
y_train=['a','a','a','b','b']
y_test=['a','b']
x_test=[[1,3],[8,9]]
knn_classifier(x_train,y_train,x_test, k=3)

['a', 'b']

Prediction on the iris dataset by this knn method for k=3

In [12]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
iris=load_iris(as_frame=True)
# display(iris)
# print(iris.keys())
X = iris.data.values
# display(X)
y = iris.target.values
# display(y)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size= 0.8, random_state= 0)

# print(len(X_train))
# print(len(x_test))

y_pred = knn_classifier(X_train, y_train, X_test,k=3)
print(y_pred)

[2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 2, 0, 1, 1, 0, 0, 2, 1, 0, 0, 2, 0, 0, 1, 1, 0]


Accuracy check for the above prediction

In [13]:
from sklearn.metrics import accuracy_score,classification_report, confusion_matrix
accuracy=accuracy_score(y_test,y_pred)
print('Accuracy:',accuracy*100)
print('\nClassification Report:',classification_report(y_test,y_pred))
print('\nConfusion Matrix:',confusion_matrix(y_test,y_pred))

Accuracy: 96.66666666666667

Classification Report:               precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.92      0.96        13
           2       0.86      1.00      0.92         6

    accuracy                           0.97        30
   macro avg       0.95      0.97      0.96        30
weighted avg       0.97      0.97      0.97        30


Confusion Matrix: [[11  0  0]
 [ 0 12  1]
 [ 0  0  6]]


Finding the optimal k

In [14]:
accuracy_array = []
best_accuracy = 0
best_k = 0
ks = range(2,int(len(X_train)/2))

for k in ks:
    y_pred = knn_classifier(X_train, y_train, X_test, k=k)
    accuracy = accuracy_score(y_test,y_pred)
    accuracy_array.append(accuracy)
    if accuracy > best_accuracy:
        best_accuracy = accuracy
        best_k = k

print(accuracy_array)
print(f'best k is {best_k} and best accuracy is {best_accuracy}')

[1.0, 0.9666666666666667, 1.0, 0.9666666666666667, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 0.9666666666666667, 0.9666666666666667, 0.9666666666666667, 0.9666666666666667, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9666666666666667, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9333333333333333, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9, 0.9333333333333333, 0.9333333333333333]
best k is 2 and best accuracy is 1.0
