In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_digits,load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

In [2]:
# load dataset
iris = load_iris()
df = pd.DataFrame(iris.data)
df['label'] = iris.target

In [3]:
df.head()

Unnamed: 0,0,1,2,3,label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [4]:
class KNNClassifier:
    def __init__(self,k, X, Y, metric="l2"):
        self.k = k if k <= len(X) else len(X)
        self.points = X
        self.labels = Y
        self.metric = metric
        
    def calc_distance(self,x):
        res = self.points - x
        if self.metric == "l1":
            return np.sum(np.abs(res),axis=1)
        elif self.metric == "l2":
            return np.sqrt(np.sum(res**2,axis=1))
        elif self.metric == "infinity":
            return np.max(np.abs(res),axis=1)
        else:
            raise ValueError("Invalid metric method!")
        
    def forward(self,x):
        distances = self.calc_distance(x)
        distances_with_label = np.concatenate((distances.reshape(len(distances),1),self.labels.reshape(len(distances),1)),axis=1)
        #get k neighbors by distance
        sorted_dists = np.stack(sorted(distances_with_label,key=lambda x:x[0]))
        k_labels = sorted_dists[:,1][:self.k]
        (labels,counts) = np.unique(k_labels,return_counts=True)
        ind=np.argmax(counts)
        return labels[ind]
        
    def predict(self,X):
        res = []
        for x in X:
            y = self.forward(x)
            res.append(y)
        return res

In [5]:
#prepare data
X,Y = df.values[:,:-1],df.values[:,-1]
train_X,test_X,train_Y,test_Y = train_test_split(X,Y,test_size=0.9,random_state=42)

model = KNNClassifier(k=4,X=train_X,Y=train_Y,metric="l2")
preds = model.predict(test_X)
print(accuracy_score(test_Y,preds))

0.977777777778


In [6]:
test_Y

array([ 1.,  0.,  2.,  1.,  1.,  0.,  1.,  2.,  1.,  1.,  2.,  0.,  0.,
        0.,  0.,  1.,  2.,  1.,  1.,  2.,  0.,  2.,  0.,  2.,  2.,  2.,
        2.,  2.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  2.,  1.,  0.,  0.,
        0.,  2.,  1.,  1.,  0.,  0.,  1.,  2.,  2.,  1.,  2.,  1.,  2.,
        1.,  0.,  2.,  1.,  0.,  0.,  0.,  1.,  2.,  0.,  0.,  0.,  1.,
        0.,  1.,  2.,  0.,  1.,  2.,  0.,  2.,  2.,  1.,  1.,  2.,  1.,
        0.,  1.,  2.,  0.,  0.,  1.,  1.,  0.,  2.,  0.,  0.,  1.,  1.,
        2.,  1.,  2.,  2.,  1.,  0.,  0.,  2.,  2.,  0.,  0.,  0.,  1.,
        2.,  0.,  2.,  2.,  0.,  1.,  1.,  2.,  1.,  2.,  0.,  2.,  1.,
        2.,  1.,  1.,  1.,  0.,  1.,  1.,  0.,  1.,  2.,  2.,  0.,  1.,
        2.,  2.,  0.,  2.,  0.])

In [7]:
np.array(preds)

array([ 1.,  0.,  2.,  1.,  1.,  0.,  1.,  2.,  1.,  1.,  2.,  0.,  0.,
        0.,  0.,  1.,  2.,  1.,  1.,  2.,  0.,  2.,  0.,  2.,  2.,  2.,
        2.,  2.,  0.,  0.,  0.,  0.,  1.,  0.,  0.,  2.,  1.,  0.,  0.,
        0.,  2.,  1.,  1.,  0.,  0.,  1.,  2.,  2.,  1.,  2.,  1.,  2.,
        1.,  0.,  2.,  1.,  0.,  0.,  0.,  1.,  2.,  0.,  0.,  0.,  1.,
        0.,  1.,  2.,  0.,  1.,  2.,  0.,  2.,  2.,  1.,  1.,  2.,  1.,
        0.,  1.,  2.,  0.,  0.,  1.,  2.,  0.,  2.,  0.,  0.,  2.,  1.,
        2.,  2.,  2.,  2.,  1.,  0.,  0.,  2.,  2.,  0.,  0.,  0.,  1.,
        2.,  0.,  2.,  2.,  0.,  1.,  1.,  2.,  1.,  2.,  0.,  2.,  1.,
        2.,  1.,  1.,  1.,  0.,  1.,  1.,  0.,  1.,  2.,  2.,  0.,  1.,
        2.,  2.,  0.,  2.,  0.])