In [302]:
import numpy as np
import pandas as pd

In [303]:
# loading the dataset
data = pd.read_csv('./sobar-72.csv')

# shuffling the dataset
from sklearn.utils import shuffle
data = shuffle(data)

# normalising the data
data_y = data.pop('ca_cervix')
data = (data - data.mean())/data.std()
data['ca_cervix'] = data_y

data = data.to_numpy()

# splitting the dataset into train and test set
m = len(data)
n = 15
train_set = data[:m-n]
test_set = data[m-n:m]

In [304]:
# function to calculate dist between two feature vectors
def get_dist(x,y):
    dist = np.sqrt(np.sum(np.square(x[:-1] - y[:-1])))
    return dist

<h2>Implementing Standard KNN from Scratch</h2>

In [305]:
# standard knn 
def knn(x, train_set, k):
    dists = []
    for t in train_set:
        d = get_dist(x, t)
        dists.append((t, d))
    dists.sort(key=lambda tuple: tuple[1])
    nearest_neighbours = dists[:k]
    nn_class = []
    for n in nearest_neighbours:
        nn_class.append(n[0][-1])
    return max(set(nn_class), key = nn_class.count)

In [306]:
# function to test model on test set
def test(train_set, test_set):
    predictions = []
    true_classes = []
    for x in test_set:
        predictions.append(knn(x, train_set, 5))
        true_classes.append(x[-1])

    # getting accuracy
    accuracy = 100 - 100*np.sum(np.absolute(np.array(predictions) - np.array(true_classes)))/n
    
    return accuracy, predictions

In [301]:
# test standard knn on test set
acc, pred = test(train_set, test_set)
print(f"Prediction of Standard KNN : {pred}")
print(f"Accuracy of Standard KNN : {acc}")

Prediction of Standard KNN : [1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Accuracy of Standard KNN : 66.66666666666666


<h2> Implementing Standard KNN using Sklearn Library

In [307]:
# comparing performance with knn model from sklearn library
from sklearn.neighbors import KNeighborsClassifier

train_x = train_set.T[:-1].T
train_y = train_set.T[-1]

std_knn = KNeighborsClassifier(n_neighbors = 5)

std_knn.fit(train_x, train_y)

test_x = test_set.T[:-1].T
test_y = test_set.T[-1]
pred_y = std_knn.predict(test_x)

from sklearn import metrics
acc1 = 100*metrics.accuracy_score(pred_y, test_y)
print(f"Prediction of Standard KNN using sklearn lib : {pred_y}")
print(f"Accuracy of Standard KNN using sklearn lib : {acc}")

Prediction of Standard KNN using sklearn lib : [1 1 1 1 0 1 0 0 0 0 0 0 0 0 0]
Accuracy of Standard KNN using sklearn lib : 66.66666666666666


<h2> Implementing Condensed KNN from scratch </h2>

In [308]:
# condensed knn
def condense(train_set, init_idx=0):
    condensed_train = np.array([train_set[init_idx]])
    isCondensed = False
    y_pred = []
    while not isCondensed:
        isCondensed = True
        y_pred = []
        for t in train_set:
            y = knn(t, condensed_train, 1)
            y_pred.append(y)
            if y != t[-1]:
                isCondensed = False
        for i,t in enumerate(train_set):
            if y_pred[i] != t[-1]:
                condensed_train = np.concatenate((condensed_train, [train_set[i]]))
    return condensed_train

In [309]:
condensed_train = condense(train_set, 0)
acc, pred = test(condensed_train, test_set)
print(f"Prediction of Condensed KNN : {pred}")
print(f"Accuracy of Condensed KNN : {acc}")

Prediction of Condensed KNN : [1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
Accuracy of Condensed KNN : 66.66666666666666


In [310]:
# initializing condensed knn with each training example and checking accuracy
for i in range(train_set.shape[0]):
    condensed_train = condense(train_set, i)
    accuracy, predictions = test(condensed_train, test_set)
    print(i, accuracy)

0 66.66666666666666
1 66.66666666666666
2 66.66666666666666
3 66.66666666666666
4 66.66666666666666
5 66.66666666666666
6 66.66666666666666
7 66.66666666666666
8 66.66666666666666
9 80.0
10 80.0
11 66.66666666666666
12 66.66666666666666
13 66.66666666666666
14 66.66666666666666
15 93.33333333333333
16 93.33333333333333
17 93.33333333333333
18 93.33333333333333
19 66.66666666666666
20 93.33333333333333
21 66.66666666666666
22 66.66666666666666
23 66.66666666666666
24 66.66666666666666
25 66.66666666666666
26 66.66666666666666
27 66.66666666666666
28 66.66666666666666
29 66.66666666666666
30 66.66666666666666
31 66.66666666666666
32 66.66666666666666
33 66.66666666666666
34 66.66666666666666
35 66.66666666666666
36 66.66666666666666
37 66.66666666666666
38 66.66666666666666
39 66.66666666666666
40 66.66666666666666
41 60.0
42 66.66666666666666
43 66.66666666666666
44 60.0
45 66.66666666666666
46 60.0
47 66.66666666666666
48 60.0
49 60.0
50 66.66666666666666
51 66.66666666666666
52 60.0
5