## import libraries

In [1]:
import pandas as pd
import numpy as np
from math import sqrt

### prepare data


In [2]:
df_train = pd.read_csv("data/letter/let_train.csv", delimiter=',', header=None, names=[i for i in range(17)], index_col=False)

In [3]:
df_test = pd.read_csv("data/letter/let_test.csv", delimiter=',', header=None, names=[i for i in range(17)], index_col=False)

### exploratory

In [4]:
df_train.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8,19
1,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10,8
2,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9,3
3,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8,13
4,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10,6


In [5]:
df_test.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,4,8,5,6,3,8,7,3,7,10,4,7,2,8,5,9,18
1,3,5,5,3,2,8,8,2,5,10,4,6,5,8,1,7,13
2,5,9,7,4,4,6,4,3,2,8,4,10,7,3,1,8,12
3,1,1,2,1,0,8,14,1,5,6,10,8,0,8,0,8,19
4,3,2,5,3,2,7,10,1,7,7,11,8,1,11,2,8,24


### get features

In [6]:
x_train = df_train.iloc[:,:-1]
x_train.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
1,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
2,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9
3,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8
4,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10


In [7]:
x_test = df_test.iloc[:,:-1]
x_test.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,4,8,5,6,3,8,7,3,7,10,4,7,2,8,5,9
1,3,5,5,3,2,8,8,2,5,10,4,6,5,8,1,7
2,5,9,7,4,4,6,4,3,2,8,4,10,7,3,1,8
3,1,1,2,1,0,8,14,1,5,6,10,8,0,8,0,8
4,3,2,5,3,2,7,10,1,7,7,11,8,1,11,2,8


### get labels

In [8]:
y_train = df_train.iloc[:,-1:]
y_train.head(5)

Unnamed: 0,16
0,19
1,8
2,3
3,13
4,6


In [9]:
y_trainset=y_train.values
y_trainset[:5]

array([[19],
       [ 8],
       [ 3],
       [13],
       [ 6]], dtype=int64)

In [10]:
y_test = df_test.iloc[:,-1:]
y_test.head(5)

Unnamed: 0,16
0,18
1,13
2,12
3,19
4,24


In [11]:
y_testset=y_test.values
y_testset[:5]

array([[18],
       [13],
       [12],
       [19],
       [24]], dtype=int64)

### Normalize data

#### min max scale

In [12]:
x_train = (x_train-x_train.min())/(x_train.max()-x_train.min())
x_train.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,0.133333,0.533333,0.2,0.333333,0.066667,0.533333,0.866667,0.0,0.4,0.4,0.666667,0.533333,0.0,0.533333,0.0,0.5
1,0.333333,0.8,0.2,0.466667,0.133333,0.666667,0.333333,0.333333,0.266667,0.866667,0.2,0.6,0.133333,0.533333,0.266667,0.642857
2,0.266667,0.733333,0.4,0.533333,0.4,0.666667,0.4,0.133333,0.4,0.666667,0.2,0.466667,0.2,0.466667,0.2,0.571429
3,0.466667,0.733333,0.4,0.4,0.2,0.333333,0.6,0.266667,0.4,0.266667,0.266667,0.666667,0.4,0.666667,0.133333,0.5
4,0.133333,0.066667,0.2,0.066667,0.066667,0.533333,0.4,0.4,0.4,0.4,0.333333,0.6,0.066667,0.466667,0.333333,0.642857


In [13]:
x_trainset=x_train.values
x_trainset[:5]

array([[0.13333333, 0.53333333, 0.2       , 0.33333333, 0.06666667,
        0.53333333, 0.86666667, 0.        , 0.4       , 0.4       ,
        0.66666667, 0.53333333, 0.        , 0.53333333, 0.        ,
        0.5       ],
       [0.33333333, 0.8       , 0.2       , 0.46666667, 0.13333333,
        0.66666667, 0.33333333, 0.33333333, 0.26666667, 0.86666667,
        0.2       , 0.6       , 0.13333333, 0.53333333, 0.26666667,
        0.64285714],
       [0.26666667, 0.73333333, 0.4       , 0.53333333, 0.4       ,
        0.66666667, 0.4       , 0.13333333, 0.4       , 0.66666667,
        0.2       , 0.46666667, 0.2       , 0.46666667, 0.2       ,
        0.57142857],
       [0.46666667, 0.73333333, 0.4       , 0.4       , 0.2       ,
        0.33333333, 0.6       , 0.26666667, 0.4       , 0.26666667,
        0.26666667, 0.66666667, 0.4       , 0.66666667, 0.13333333,
        0.5       ],
       [0.13333333, 0.06666667, 0.2       , 0.06666667, 0.06666667,
        0.53333333, 0.4       , 

In [14]:
x_test = (x_test-x_test.min())/(x_test.max()-x_test.min())
x_test.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,0.285714,0.533333,0.357143,0.4,0.2,0.533333,0.466667,0.2,0.466667,0.666667,0.266667,0.384615,0.133333,0.538462,0.333333,0.6
1,0.214286,0.333333,0.357143,0.2,0.133333,0.533333,0.533333,0.133333,0.333333,0.666667,0.266667,0.307692,0.333333,0.538462,0.066667,0.466667
2,0.357143,0.6,0.5,0.266667,0.266667,0.4,0.266667,0.2,0.133333,0.533333,0.266667,0.615385,0.466667,0.153846,0.066667,0.533333
3,0.071429,0.066667,0.142857,0.066667,0.0,0.533333,0.933333,0.066667,0.333333,0.4,0.666667,0.461538,0.0,0.538462,0.0,0.533333
4,0.214286,0.133333,0.357143,0.2,0.133333,0.466667,0.666667,0.066667,0.466667,0.466667,0.733333,0.461538,0.066667,0.769231,0.133333,0.533333


In [15]:
x_testset=x_test.values
x_testset[:5]

array([[0.28571429, 0.53333333, 0.35714286, 0.4       , 0.2       ,
        0.53333333, 0.46666667, 0.2       , 0.46666667, 0.66666667,
        0.26666667, 0.38461538, 0.13333333, 0.53846154, 0.33333333,
        0.6       ],
       [0.21428571, 0.33333333, 0.35714286, 0.2       , 0.13333333,
        0.53333333, 0.53333333, 0.13333333, 0.33333333, 0.66666667,
        0.26666667, 0.30769231, 0.33333333, 0.53846154, 0.06666667,
        0.46666667],
       [0.35714286, 0.6       , 0.5       , 0.26666667, 0.26666667,
        0.4       , 0.26666667, 0.2       , 0.13333333, 0.53333333,
        0.26666667, 0.61538462, 0.46666667, 0.15384615, 0.06666667,
        0.53333333],
       [0.07142857, 0.06666667, 0.14285714, 0.06666667, 0.        ,
        0.53333333, 0.93333333, 0.06666667, 0.33333333, 0.4       ,
        0.66666667, 0.46153846, 0.        , 0.53846154, 0.        ,
        0.53333333],
       [0.21428571, 0.13333333, 0.35714286, 0.2       , 0.13333333,
        0.46666667, 0.66666667, 

### data handling

In [16]:
y = []
for i in y_trainset:
    y.append(i[0])

In [17]:
trainset = np.insert(x_trainset, 16, y, axis=1) 
trainset[:5]

array([[ 0.13333333,  0.53333333,  0.2       ,  0.33333333,  0.06666667,
         0.53333333,  0.86666667,  0.        ,  0.4       ,  0.4       ,
         0.66666667,  0.53333333,  0.        ,  0.53333333,  0.        ,
         0.5       , 19.        ],
       [ 0.33333333,  0.8       ,  0.2       ,  0.46666667,  0.13333333,
         0.66666667,  0.33333333,  0.33333333,  0.26666667,  0.86666667,
         0.2       ,  0.6       ,  0.13333333,  0.53333333,  0.26666667,
         0.64285714,  8.        ],
       [ 0.26666667,  0.73333333,  0.4       ,  0.53333333,  0.4       ,
         0.66666667,  0.4       ,  0.13333333,  0.4       ,  0.66666667,
         0.2       ,  0.46666667,  0.2       ,  0.46666667,  0.2       ,
         0.57142857,  3.        ],
       [ 0.46666667,  0.73333333,  0.4       ,  0.4       ,  0.2       ,
         0.33333333,  0.6       ,  0.26666667,  0.4       ,  0.26666667,
         0.26666667,  0.66666667,  0.4       ,  0.66666667,  0.13333333,
         0.5       

In [18]:
yi = []
for i in y_testset:
    yi.append(i[0])

In [19]:
testset = np.insert(x_testset, 16, yi , axis =1) 
testset[:5]

array([[ 0.28571429,  0.53333333,  0.35714286,  0.4       ,  0.2       ,
         0.53333333,  0.46666667,  0.2       ,  0.46666667,  0.66666667,
         0.26666667,  0.38461538,  0.13333333,  0.53846154,  0.33333333,
         0.6       , 18.        ],
       [ 0.21428571,  0.33333333,  0.35714286,  0.2       ,  0.13333333,
         0.53333333,  0.53333333,  0.13333333,  0.33333333,  0.66666667,
         0.26666667,  0.30769231,  0.33333333,  0.53846154,  0.06666667,
         0.46666667, 13.        ],
       [ 0.35714286,  0.6       ,  0.5       ,  0.26666667,  0.26666667,
         0.4       ,  0.26666667,  0.2       ,  0.13333333,  0.53333333,
         0.26666667,  0.61538462,  0.46666667,  0.15384615,  0.06666667,
         0.53333333, 12.        ],
       [ 0.07142857,  0.06666667,  0.14285714,  0.06666667,  0.        ,
         0.53333333,  0.93333333,  0.06666667,  0.33333333,  0.4       ,
         0.66666667,  0.46153846,  0.        ,  0.53846154,  0.        ,
         0.53333333

### trainning

In [20]:
def Euclidean_distance(row1, row2):
    distance = 0
    for i in range(len(row1)-1):
        distance += (row1[i] - row2[i])**2
    return sqrt(distance)

"""
second function we have created is Get_Neighbors with the help of this function we can find out our nearest 3 datapoints.This function shows that the distance between our test data and training row is different.
"""

def Get_Neighbors(train, test_row, num):
   
    distance = list() # []
    data = []
    for i in train:
        dist = Euclidean_distance(test_row, i)
        distance.append(dist)
        data.append(i)
    distance = np.array(distance)
    data = np.array(data)

    """ we are finding index of min distance """

    index_dist = distance.argsort()

    """ we arange our data acco. to index """

    data  = data[index_dist]

    """ we are slicing num number of datas """

    neighbors = data[:num]
    
    return neighbors

"""Here we have created third function Predict_Classification for the prediction of values through our trained model"""  

def predict_classification(train, test_row, num):
    Neighbors = Get_Neighbors(train, test_row, num)
    Classes = []
    for i in Neighbors:
        Classes.append(i[-1])
    prediction = max(Classes, key= Classes.count)
    return prediction

"""We have created Evaluate Function for checking the accuracy of our predicted values """

def Evaluate(y_true, y_pred):
    n_correct = 0
    for i in range(len(y_true)):
        if y_true[i] == y_pred[i]:
            n_correct += 1

    acc = n_correct/len(y_true)
    
    return acc

In [22]:
prediction = predict_classification(trainset, testset[2], 1)

print("Label là:", prediction)

Label là: 12.0


### Evaluate

In [25]:
#created an empty list y_pred where we store all the prediction values.
y_pred = []
y_true = testset[:, -1]
for i in testset:
    prediction = predict_classification(trainset, i, 3)
    y_pred.append(prediction)

Evaluate(y_true, y_pred)

0.9390939093909391

In [27]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true, y_pred)

array([[270,   3,   0,   0,   0,   0,   1,   0,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0, 229,   0,   2,   0,   0,   0,   2,   0,   0,   0,   0,   0,
          0,   0,   0,   0,   5,   0,   0,   0,   2,   0,   0,   0,   0],
       [  0,   0, 213,   0,   4,   0,   2,   0,   0,   0,   1,   0,   0,
          0,   1,   0,   2,   0,   0,   1,   0,   1,   1,   0,   0,   0],
       [  0,   1,   0, 268,   0,   0,   0,   5,   0,   1,   0,   0,   0,
          0,   0,   0,   0,   2,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   7,   1,   0, 228,   2,   1,   0,   0,   0,   2,   2,   0,
          0,   0,   1,   0,   1,   3,   0,   0,   1,   0,   4,   0,   9],
       [  0,   0,   0,   0,   0, 228,   0,   2,   0,   0,   0,   0,   0,
          1,   0,  35,   0,   0,   0,   2,   0,   1,   0,   0,   0,   0],
       [  0,   4,   0,   2,   7,   1, 232,   2,   0,   0,   1,   2,   2,
          0,   3,   1,   1,   1,   0,   0,   