# Assumptions:
- Data has been split in to Train and Test (xTrain,yTrain,xTest,yTest) already available
- k will be sqrt(no.of rows)
- distance will take the parameter L1Norm (Manhattan Distance), L2Norm (Euclidean Distance) or Cosine Distance


# KNN_Classifier

In [468]:
class KNN_Classifier:
    def __init__(self,k,metric):
        self.k = k
        self.metric = metric
        
    def fit(self, xTrain, yTrain):
        self.xTrain = xTrain
        self.yTrain = yTrain
        
    def euclidean(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j)**2 for i,j in zip(self.v1,self.v2)]
        ans = pow(sum(l),1/2)
        return ans
        
    def manhattan(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j) for i,j in zip(self.v1.values,self.v2.values)]
        ans = sum(l)
        return ans
        
    def cosine(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        cSim = (sum(i*j for i,j in zip(self.v1,self.v2)))/((sum(i**2 for i in self.v1)**0.5)*(sum(i**2 for i in self.v2)**0.5))
        ans = 1-cSim
        return ans
    
    
    def predict(self, xTest):
        self.xTest = xTest
        y_prediction = []

        for i in range(len(self.xTest)):
            # for every point in test data we find distance from all the data points in train
            d = []
            class_count = []

            for j in range(len(self.xTrain)):

                try:
                    if self.metric == 'euclidean':
                        distance = self.euclidean(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                         

                    elif self.metric == 'manhattan':
                        distance = self.manhattan(self.xTrain.iloc[j], self.xTest.iloc[i])
                        d.append([distance, j])   

                            
                    elif self.metric == 'cosine':
                        distance = self.cosine(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                    
                except ValueError:
                    print("ValueError")
                    print("Type the correct metric: euclidean/manhattan/cosine")
        
        
            d.sort()
            d_nearest = d[0:self.k]
            #print(d_nearest)
            
            for i, j in d_nearest:
                class_count.append(self.yTrain.iloc[j])
            target = mode(class_count)
            
            y_prediction.append(target)
            
        return y_prediction
        
        
        

In [511]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split

from statistics import mode
from statistics import mean

In [512]:
iris = sns.load_dataset("iris")

In [513]:
iris["species"].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [514]:
# Target column is categorical so we need to do classification task

In [515]:
# Will work with a subset
setosa=iris.loc[iris["species"]=='setosa']
versicolor=iris.loc[iris["species"]=='versicolor']
virginica=iris.loc[iris["species"]=='virginica']

In [516]:
df = pd.concat([setosa.iloc[0:5],versicolor.iloc[0:5],virginica.iloc[0:5]],axis=0,ignore_index=True)
df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,7.0,3.2,4.7,1.4,versicolor
6,6.4,3.2,4.5,1.5,versicolor
7,6.9,3.1,4.9,1.5,versicolor
8,5.5,2.3,4.0,1.3,versicolor
9,6.5,2.8,4.6,1.5,versicolor


In [517]:
X = df[['sepal_length','petal_length']]
y = df['species']

In [518]:
# Split X & y in to xTrain, xTest, yTrain, yTest
xTrain, xTest, yTrain, yTest = train_test_split(X,y,
                                                test_size= 0.32,
                                                random_state= 23)

In [519]:
# check if input variable train and test has same size as target variable
# the rows have to be same for us to proceed
xTrain.shape, xTest.shape, len(yTrain), len(yTest)

((10, 2), (5, 2), 10, 5)

In [478]:
xTrain 

Unnamed: 0,sepal_length,petal_length
14,6.5,5.8
1,4.9,1.4
2,4.7,1.3
7,6.9,4.9
12,7.1,5.9
13,6.3,5.6
9,6.5,4.6
8,5.5,4.0
6,6.4,4.5
3,4.6,1.5


In [479]:
xTest

Unnamed: 0,sepal_length,petal_length
11,5.8,5.1
4,5.0,1.4
0,5.1,1.4
10,6.3,6.0
5,7.0,4.7


In [480]:
# We will be using custom built KNN Classifier 
# As parameters we need k and metric
# for calculation of k we will start with sqrt(no.of.rows)

k = int((df.shape[0])**0.5)

# we need a odd k so we add logic for it
if k%2 == 0:
    k += 1
else:
    k
    
# We will ask the user to choose the metric to calculate the distance
metric = input("Please type the metric: euclidean/manhattan/cosine: ")

Please type the metric: euclidean/manhattan/cosine: cosine


In [481]:
knn = KNN_Classifier(k,metric)

In [482]:
knn.fit(xTrain,yTrain)

In [483]:
xTest

Unnamed: 0,sepal_length,petal_length
11,5.8,5.1
4,5.0,1.4
0,5.1,1.4
10,6.3,6.0
5,7.0,4.7


In [484]:
yPred = knn.predict(xTest)
yPred

['virginica', 'setosa', 'setosa', 'virginica', 'versicolor']

# KNN_Regressor

In [485]:
class KNN_Regressor:
    def __init__(self,k,metric):
        self.k = k
        self.metric = metric
        
    def fit(self, xTrain, yTrain):
        self.xTrain = xTrain
        self.yTrain = yTrain
        
    def euclidean(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j)**2 for i,j in zip(self.v1,self.v2)]
        ans = pow(sum(l),1/2)
        return ans
        
    def manhattan(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j) for i,j in zip(self.v1.values,self.v2.values)]
        ans = sum(l)
        return ans
        
    def cosine(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        cSim = (sum(i*j for i,j in zip(self.v1,self.v2)))/((sum(i**2 for i in self.v1)**0.5)*(sum(i**2 for i in self.v2)**0.5))
        ans = 1-cSim
        return ans
    
    
    def predict(self, xTest):
        self.xTest = xTest
        y_prediction = []

        for i in range(len(self.xTest)):
            # for every point in test data we find distance from all the data points in train
            d = []
            class_count = []

            for j in range(len(self.xTrain)):

                try:
                    if self.metric == 'euclidean':
                        distance = self.euclidean(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                         

                    elif self.metric == 'manhattan':
                        distance = self.manhattan(self.xTrain.iloc[j], self.xTest.iloc[i])
                        d.append([distance, j])   

                            
                    elif self.metric == 'cosine':
                        distance = self.cosine(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                    
                except ValueError:
                    print("ValueError")
                    print("Type the correct metric: euclidean/manhattan/cosine")
        
        
            d.sort()
            d_nearest = d[0:self.k]
            #print(d_nearest)
            
            for i, j in d_nearest:
                class_count.append(self.yTrain.iloc[j])
            target = mean(class_count)
            
            y_prediction.append(target)
            
        return y_prediction
        
        


In [525]:
sales = pd.read_csv("advertising.csv")
sales

Unnamed: 0,TV,Radio,Newspaper,Sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,12.0
3,151.5,41.3,58.5,16.5
4,180.8,10.8,58.4,17.9
...,...,...,...,...
195,38.2,3.7,13.8,7.6
196,94.2,4.9,8.1,14.0
197,177.0,9.3,6.4,14.8
198,283.6,42.0,66.2,25.5


In [526]:
sales.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   TV         200 non-null    float64
 1   Radio      200 non-null    float64
 2   Newspaper  200 non-null    float64
 3   Sales      200 non-null    float64
dtypes: float64(4)
memory usage: 6.4 KB


In [527]:
sales.describe()

Unnamed: 0,TV,Radio,Newspaper,Sales
count,200.0,200.0,200.0,200.0
mean,147.0425,23.264,30.554,15.1305
std,85.854236,14.846809,21.778621,5.283892
min,0.7,0.0,0.3,1.6
25%,74.375,9.975,12.75,11.0
50%,149.75,22.9,25.75,16.0
75%,218.825,36.525,45.1,19.05
max,296.4,49.6,114.0,27.0


In [528]:
sales.columns

Index(['TV', 'Radio', 'Newspaper', 'Sales'], dtype='object')

In [529]:
X = sales[['TV', 'Radio', 'Newspaper']]
y = sales['Sales']

In [530]:
# Split X & y in to xTrain, xTest, yTrain, yTest
xTrain, xTest, yTrain, yTest = train_test_split(X,y,
                                                test_size= 0.32,
                                                random_state= 23)


In [531]:
# check if input variable train and test has same size as target variable
# the rows have to be same for us to proceed
xTrain.shape, xTest.shape, len(yTrain), len(yTest)

((136, 3), (64, 3), 136, 64)

In [493]:
xTrain

Unnamed: 0,TV,Radio,Newspaper
137,273.7,28.9,59.7
87,110.7,40.6,63.2
67,139.3,14.5,10.2
127,80.2,0.0,9.2
45,175.1,22.5,31.5
...,...,...,...
91,28.6,1.5,33.0
31,112.9,17.4,38.6
182,56.2,5.7,29.7
40,202.5,22.3,31.6


In [494]:
xTest

Unnamed: 0,TV,Radio,Newspaper
72,26.8,33.0,19.3
30,292.9,28.3,43.2
188,286.0,13.9,3.7
77,120.5,28.5,14.2
14,204.1,32.9,46.0
...,...,...,...
55,198.9,49.4,60.0
186,139.5,2.1,26.6
3,151.5,41.3,58.5
169,284.3,10.6,6.4


In [495]:
# We will be using custom built KNN Classifier 
# As parameters we need k and metric
# for calculation of k we will start with sqrt(no.of.rows)

k = int((df.shape[0])**0.5)

# we need a odd k so we add logic for it
if k%2 == 0:
    k += 1
else:
    k
    
# We will ask the user to choose the metric to calculate the distance
metric = input("Please type the metric: euclidean/manhattan/cosine: ")

Please type the metric: euclidean/manhattan/cosine: cosine


In [501]:
knn_reg = KNN_Regressor(k,metric)

In [502]:
knn_reg.fit(xTrain,yTrain)

In [504]:
ypred_reg = knn_reg.predict(xTest)
ypred_reg

[10.266666666666667,
 17.633333333333333,
 16.8,
 17.3,
 23.333333333333332,
 10.433333333333334,
 14.866666666666665,
 15.966666666666667,
 23.333333333333332,
 14.633333333333335,
 15.166666666666666,
 8.233333333333334,
 10.5,
 17.166666666666664,
 19.766666666666666,
 16.566666666666666,
 17.166666666666664,
 18.166666666666668,
 20.266666666666666,
 21.03333333333333,
 21.1,
 21.4,
 19.2,
 16.599999999999998,
 5.466666666666667,
 17.266666666666666,
 21.03333333333333,
 17.0,
 18.6,
 15.6,
 17.166666666666664,
 18.466666666666665,
 16.633333333333333,
 16.099999999999998,
 10.866666666666667,
 14.9,
 14.733333333333333,
 15.066666666666666,
 21.366666666666667,
 14.1,
 17.433333333333334,
 13.133333333333333,
 11.733333333333333,
 10.833333333333334,
 19.2,
 6.0,
 17.766666666666666,
 19.4,
 14.633333333333335,
 17.5,
 8.566666666666666,
 10.166666666666668,
 13.266666666666667,
 18.0,
 18.3,
 20.266666666666666,
 17.5,
 17.933333333333334,
 8.533333333333333,
 20.166666666666664,

In [505]:
len(ypred_reg)

64

# KNN Regressor & Classifier in single class

In [509]:
class KNN_Regressor_Classifier:
    def __init__(self,task,k,metric):
        self.task = task
        self.k = k
        self.metric = metric
        
    def fit(self, xTrain, yTrain):
        self.xTrain = xTrain
        self.yTrain = yTrain
        
    def euclidean(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j)**2 for i,j in zip(self.v1,self.v2)]
        ans = pow(sum(l),1/2)
        return ans
        
    def manhattan(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        l = [abs(i-j) for i,j in zip(self.v1.values,self.v2.values)]
        ans = sum(l)
        return ans
        
    def cosine(self,v1,v2):
        self.v1 = v1
        self.v2 = v2
        cSim = (sum(i*j for i,j in zip(self.v1,self.v2)))/((sum(i**2 for i in self.v1)**0.5)*(sum(i**2 for i in self.v2)**0.5))
        ans = 1-cSim
        return ans
    
    
    def predict(self, xTest):
        self.xTest = xTest
        y_prediction = []

        for i in range(len(self.xTest)):
            # for every point in test data we find distance from all the data points in train
            d = []
            class_count = []

            for j in range(len(self.xTrain)):

                try:
                    if self.metric == 'euclidean':
                        distance = self.euclidean(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                         

                    elif self.metric == 'manhattan':
                        distance = self.manhattan(self.xTrain.iloc[j], self.xTest.iloc[i])
                        d.append([distance, j])   

                            
                    elif self.metric == 'cosine':
                        distance = self.cosine(self.xTrain.iloc[j],self.xTest.iloc[i])
                        d.append([distance, j])   
                    
                except ValueError:
                    print("ValueError")
                    print("Type the correct metric: euclidean/manhattan/cosine")
        
        
            d.sort()
            d_nearest = d[0:self.k]
            #print(d_nearest)
            
            for i, j in d_nearest:
                class_count.append(self.yTrain.iloc[j])
            
            try:              
                if task == "R":    
                    target = mean(class_count)
                elif task == "C":
                    target = mode(class_count)
            except ValueError:
                    print("ValueError")
                    print("Type the correct task: R/C")
            
            y_prediction.append(target)
            
        return y_prediction
        
        


In [532]:
# We will be using custom built KNN Classifier 
# As parameters we need k and metric
# for calculation of k we will start with sqrt(no.of.rows)

k = int((df.shape[0])**0.5)

# we need a odd k so we add logic for it
if k%2 == 0:
    k += 1
else:
    k
    
# We will ask the user to pick if this is a regression task or classification task    
task = input("Please type R for Regression and C for Classification: ")


# We will ask the user to choose the metric to calculate the distance
metric = input("Please type the metric: euclidean/manhattan/cosine: ")

Please type R for Regression and C for Classification: R
Please type the metric: euclidean/manhattan/cosine: manhattan


In [533]:
knn = KNN_Regressor_Classifier(task,k,metric)

In [534]:
knn.fit(xTrain,yTrain)

In [535]:
yPred = knn.predict(xTest)
yPred

[10.0,
 20.766666666666666,
 18.633333333333333,
 14.133333333333333,
 19.333333333333336,
 6.233333333333333,
 18.966666666666665,
 13.466666666666667,
 24.133333333333333,
 17.333333333333332,
 19.133333333333333,
 9.466666666666667,
 11.1,
 19.7,
 12.3,
 17.433333333333334,
 13.366666666666667,
 8.733333333333333,
 18.933333333333334,
 11.700000000000001,
 25.0,
 20.46666666666667,
 17.3,
 11.933333333333334,
 6.5,
 24.133333333333333,
 20.033333333333335,
 18.966666666666665,
 13.2,
 10.666666666666666,
 16.633333333333333,
 10.733333333333334,
 16.9,
 11.9,
 21.266666666666666,
 16.633333333333333,
 4.8,
 16.466666666666665,
 18.933333333333334,
 16.466666666666665,
 20.9,
 8.833333333333332,
 7.833333333333333,
 7.633333333333333,
 18.833333333333332,
 6.133333333333333,
 19.866666666666667,
 21.1,
 13.666666666666666,
 17.466666666666665,
 6.8,
 6.8,
 14.866666666666665,
 23.466666666666665,
 12.4,
 12.433333333333334,
 18.23333333333333,
 17.866666666666667,
 6.133333333333333,