# الگوریتم K نزدیکترین همسایه را با استفاده از معیار فاصله اقلیدسی پیاده سازي نمایید. در این پیاده سازي از تمامی ویژگیهاي این مجموعه داده که شامل 13 ویژگی است، استفاده نمایید. این مجموعه داده شامل 303 شخص میباشد که به دو کلاس بیمار و سالم تقسیم شدهاند. مقادیر 1 تا 7، 10 و 15 را براي این الگوریتم استفاده نمایید و بهترین مقدار K را بدست آورید. لازم به ذکر است که در این بخش دادهها را به دو بخش یادگیري و آزمون با نسبت 2 به 1 تقسیم کنید. در نهایت دقت الگوریتم و ماتریس پریشانی را براي مجموعه داده آموزش و آزمون گزارش نمایید

In [3]:
import pandas as pd
import numpy as np
import scipy.spatial
from collections import Counter

df = pd.read_csv("heart.txt")
df.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [4]:
X= df.iloc[:,0:13].values 
y= df['target'].values

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.33)   
st_x= StandardScaler()    
X_train= st_x.fit_transform(X_train)    
X_test= st_x.transform(X_test)

In [None]:
class KNN:
    def __init__(self, k):
        self.k = k
        
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        
    def distance(self, X1, X2):
        distance = scipy.spatial.distance.euclidean(X1, X2)
    
    def predict(self, X_test):
        final_output = []
        for i in range(len(X_test)):
            d = []
            votes = []
            for j in range(len(X_train)):
               dist = scipy.spatial.distance.euclidean(X_train[j] , X_test[i])
               d.append([dist, j])
            d.sort()
            d = d[0:self.k]
            for d, j in d:
                votes.append(y_train[j])
            ans = Counter(votes).most_common(1)[0][0]
            final_output.append(ans)
            
        return final_output

    def accuracy(self, test_dataset, predictions):
        correct_predictions = 0
        for i in range(len(test_dataset)):
            if (test_dataset[i][-1] == predictions[i]):
                correct_predictions +=1
        percentage = (correct_predictions /float( len(test_dataset)))
        return round(percentage,2)


    
    def score(self, X_test, y_test):
        predictions = self.predict(X_test)
        return (predictions == y_test).sum() / len(y_test)

In [None]:
knn = KNN(303)
knn.fit(X_train, y_train)

In [None]:
y_predict =knn.predict(X_test)

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score 
confusion_matrix(y_test, y_predict)

array([[ 0, 44],
       [ 0, 56]])

In [None]:
accuracy_score(y_test, y_predict)

0.56

# قسمت الف را فقط براي بهترین مقدار ک  ولی بدون نرمالسازي ویژگیها انجام دهید و نتیجه بهدستآمده را با قسمت قبلی مقایسه نمایید. به صورت کلی استفاده از نرمالسازي چه تاثیري بر روي دستهبندي میتواند داشته باشد؟ توضیح دهید

In [None]:
error = []
for i in range(1, 30):
  knn = KNN(i)
  knn.fit(X_train, y_train)
  pred_i = knn.predict(X_test)
  error.append(np.mean(pred_i != y_test))
print("Minimum error:-",min(error),"at K =",error.index(min(error))+1)

Minimum error:- 0.16 at K = 6


In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, Y_train, Y_test = train_test_split(X, y, test_size = 0.33)   

In [None]:
classifier= KNN(6)  
classifier.fit(x_train, Y_train)

In [None]:
Y_pred= classifier.predict(x_test)

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score  
confusion_matrix(Y_test, Y_pred)

array([[ 0, 38],
       [ 0, 62]])

In [None]:
accuracy_score(Y_test, Y_pred)

0.62

#  قسمت الف را بار دیگر با معیارهاي فاصله زیر انجام دهید Manhattan  Chebyshev


In [6]:
class KNN2:
    def __init__(self, k):
        self.k = k
        
    def fit(self, X, y):
        self.X_train = X
        self.y_train = y
        
    def distance(self, X1, X2):
        distance = scipy.spatial.distance.chebyshev(X1, X2)
    
    def predict(self, X_test):
        final_output = []
        for i in range(len(X_test)):
            d = []
            votes = []
            for j in range(len(X_train)):
               dist = scipy.spatial.distance.chebyshev(X_train[j] , X_test[i])
               d.append([dist, j])
            d.sort()
            d = d[0:self.k]
            for d, j in d:
                votes.append(y_train[j])
            ans = Counter(votes).most_common(1)[0][0]
            final_output.append(ans)
            
        return final_output

    def accuracy(self, test_dataset, predictions):
        correct_predictions = 0
        for i in range(len(test_dataset)):
            if (test_dataset[i][-1] == predictions[i]):
                correct_predictions +=1
        percentage = (correct_predictions /float( len(test_dataset)))
        return round(percentage,2)


    
    def score(self, X_test, y_test):
        predictions = self.predict(X_test)
        return (predictions == y_test).sum() / len(y_test)

In [8]:
knn2 = KNN2(303)
knn2.fit(X_train, y_train)

In [9]:
y_predict2 =knn2.predict(X_test)

In [10]:
from sklearn.metrics import confusion_matrix, accuracy_score 
confusion_matrix(y_test, y_predict2)

array([[ 0, 50],
       [ 0, 50]])

In [11]:
accuracy_score(y_test, y_predict2)

0.5