In [29]:
#Import sekcija
import numpy as np
import pandas as pd
import seaborn as sbn
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn import metrics
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt

# Opis skupa podataka

Heart Disease skup podataka kojim se opisuje stanje pacijenata koji boluju od srčane bolesti tj. pokazuje uz pomoć parametara krvne slike, godina starosti i pola da li je pacijent srčani bolesnik ili ne.
![HD.jpg](attachment:HD.jpg)

In [7]:
#Heart Disease dataset > Funkcija za čitanje skupa podataka
def getHeartDiseaseDataset():
        return pd.read_csv("heart.csv");

In [8]:
#Čitanje Heart Disease skupa podataka i prikaz
data = getHeartDiseaseDataset()
data

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
298,57,0,0,140,241,0,1,123,1,0.2,1,0,3,0
299,45,1,3,110,264,0,1,132,0,1.2,1,0,3,0
300,68,1,0,144,193,1,1,141,0,3.4,1,2,3,0
301,57,1,0,130,131,0,1,115,1,1.2,1,1,3,0


U tabeli iznad možemo videti 13 parametara pomoću kojih če model klasifikovati pacijente da li spadaju u srčane bolesnike ili ne. Poslednji 14. parametar #target je zapravo labela koja pokazuje da li je pacijent srčani bolesnik. 1-Pacijent je srčani bolesnik, 0-Pacijent nije srčani bolesnik.
Prvih 13 parametara skupa podataka su:

1. age Godine pacijenta.

2. sex Pol pacijenta: 1-muško 0-žensko

3. cp Chest-pain type: Tip bola u grudima
    1-tipična angina
    2-atipična angina
    3-anginalni bol
    4-asiptomatični
    
4. trestbps Vrednost krvnog pritiska u mirovanju pojedinog pacijenta.

5. chol Predstavlja holesterol.

6. fbs Upoređuje

In [9]:
#Priprema podataka > Funkcija koja odvaja labelu target labelu od parametara-obeležija koja su nam od interesa
def prepareData(data):
        X_data = data.iloc[:,:13].values; #Podaci
        Y_data = data.iloc[:,13].values; #Labele
        return X_data, Y_data

In [10]:
#Podela skupa podataka na podatke za trenig i testiranje modela.
def splitData(split_size, X_data, Y_data, random_state):
        X_data_train, X_data_test, Y_data_train, Y_data_test = train_test_split(X_data, Y_data,test_size = split_size,random_state = random_state)
        return X_data_train, X_data_test, Y_data_train, Y_data_test

In [11]:
#Skaliranje vrednosti obeležija na opseg [-1, 1]
def scaleDataFeatures(X_train, X_test):
        sc = StandardScaler()
        X_tr = sc.fit_transform(X_train)
        X_te = sc.fit_transform(X_test)
        return X_tr, X_te


In [12]:
#Klasifikator K-najbližih suseda > Funkcija koja vraća istreniran KN klasifikator
def KNclassifier(X_tr, Y_tr, nn, metrics):
        classifier =  KNeighborsClassifier(n_neighbors = nn, metric = metrics)
        classifier.fit(X_tr, Y_tr)
        return classifier

In [13]:
#Predviđanje za KN klasifikator > Funkcija koja vrši predikciju KN klasifikatora 
def KNpredict(X_te):
        Y_pred = classifier.predict(X_te)
        return Y_pred

# Klasifikacja metodom K najbližih suseda
Metoda K najbližih suseda se zasniva na jednom od osnovnih algoritama prepoznavanja uzoraka čiji su koraci sledeći:
1. Za novi uzorak na osnovu obeležija i odabrane metrike proračunava sličnost(daljinu) između novog uzorka i elemenata u koji su raspoređeni.
2. Distanca između novog uzorka i svakog od elemenata stavlja u polje i sortira.
3. iz sortirane liste se uzima prvih k elemenata.
4. Potom se od k elemenata prebrojava maksimalan broj elemenata koji pripadaju istoj grupi
5. Na kraju se novi uzorak dodeljuje grupi koja od prvih k elemenata u polju ima najviše pripadnika.![KNN.png](attachment:KNN.png) 

# Klasifikacija za K = 5

In [31]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_strein_data, y_train, 5, 'euclidean') #KNklasifikator
y_predict = Kclassifier.predict(x_stest_data) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.7540983606557377


# Klasifikacija za K = 7

In [35]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_strein_data, y_train, 7, 'euclidean') #KNklasifikator
y_predict = Kclassifier.predict(x_stest_data) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.8032786885245902


# Klasifikacija za K = 9

In [25]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_train, y_train, 9, 'euclidean') #KNklasifikator
y_predict = Kclassifier.predict(x_test) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.5901639344262295


# Klasifikacija za K = 5 Kosinusna metrika

In [26]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_train, y_train, 5, 'cosine') #KNklasifikator
y_predict = Kclassifier.predict(x_test) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.6557377049180327


# Klasifikacija za K = 7 Kosinusna metrika

In [36]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_strein_data, y_train, 7, 'cosine') #KNklasifikator
y_predict = Kclassifier.predict(x_stest_data) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.7213114754098361


# Klasifikacija za K = 9 Kosinusna metrika

In [30]:
#Klasifikacija
data = getHeartDiseaseDataset() #Čitanje podataka
x_data, y_data = prepareData(data) #Priprema podataka
x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
Kclassifier = KNclassifier(x_strein_data, y_train, 7, 'cosine') #KNklasifikator
y_predict = Kclassifier.predict(x_stest_data) #Predikcija
accurancy = metrics.accuracy_score(y_test, y_predict) #Proračun tačnsoti
print('Tačnost: ', accurancy)

Tačnost:  0.7213114754098361


Kao što vidimo iz predhodnih primera, tačnost se može povećati promenom broja uzetih suseda i promenom metrike. Kako bi smo saznali koji je broj suseda najoptimalni za naš model koristćemo Cross-validation metodu koja će u obzir uzimati broj suseda.

# Cross-validation metoda
je metoda kojom se vrši treniranje modela u ovom slučaju KNN klasifikatora za svaku moguću vrednost, u ovom slučaju broja suseda k i proračunava tačnost modela. Najoptimalnija vrednost za broj suseda k će biti vrednost za koju model daje najveću tačnost.![kfolds.png](attachment:kfolds.png)

In [37]:
#Metoda za Cross validaciju.
def KNeighborsCrossValidation(neighbors):
    cross_scores = []
    data = getHeartDiseaseDataset() #Čitanje podataka
    x_data, y_data = prepareData(data) #Priprema podataka
    x_train, x_test, y_train, y_test = splitData(0.2, x_data, y_data, 1) #Podela skupa podataka na skup za trening i skup za test.
    x_strein_data, x_stest_data = scaleDataFeatures(x_train, x_test) #Skaliranje podataka radi bržeg izračunavanja udaljenosti.
    
    for k in neighbors:
        
        classifier = KNclassifier( x_strein_data, y_train, k, 'euclidean')
        scores = cross_val_score(classifier,  x_strein_data, y_train)
        cross_scores.append(scores.mean())
    
    return cross_scores

neighbors = list(range(1, 100, 2))
cs = KNeighborsCrossValidation(neighbors)
cs

[0.8267006802721089,
 0.8516156462585034,
 0.830952380952381,
 0.8432823129251702,
 0.8556122448979592,
 0.8639455782312926,
 0.8431122448979591,
 0.8392006802721088,
 0.8433673469387756,
 0.8227040816326531,
 0.818452380952381,
 0.8226190476190476,
 0.8267006802721089,
 0.8267006802721089,
 0.8267006802721089,
 0.8185374149659864,
 0.8268707482993196,
 0.8268707482993196,
 0.8269557823129252,
 0.8269557823129252,
 0.8227891156462585,
 0.8268707482993196,
 0.8227040816326531,
 0.8268707482993196,
 0.8268707482993196,
 0.8185374149659864,
 0.8186224489795919,
 0.8186224489795919,
 0.8102891156462585,
 0.8186224489795919,
 0.8186224489795919,
 0.8227040816326531,
 0.8185374149659864,
 0.8186224489795919,
 0.8102891156462585,
 0.8186224489795919,
 0.8227040816326531,
 0.8185374149659863,
 0.8061224489795918,
 0.810204081632653,
 0.8060374149659865,
 0.810204081632653,
 0.810204081632653,
 0.8185374149659864,
 0.8185374149659864,
 0.8143707482993197,
 0.810204081632653,
 0.8060374149659865