# KNN - predirre diabete
l'**obiettivo** è quello di capire se ad una persona verrà diagnosticato il diabete o meno.

In [16]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score

capiamo i vari pacchetti che sono stati importati cosa fanno:
- `pandas` è un pacchetto che permette di leggere e scrivere file in formato csv, excel, ecc. e permette di manipolare i dati in essi contenuti
- `numpy` è un pacchetto che permette di manipolare i dati in modo vettoriale

pacchetti usati per il **preprocessing**:
- `train_test_split` è un pacchetto che permette di dividere il dataset in due parti: una per il training e una per il test
- `StandardScaler` è un pacchetto che permette di standardizzare i dati uniformandoli tra -1 e 1

pacchetto per il **modello**:
- `KNeighborsClassifier` è un pacchetto che permette di creare un modello di classificazione basato sul KNN

pacchetti usati per il **test**:
- `confusion_matrix` è un pacchetto che permette di creare una matrice di confusione
- `f1_score` è un pacchetto che permette di calcolare l'f1 score
- `accuracy_score` è un pacchetto che permette di calcolare l'accuracy score

# caricamento del dataset

In [17]:
dataset = pd.read_csv('diabetes.csv')
dataset.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


# preprocessing
supponendo di aver studiato il dataset, sappiamo che sono presenti alcune colonne che non possono avere valori pari a 0, dalle assunzioni che sono state fatte, sostituiamo tali valori con la media dei valori della colonna.

In [18]:
zero_not_accepted = ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI', 'Insulin'] # colonne che non possono avere valori pari a 0
for column in zero_not_accepted:
    dataset[column] = dataset[column].replace(0, np.NaN) # sostituisco i valori pari a 0 con NaN
    mean = int(dataset[column].mean(skipna=True)) # calcolo la media dei valori della colonna
    dataset[column] = dataset[column].replace(np.NaN, mean) # sostituisco i valori NaN con la media

# dividere il dataset in train e test
la libreria `train_test_split` permette di dividere il dataset in due parti: una per il training e una per il test.

In [19]:
X = dataset.iloc[:, 0:8] # tutte le righe e tutte le colonne tranne l'ultima (Outcome)
Y = dataset.iloc[:, 8] # tutte le righe e solo l'ultima colonna (Outcome)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0, test_size=0.2) # dividiamo il dataset in train e test

# standardizzazione dei dati
per qualsiasi algoritmo che si basa sulla distanza euclidea, come il KNN, o assume le normalità dei dati, è necessario standardizzare i dati.
I valori Y non vanno mai fittati ne standardizzati.

In [20]:
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

# definizione del modello
definisco anche il valore di k, che come abbiamo visto è $\sqrt{n}$

In [30]:
import math
print(f'k = {math.sqrt(len(X_test))}') # valore di k
classifier = KNeighborsClassifier(n_neighbors=13, p=2, metric='euclidean') # creazione del modello

k = 12.409673645990857


# fit del modello

In [31]:
classifier.fit(X_train, Y_train) # fit del modello

# predizione dei risultati

In [35]:
y_pred = classifier.predict(X_test)
y_pred

array([1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1,
       0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0])

# valutazione del modello
 

In [37]:
print(confusion_matrix(Y_test, y_pred))
print(f1_score(Y_test, y_pred))
print(accuracy_score(Y_test, y_pred)) # accuratezza del modello

[[95 12]
 [16 31]]
0.6888888888888888
0.8181818181818182
