# Rapport de Classification pour la Prédiction du Diabète avec KNN

## Introduction

L'objectif de ce projet est de développer un modèle de classification pour prédire la présence de diabète chez des patients à partir de diverses caractéristiques médicales. Nous utilisons l'algorithme des K-Plus Proches Voisins (K-Nearest Neighbors, KNN) pour classifier les patients, en s'appuyant sur un ensemble de données contenant des informations cliniques anonymisées. Le choix de l'algorithme KNN repose sur sa simplicité et son efficacité pour les problèmes de classification dans des ensembles de données de taille modérée.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix
from sklearn.metrics import f1_score
from sklearn.metrics import accuracy_score

## Description des Données:

Les données sont stockées dans un fichier CSV nommé diabetes.csv, qui contient plusieurs colonnes représentant les caractéristiques des patients :

Caractéristiques (Features) :

Pregnancies : Nombre de grossesses

Glucose : Niveau de glucose dans le sang

BloodPressure : Pression artérielle (mm Hg)

SkinThickness : Épaisseur du pli cutané tricipital (mm)

Insulin : Insulinémie (mUI/mL)

BMI : Indice de masse corporelle (BMI)

DiabetesPedigreeFunction : Antécédents familiaux de diabète

Age : Âge du patient

Variable cible (Target) :

Outcome : Variable binaire (0 pour les patients non diabétiques, 1 pour les patients diabétiques)

In [2]:
dataset = pd.read_csv('/diabetes.csv')

## Prétraitement des Données:

### Chargement des Données:
Les données sont chargées à partir du fichier CSV en utilisant la bibliothèque pandas. Les premières lignes du dataset et le nombre total de lignes ont été vérifiés pour assurer que les données ont bien été chargées.

In [3]:
len(dataset)
dataset.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Gestion des Valeurs Manquantes:
Certaines caractéristiques comme Glucose, BloodPressure, SkinThickness, BMI, et Insulin peuvent avoir des valeurs de 0, ce qui est improbable dans un contexte clinique et représente probablement des valeurs manquantes. Ces valeurs ont été remplacées par la moyenne de chaque colonne respective, après avoir substitué les valeurs 0 par des NaN temporaires.

In [None]:
# Replace zeroes
zero_not_accepted = ['Glucose', 'BloodPressure', 'SkinThickness', 'BMI', 'Insulin']

In [None]:
for column in zero_not_accepted:
    dataset[column] = dataset[column].replace(0, np.NaN)
    mean = int(dataset[column].mean(skipna=True))
    dataset[column] = dataset[column].replace(np.NaN, mean)

### Division des Données en Entraînement et Test:
Les données sont ensuite divisées en deux sous-ensembles :

Données d'entraînement (80%) : pour l'apprentissage du modèle
Données de test (20%) : pour l'évaluation du modèle
Les caractéristiques (X) et la variable cible (y) sont séparées, puis divisées en ensembles d'entraînement et de test en utilisant train_test_split de sklearn.

In [None]:
# split dataset
X = dataset.iloc[:, 0:8]
y = dataset.iloc[:, 8]
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size=0.2)


In [None]:
print(len(X_train))
print(len(y_train))
print(len(X_test))
print(len(y_test))


614
614
154
154


### Mise à l'Échelle des Caractéristiques:
Le KNN étant sensible aux échelles de données, une mise à l'échelle des caractéristiques est nécessaire. La méthode StandardScaler de sklearn est utilisée pour normaliser les caractéristiques en les ramenant à une distribution centrée autour de 0 avec une variance de 1.

In [None]:
#Feature scaling
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)

## Modélisation avec KNN:
### Présentation de l'Algorithme KNN:
L'algorithme K-Nearest Neighbors (KNN) est un algorithme de classification qui classe un point de données en fonction des K points de données voisins les plus proches dans l'espace des caractéristiques. Nous avons choisi K=11 voisins, un nombre optimal basé sur des essais empiriques.

### Entraînement du Modèle:
Nous utilisons la classe KNeighborsClassifier de sklearn pour créer un modèle KNN avec une distance euclidienne (p=2) comme mesure de proximité.

In [None]:
# Define the model: Init K-NN
classifier = KNeighborsClassifier(n_neighbors=11, p=2,metric='euclidean')

In [None]:
# Fit Model
classifier.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='euclidean',
           metric_params=None, n_jobs=1, n_neighbors=11, p=2,
           weights='uniform')

### Prédiction:

Le modèle entraîné est utilisé pour prédire les résultats sur l'ensemble de test. Les prédictions représentent les probabilités pour chaque observation d'être atteinte de diabète (1) ou non (0).

In [None]:
# Predict the test set results
y_pred = classifier.predict(X_test)
y_pred

array([1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int64)

## Évaluation du Modèle:
Pour évaluer la performance du modèle, nous utilisons plusieurs métriques :

**Matrice de Confusion :** Elle permet de visualiser le nombre de prédictions correctes et incorrectes pour chaque classe (diabétique ou non diabétique).

**Score F1 :** Mesure harmonique entre la précision et le rappel, utile en cas de classes déséquilibrées.

**Précision :** Mesure du pourcentage de prédictions correctes.

In [None]:
# Evaluate Model
cm = confusion_matrix(y_test, y_pred)
print (cm)
print(f1_score(y_test, y_pred))

[[94 13]
 [15 32]]
0.6956521739130436


In [None]:
print(accuracy_score(y_test, y_pred))

0.8181818181818182


## Résultats:
Les résultats obtenus montrent les performances du modèle sur l'ensemble de test :

**Matrice de Confusion :** Elle montre les vrais positifs, vrais négatifs, faux positifs et faux négatifs, ce qui aide à comprendre les erreurs spécifiques du modèle.

**Score F1 :** Fournit un indicateur global de performance, prenant en compte la précision et le rappel.

**Précision :** Indique le pourcentage de prédictions correctes du modèle.
Les performances obtenues sont suffisamment prometteuses pour considérer l'algorithme KNN comme une méthode de classification viable pour cette tâche de prédiction.