In [1]:
import pandas as pd
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import KNNImputer,SimpleImputer,IterativeImputer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, confusion_matrix,accuracy_score


### Features :

Pregnancies: Le nombre de grossesses que la personne a eues.

Glucose: La concentration de glucose dans le plasma sanguin, mesurée en milligrammes par décilitre (mg/dL). C'est un indicateur important pour évaluer le métabolisme du glucose, et des niveaux élevés peuvent indiquer une résistance à l'insuline.

BloodPressure: La pression artérielle en millimètres de mercure (mmHg). Cela mesure la force exercée par le sang sur les parois des vaisseaux sanguins.

SkinThickness: L'épaisseur du pli cutané, mesurée en millimètres. Cela peut être un indicateur de la quantité de tissu adipeux sous-cutané.

Insulin: La mesure des niveaux d'insuline dans le sang, mesurée en micro-unités internationales par millilitre (µU/mL). L'insuline est une hormone produite par le pancréas et est cruciale dans le métabolisme du glucose.

BMI (Body Mass Index): L'indice de masse corporelle, calculé en divisant le poids en kilogrammes par le carré de la taille en mètres. C'est une mesure courante pour évaluer si une personne a un poids normal, en surpoids ou sous-poids.

DiabetesPedigreeFunction: Une fonction qui évalue la probabilité de développer le diabète en fonction de l'hérédité génétique. Elle combine l'historique familial avec d'autres facteurs.

Age: L'âge de la personne en années.

Outcome: La variable cible binaire, indiquant si la personne est atteinte de diabète (1) ou non (0). C'est la variable que l'on cherche généralement à prédire dans un contexte d'analyse de données liées au diabète.

Ces colonnes sont couramment utilisées dans des ensembles de données liés au diabète pour évaluer les facteurs de risque et construire des modèles prédictifs pour détecter la présence du diabète chez les individus. L'analyse de ces données peut aider à comprendre les relations entre ces variables et à développer des stratégies pour prévenir ou gérer le diabète.

In [2]:
df = pd.read_csv('../Datasets/diabetes.csv')
df.head(10)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
5,5,116,74,0,0,25.6,0.201,30,0
6,3,78,50,32,88,31.0,0.248,26,1
7,10,115,0,0,0,35.3,0.134,29,0
8,2,197,70,45,543,30.5,0.158,53,1
9,8,125,96,0,0,0.0,0.232,54,1


In [3]:
df.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [4]:
colonnes = ['BMI','Insulin', 'SkinThickness', 'BloodPressure', 'DiabetesPedigreeFunction', 'Age']

imputer = KNNImputer(missing_values=0, n_neighbors=5)

colonne_imputed = imputer.fit_transform(df[colonnes])

df[colonnes] = colonne_imputed
df.head(10)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72.0,35.0,121.8,33.6,0.627,50.0,1
1,1,85,66.0,29.0,164.0,26.6,0.351,31.0,0
2,8,183,64.0,26.2,123.0,23.3,0.672,32.0,1
3,1,89,66.0,23.0,94.0,28.1,0.167,21.0,0
4,0,137,40.0,35.0,168.0,43.1,2.288,33.0,1
5,5,116,74.0,21.0,100.4,25.6,0.201,30.0,0
6,3,78,50.0,32.0,88.0,31.0,0.248,26.0,1
7,10,115,72.0,29.8,184.8,35.3,0.134,29.0,0
8,2,197,70.0,45.0,543.0,30.5,0.158,53.0,1
9,8,125,96.0,30.0,209.0,33.22,0.232,54.0,1


In [5]:
X = df.drop('Outcome', axis=1)
y = df.Outcome

X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, train_size=0.85, random_state=42, stratify=y)

In [6]:
model = make_pipeline(
    PolynomialFeatures(2),
    StandardScaler(),
    DecisionTreeClassifier(random_state=42)
)


model.fit(X_train, y_train)
score = model.score(X_train, y_train)

y_pred = model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

print("Classification Report:")
print(classification_report(y_test, y_pred))

print("Confusion Matrix:")
print(confusion_matrix(y_test, y_pred))

Accuracy: 0.8103448275862069
Classification Report:
              precision    recall  f1-score   support

           0       0.86      0.84      0.85        76
           1       0.71      0.75      0.73        40

    accuracy                           0.81       116
   macro avg       0.79      0.80      0.79       116
weighted avg       0.81      0.81      0.81       116

Confusion Matrix:
[[64 12]
 [10 30]]
