In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("diabetes.csv")

In [3]:
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


Pregnancies (Grossesses) : Ce champ représente le nombre de fois que la personne a été enceinte.

Glucose : C'est le taux de glucose (sucre) dans le sang de la personne, exprimé en unités de mesure spécifiques (généralement milligrammes par décilitre, mg/dL).

BloodPressure (Pression artérielle) : Il s'agit de la pression artérielle systolique, qui mesure la force du sang contre les parois des artères lorsque le cœur bat, ainsi que de la pression artérielle diastolique, qui mesure la pression lorsque le cœur est au repos, exprimées en millimètres de mercure (mmHg).

SkinThickness (Épaisseur de la peau) : Cela fait référence à l'épaisseur du pli cutané au niveau du triceps, mesurée en millimètres. C'est une mesure de la graisse corporelle.

Insulin (Insuline) : Indique le taux d'insuline sérique (hormone régulant la glycémie) dans le sang, généralement mesuré en micro-unités internationales par millilitre (µIU/mL).

BMI (Indice de masse corporelle) : C'est une mesure du rapport entre le poids et la taille d'une personne, calculée en divisant le poids en kilogrammes par le carré de la taille en mètres (kg/m²).

DiabetesPedigreeFunction (Fonction de pedigree du diabète) : C'est une estimation de la probabilité qu'une personne développe le diabète en fonction de l'historique familial. Cela peut fournir des informations génétiques sur le risque de diabète.

Age (Âge) : L'âge de la personne en années.

Outcome (Résultat) : C'est la variable cible que vous souhaitez prédire. Elle indique si la personne est atteinte de diabète (1) ou non (0), ce qui en fait un problème de classification binaire.



## Définition des features

In [4]:
X = df.iloc[:, :8]
X

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33
...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63
764,2,122,70,27,0,36.8,0.340,27
765,5,121,72,23,112,26.2,0.245,30
766,1,126,60,0,0,30.1,0.349,47


## Définition du target

In [5]:
Y = df.iloc[:,8]
Y

0      1
1      0
2      1
3      0
4      1
      ..
763    0
764    0
765    0
766    1
767    0
Name: Outcome, Length: 768, dtype: int64

## Séparation des données

In [8]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split




X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

## Choix des modèles 

In [9]:
# Création des modèles
model_KNN = KNeighborsClassifier(n_neighbors=5) 
model_Tree = DecisionTreeClassifier()
model_svc = SVC()
model_NN = MLPClassifier()


## Entrainement

In [10]:

models = {
    "KNN": KNeighborsClassifier(n_neighbors=5),
    "Decision Tree": DecisionTreeClassifier(),
    "SVM": SVC(),
    "Neural Network": MLPClassifier()
}

for model_name, model in models.items():
    model.fit(X_train, Y_train)
    Y_pred = model.predict(X_test)
    score = accuracy_score(Y_test, Y_pred)
    print(f"Score du modèle {model_name}: {score}")


Score du modèle KNN: 0.6623376623376623
Score du modèle Decision Tree: 0.7337662337662337
Score du modèle SVM: 0.7662337662337663
Score du modèle Neural Network: 0.6688311688311688


## Amélioration des performances de notre modèle

In [None]:
from sklearn.model_selection import GridSearchCV

# Définir les hyperparamètres que vous souhaitez ajuster
param_grid = {
    'C': [0.1, 1, 10],
    'kernel': ['linear', 'rbf', 'poly'],
    'gamma': ['scale', 'auto'] + [0.001, 0.01, 0.1, 1]
}

# Créer le modèle SVM
svm_model = SVC()

# Créer l'objet GridSearchCV
grid_search = GridSearchCV(estimator=svm_model, param_grid=param_grid, cv=5, scoring='accuracy')

# Effectuer la recherche par grille sur les données d'entraînement
grid_search.fit(X_train, Y_train)

# Afficher les meilleurs hyperparamètres et le meilleur score
print("Meilleurs hyperparamètres:", grid_search.best_params_)
print("Meilleur score:", grid_search.best_score_)
