In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, recall_score, f1_score

# Charger les données (supposons que les données sont dans un fichier CSV)

data = pd.read_csv('C:\\Users\\corre\\Desktop\\Wild Code School\\Projet 3\\GitHub\\semiology_AI-1\\diabete_folder\\Entrainement\\diabetes_base_test.csv')


In [None]:
''' Utilisation et test d'une des methodes de prédiction : Random Forest Classifier

Definition : Une forêt aléatoire est une méthode d'ensemble qui construit une multitude 
d'arbres de décision pendant l'entraînement et produit la classe mode (pour la classification)
ou la moyenne des prédictions (pour la régression) de tous les arbres individuels. Elle utilise
deux techniques principales pour introduire de la diversité dans les arbres : le bagging 
(bootstrap aggregating) et la sélection aléatoire de caractéristiques.

Le but sera d'en tester plusieurs et ainsi de definir la plus performante.
On normalisera les données dans cet entrainement et utiliseront egalement GridSearchCV pour 
determiner le meilleurs nombre d'arbres.

Modele test avec toutes les variables

'''

In [3]:
# Séparation des caractéristiques et de la cible
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

# Définition du pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),                 # Normalisation des caractéristiques
    ('classifier', RandomForestClassifier(random_state=42))  # Modèle de forêt aléatoire
])

# Création d'une grille de paramètres pour `n_estimators`
param_grid = {
    'classifier__n_estimators': [50, 100, 200, 300, 400, 500, 600, 700, 800, 1000]
}

# Recherche de grille avec validation croisée
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Meilleurs hyperparamètres et évaluation du modèle optimisé
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

# Évaluation du modèle
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)


print(f"Optimized Accuracy: {accuracy}")
print("Recall Score:", recall)
print("F1 Score:", f1)
print(f"Best n_estimators: {grid_search.best_params_['classifier__n_estimators']}")


Optimized Accuracy: 0.7337662337662337
Recall Score: 0.6363636363636364
F1 Score: 0.6306306306306306
Best n_estimators: 600


In [7]:
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(class_report)

Confusion Matrix:
[[98 25]
 [25 44]]
Classification Report:
              precision    recall  f1-score   support

           0       0.80      0.80      0.80       123
           1       0.64      0.64      0.64        69

    accuracy                           0.74       192
   macro avg       0.72      0.72      0.72       192
weighted avg       0.74      0.74      0.74       192



In [8]:
# Faire des prédictions sur un exemple de nouvelles données
new_data = np.array([[2, 120, 70, 20, 80, 25.0, 0.5, 33]])
prediction = best_model.predict(new_data)

if prediction[0] == 1:
    print("Le patient est probablement diabétique.")
else:
    print("Le patient est probablement non-diabétique.")

Le patient est probablement non-diabétique.


