# TP: Application des Random Forests sur la détection du diabète

Ce notebook démontre l'utilisation des Random Forests pour prédire la progression de la maladie du diabète en utilisant le dataset `load_diabetes` de scikit-learn.

In [None]:
# Importation des bibliothèques nécessaires
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Chargement des données et préparation
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

# Division en ensembles d'entraînement et de test (70% / 30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print(f"Forme des données d'entraînement: {X_train.shape}")
print(f"Forme des données de test: {X_test.shape}")
print(f"Noms des features: {diabetes.feature_names}")

In [None]:
# Entraînement du modèle Random Forest
rf_model = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=42)
rf_model.fit(X_train, y_train)

# Prédictions
y_pred = rf_model.predict(X_test)

# Évaluation du modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Erreur quadratique moyenne (MSE): {mse:.2f}")
print(f"Coefficient de détermination (R²): {r2:.2f}")

In [None]:
# Visualisation de l'importance des features
feature_importance = rf_model.feature_importances_
indices = np.argsort(feature_importance)[::-1]

plt.figure(figsize=(10, 6))
plt.title("Importance des features dans le modèle Random Forest")
plt.bar(range(X.shape[1]), feature_importance[indices], align="center")
plt.xticks(range(X.shape[1]), [diabetes.feature_names[i] for i in indices], rotation=90)
plt.tight_layout()
plt.show()

In [None]:
# Visualisation des prédictions vs valeurs réelles
plt.figure(figsize=(10, 6))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=2)
plt.xlabel('Valeurs réelles')
plt.ylabel('Prédictions')
plt.title('Comparaison des valeurs prédites et réelles')
plt.tight_layout()
plt.show()

# Conclusion
print("Conclusion: Le modèle Random Forest permet de prédire la progression de la maladie")
print(f"avec une précision de {r2:.2%} selon le score R².")