In [None]:
# 1. Visualisation des erreurs des modèles
import matplotlib.pyplot as plt
import seaborn as sns

# Comparaison des prédictions vs réelles pour chaque modèle
plt.figure(figsize=(14, 10))
for idx, (model_name, model) in enumerate(models.items(), 1):
    plt.subplot(3, 2, idx)
    y_pred = model.predict(X_test)
    
    # Tracer les erreurs (résidus)
    residuals = y_test - y_pred
    sns.histplot(residuals, kde=True, color='blue', bins=30)
    plt.title(f"Résidus - {model_name}")
    plt.xlabel("Erreur")
    plt.ylabel("Fréquence")
    
plt.tight_layout()
plt.show()

# 2. Visualisation des prédictions vs valeurs réelles
plt.figure(figsize=(14, 10))
for idx, (model_name, model) in enumerate(models.items(), 1):
    plt.subplot(3, 2, idx)
    y_pred = model.predict(X_test)
    
    # Tracer les prédictions vs les vraies valeurs
    plt.scatter(y_test, y_pred, color='blue', alpha=0.5)
    plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--r', label="Référence")
    plt.title(f"{model_name} - Prédictions vs Réelles")
    plt.xlabel("Valeurs Réelles")
    plt.ylabel("Prédictions")
    plt.legend()
    
plt.tight_layout()
plt.show()

# 3. Affichage des métriques de performance pour chaque modèle
performance_metrics = pd.DataFrame(results).T
performance_metrics = performance_metrics[['MAE', 'MSE', 'RMSE', 'R2']]
print("\nMétriques de performance des modèles de régression :")
print(performance_metrics)

# 4. Analyser les biais potentiels (exemples spécifiques)
# Afficher les 5 premières prédictions et leurs erreurs pour le modèle le mieux performant
best_model_name = performance_metrics['R2'].idxmax()  # Le modèle avec le meilleur R2
best_model = models[best_model_name]
y_pred_best = best_model.predict(X_test)

# Erreurs pour le modèle avec le meilleur R2
errors_best = y_test - y_pred_best
predictions_vs_errors = pd.DataFrame({
    'Valeur réelle': y_test,
    'Prédiction': y_pred_best,
    'Erreur': errors_best
})

print(f"\nErreurs pour le modèle {best_model_name}:")
print(predictions_vs_errors.head())

# 5. Analyser l'importance des caractéristiques pour le RandomForest
if 'Forêt Aléatoire' in models:
    rf_model = models['Forêt Aléatoire']
    rf_model.fit(X_train, y_train)
    
    feature_importance = rf_model.feature_importances_
    features = X_train.columns
    feature_importance_df = pd.DataFrame({
        'Feature': features,
        'Importance': feature_importance
    }).sort_values(by='Importance', ascending=False)
    
    print("\nImportance des caractéristiques pour la Forêt Aléatoire :")
    print(feature_importance_df)
    
    # Visualisation de l'importance des caractéristiques
    plt.figure(figsize=(10, 6))
    sns.barplot(x='Importance', y='Feature', data=feature_importance_df)
    plt.title('Importance des caractéristiques - Forêt Aléatoire')
    plt.show()

# 6. Conclusion générale de l'évaluation
# Interprétation des performances globales des modèles
best_model_overall = best_model_name
best_r2 = performance_metrics.loc[best_model_overall, 'R2']
print(f"\nLe meilleur modèle est : {best_model_overall} avec un R2 de {best_r2:.4f}.")
