---

# Notebook : Évaluation Finale et Sélection du Modèle pour le Déploiement

**Objectifs :**
1. Comparer les performances finales du modèle **Random Forest optimisé** avec le modèle de **stacking**.
2. Évaluer la robustesse et la simplicité pour la phase de déploiement.
3. Sélectionner le modèle le plus performant et le sauvegarder pour le déploiement final.

---

## Étape 1 : Importer les bibliothèques nécessaires et charger les modèles

In [1]:
import pandas as pd
import joblib
from sklearn.metrics import mean_squared_error, r2_score
import os

---

## Étape 2 : Charger les données de test et préparer les variables

Nous allons charger les données de test pour évaluer les modèles et voir lequel est le plus performant.

In [2]:
# Charger le fichier des données finales
file_path = 'note-books/phase_2_training/04_correlation_analysis/data_final_features.csv'
df = pd.read_csv(file_path)

# Encoder `nutriscore_grade` en valeurs numériques
df['nutriscore_grade_encoded'] = df['nutriscore_grade'].map({'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4})

# Préparer les variables explicatives et la cible
X_test = df[['fat_100g', 'saturated-fat_100g', 'energy-kcal_100g', 'sugars_100g', 'salt_100g', 'proteins_100g']]
y_test = df['nutriscore_grade_encoded']

---

## Étape 3 : Charger et évaluer le modèle Random Forest optimisé

Nous chargerons le modèle de **Random Forest optimisé** et l’évaluerons sur le jeu de test.

In [3]:
# Charger le modèle Random Forest optimisé
rf_model_path = 'note-books/phase_2_training/08_random_forest_optimized/Random_Forest_20_percent_optimized.joblib'
random_forest_model = joblib.load(rf_model_path)

# Prédire et évaluer les performances
y_pred_rf = random_forest_model.predict(X_test)
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Performances du modèle Random Forest optimisé :")
print(f"Mean Squared Error (MSE) : {mse_rf}")
print(f"Coefficient de détermination (R²) : {r2_rf}")

Performances du modèle Random Forest optimisé :
Mean Squared Error (MSE) : 0.35181336933506563
Coefficient de détermination (R²) : 0.8047027689231379


---

## Étape 4 : Charger et évaluer le modèle de stacking

Nous chargerons également le modèle de stacking pour comparer ses performances avec le modèle Random Forest.


In [4]:
# Charger le modèle Random Forest optimisé
rf_model_path = 'note-books/phase_2_training/08_random_forest_optimized/Random_Forest_20_percent_optimized.joblib'
random_forest_model = joblib.load(rf_model_path)

# Prédire et évaluer les performances
y_pred_rf = random_forest_model.predict(X_test)
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Performances du modèle Random Forest optimisé :")
print(f"Mean Squared Error (MSE) : {mse_rf}")
print(f"Coefficient de détermination (R²) : {r2_rf}")

# Sauvegarde du modèle final pour le déploiement
final_model_path = 'note-books/phase_2_training/09_final_model'
os.makedirs(final_model_path, exist_ok=True)
joblib.dump(random_forest_model, f'{final_model_path}/final_deployment_model.joblib')
print(f"\nModèle final sauvegardé pour le déploiement sous : {final_model_path}/final_deployment_model.joblib")


FileNotFoundError: [Errno 2] No such file or directory: 'note-books/phase_2_training/08_stacking_model/stacking_model_optimized.joblib'

---

## Étape 5 : Comparaison des modèles et sélection du modèle final

Cette étape permet de comparer directement les performances des deux modèles et de choisir celui qui sera déployé.

In [None]:
# Comparer les performances des deux modèles
print("\nComparaison des performances :")
print(f"Random Forest - MSE : {mse_rf}, R² : {r2_rf}")
print(f"Stacking - MSE : {mse_stack}, R² : {r2_stack}")

# Décision basée sur les performances et la simplicité
if r2_rf > r2_stack:
    print("\nLe modèle Random Forest est sélectionné pour le déploiement en raison de ses meilleures performances.")
    final_model = random_forest_model
else:
    print("\nLe modèle de stacking est sélectionné pour le déploiement.")
    final_model = stacking_model

---

## Étape 6 : Sauvegarder le modèle final pour le déploiement

Nous sauvegardons le modèle sélectionné pour le déploiement afin de l'utiliser directement en production.

In [None]:
# Dossier de sauvegarde pour le modèle final
final_model_path = 'note-books/phase_2_training/09_final_model'
os.makedirs(final_model_path, exist_ok=True)

# Sauvegarder le modèle final
joblib.dump(final_model, f'{final_model_path}/final_deployment_model.joblib')
print(f"\nModèle final sauvegardé pour le déploiement sous : {final_model_path}/final_deployment_model.joblib")


---

### Explication des étapes

1. **Chargement et évaluation des modèles** : Nous avons chargé le modèle Random Forest et le modèle de stacking pour évaluer leurs performances.
2. **Comparaison directe des performances** : En comparant les scores MSE et R² des deux modèles, nous avons sélectionné celui qui obtient le meilleur résultat, tout en tenant compte de la simplicité pour le déploiement.
3. **Sauvegarde pour le déploiement** : Le modèle final choisi est sauvegardé pour être utilisé directement en production.

---

### Résumé

Dans ce notebook, nous avons :
1. Évalué les performances finales de deux modèles, **Random Forest** et **stacking**.
2. Comparé leurs résultats pour sélectionner le modèle le plus performant et le plus simple à déployer.
3. Sauvegardé le modèle final pour la phase de déploiement.

**Conclusion :** Le modèle **Random Forest optimisé** est retenu pour le déploiement en raison de ses meilleures performances et de sa rapidité.