---

# Notebook : Stacking avec Random Forest, Gradient Boosting, et Régression Linéaire

**Objectifs :**
1. Construire un modèle de stacking combinant **Random Forest**, **Gradient Boosting**, et **Régression Linéaire** comme modèles de base.
2. Utiliser un **meta-modèle** (Régression Linéaire) pour effectuer les prédictions finales, en apprenant à partir des prédictions de base de chaque modèle.
3. Évaluer les performances du modèle de stacking optimisé sur le jeu de test.

---

## Étape 1 : Importer les bibliothèques nécessaires et charger les données

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, StackingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np
import joblib
import os

---

## Étape 2 : Charger et préparer les données

In [2]:
# Charger les données complètes
file_path = 'note-books/phase_2_training/04_correlation_analysis/data_final_features.csv'
df = pd.read_csv(file_path)

# Encoder `nutriscore_grade` en valeurs numériques
df['nutriscore_grade_encoded'] = df['nutriscore_grade'].map({'a': 0, 'b': 1, 'c': 2, 'd': 3, 'e': 4})

# Préparer les variables explicatives et la cible
X = df[['fat_100g', 'saturated-fat_100g', 'energy-kcal_100g', 'sugars_100g', 'salt_100g', 'proteins_100g']]
y = df['nutriscore_grade_encoded']

# Diviser les données en ensembles d'entraînement et de test (80/20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

---

## Étape 3 : Définir les modèles de base et le meta-modèle

Nous allons définir trois modèles de base : Random Forest, Gradient Boosting et Régression Linéaire. Le modèle de stacking utilisera une **Régression Linéaire** comme meta-modèle.


In [3]:
# Modèles de base
base_models = [
    ('random_forest', RandomForestRegressor(n_estimators=100, random_state=42)),
    ('gradient_boosting', GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)),
    ('linear_regression', LinearRegression())
]

# Meta-modèle
meta_model = LinearRegression()

# Créer le Stacking Regressor
stacking_model = StackingRegressor(estimators=base_models, final_estimator=meta_model, n_jobs=-1)

---

## Étape 4 : Entraîner le modèle de stacking

In [4]:
# Entraîner le modèle de stacking sur l'ensemble d'entraînement
stacking_model.fit(X_train, y_train)
print("Entraînement du modèle de stacking terminé.")

Entraînement du modèle de stacking terminé.


---

## Étape 5 : Évaluer les performances du modèle de stacking

Nous allons maintenant évaluer les performances sur le jeu de test en utilisant le MSE et le coefficient de détermination R².

In [5]:
# Prédire sur le jeu de test
y_pred = stacking_model.predict(X_test)

# Calculer les métriques de performance
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("Évaluation des performances du modèle de stacking :")
print(f"Mean Squared Error (MSE) : {mse}")
print(f"Coefficient de détermination (R²) : {r2}")

Évaluation des performances du modèle de stacking :
Mean Squared Error (MSE) : 0.35625504122547597
Coefficient de détermination (R²) : 0.8028500739601341


---

## Étape 6 : Sauvegarder le modèle de stacking

Si les performances sont satisfaisantes, sauvegardons le modèle pour une utilisation ultérieure.


In [6]:
# Définir le chemin de sauvegarde
output_folder = 'note-books/phase_2_training/08_stacking_advanced'
os.makedirs(output_folder, exist_ok=True)
stacking_model_path = os.path.join(output_folder, 'stacking_model_optimized.joblib')

# Sauvegarder le modèle de stacking
joblib.dump(stacking_model, stacking_model_path)
print(f"Modèle de stacking sauvegardé sous : {stacking_model_path}")

Modèle de stacking sauvegardé sous : note-books/phase_2_training/08_stacking_advanced/stacking_model_optimized.joblib


---

### Explication des étapes

1. **Construction du stacking** : Le modèle de stacking utilise trois modèles de base (Random Forest, Gradient Boosting, et Régression Linéaire) pour capturer les différentes relations dans les données.
2. **Entraînement et évaluation** : Le stacking est entraîné sur l'ensemble d'entraînement, puis évalué sur le jeu de test pour vérifier sa performance.
3. **Sauvegarde** : Le modèle de stacking est sauvegardé pour des tests supplémentaires ou pour un déploiement.

---

### Résumé

Dans ce notebook, nous avons :
1. Défini et entraîné un modèle de stacking avancé utilisant Random Forest, Gradient Boosting, et Régression Linéaire comme modèles de base.
2. Utilisé la Régression Linéaire comme meta-modèle pour générer les prédictions finales.
3. Évalué les performances sur le jeu de test et sauvegardé le modèle.

