___
___
___
# *STACKING*
___
___
___

Le stacking, ou empilement en français, est une technique d'ensemble (ensemble learning) utilisée dans l'apprentissage automatique. L'idée principale du stacking est de combiner les prédictions de plusieurs modèles de base pour améliorer la performance globale du modèle.

Voici une explication simple du processus de stacking :

1. **Entraînement des Modèles de Base :** Vous commencez par entraîner plusieurs modèles de base sur votre ensemble de données.

2. **Prédictions des Modèles de Base :** Une fois les modèles de base entraînés, vous les utilisez pour faire des prédictions sur les données de test (ou sur une partie de vos données d'entraînement que vous avez réservée à cet effet).

3. **Création d'un Modèle Méta :** Ensuite, vous utilisez ces prédictions en tant que caractéristiques d'entrée pour un modèle méta (également appelé méta-modèle ou modèle de niveau supérieur). Ce modèle méta est généralement un modèle plus simple, comme une régression logistique pour les problèmes de classification ou une régression linéaire pour les problèmes de régression.

4. **Entraînement du Modèle Méta :** Vous entraînez le modèle méta sur les prédictions des modèles de base.

5. **Prédictions Finales :** Une fois le modèle méta entraîné, vous l'utilisez pour faire des prédictions finales sur de nouvelles données.

L'idée sous-jacente est que le modèle méta peut apprendre à combiner les forces des modèles de base, compensant ainsi leurs faiblesses individuelles. Le stacking est particulièrement utile lorsque les modèles de base ont des performances complémentaires sur différentes parties de l'ensemble de données ou dans différentes régions de l'espace des caractéristiques.

**/!\ attention /!\ :** Il est important de noter que le stacking nécessite une attention particulière pour éviter le surajustement, et le choix judicieux des modèles de base est crucial pour son succès. En pratique, le stacking peut considérablement améliorer la performance prédictive par rapport à l'utilisation d'un seul modèle.

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import numpy as np

# Génération de données fictives pour l'exemple
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)

# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraînement des modèles de base
rf_model = RandomForestClassifier(random_state=42)
gb_model = GradientBoostingClassifier(random_state=42)
knn_model = KNeighborsClassifier()

rf_model.fit(X_train, y_train)
gb_model.fit(X_train, y_train)
knn_model.fit(X_train, y_train)

# Prédictions des modèles de base sur l'ensemble de test
rf_predictions = rf_model.predict(X_test)
gb_predictions = gb_model.predict(X_test)
knn_predictions = knn_model.predict(X_test)

# Création du nouvel ensemble de données avec les prédictions des modèles de base
stacked_X = [rf_predictions, gb_predictions, knn_predictions]
stacked_X = np.array(stacked_X).T

# Entraînement du modèle méta (régression logistique dans cet exemple)
meta_model = LogisticRegression(random_state=42)
meta_model.fit(stacked_X, y_test)

# Prédictions finales avec le modèle méta
stacked_predictions = meta_model.predict(stacked_X)

# Évaluation de la performance
accuracy_base_models = {
    'Random Forest': accuracy_score(y_test, rf_predictions),
    'Gradient Boosting': accuracy_score(y_test, gb_predictions),
    'k-Nearest Neighbors': accuracy_score(y_test, knn_predictions)
}

accuracy_stacked_model = accuracy_score(y_test, stacked_predictions)

print("Accuracy of Base Models:")
for model, acc in accuracy_base_models.items():
    print(f"{model}: {acc:.4f}")

print(f"\nAccuracy of Stacked Model: {accuracy_stacked_model:.4f}")

Accuracy of Base Models:
Random Forest: 0.9000
Gradient Boosting: 0.9150
k-Nearest Neighbors: 0.8100

Accuracy of Stacked Model: 0.9150
