# Bagging et Boosting

Pour atteindre des performances optimales, les scientifiques des données se tournent souvent vers une technique appelée assemblage de modèles , dans laquelle plusieurs algorithmes sont combinés de manière intelligente pour obtenir de meilleurs résultats. Les exemples courants incluent Random Forest ( Bagging ) et Gradient Boosted Decision Trees ( Boosting ), mais nous pouvons également utiliser l'apprentissage d'ensemble avec des modèles arbitraires. 


## Bagging

Dans cette section, vous apprendrez comment utiliser Python Sklearn BaggingClassifier pour ajuster le modèle à l'aide de l'algorithme Bagging. Ce qui suit est fait pour illustrer comment Bagging Classifier aide à améliorer les performances de généralisation du modèle. Afin de démontrer les aspects de la performance de généralisation, les opérations suivantes sont effectuées:

*     Un modèle est ajusté à l'aide de l'algorithme LogisticRegression
*     Un modèle est ajusté en utilisant BaggingClassifier avec l'estimateur de base comme LogisticRegression

Le jeu de données Sklearn sur le cancer du sein est utilisé pour ajuster le modèle.

**Entrainement d'un modèle en utilsant la Regression Logistique**

Nous allons faire des prediction sur le cancer du sein

In [6]:
from sklearn import datasets
from sklearn.pipeline import make_pipeline
from sklearn.ensemble import BaggingClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [3]:
# Load the breast cancer dataset
bc_data = datasets.load_breast_cancer()

In [4]:
#split en features et targets
X = bc_data.data
y = bc_data.target

In [5]:
# Create training and test split
train_X, test_X, train_y, test_y  = train_test_split(X, y, test_size = 0.2)

In [7]:
# Pipeline Estimator
pipeline = make_pipeline(StandardScaler(),LogisticRegression())

In [8]:
# Fit the model
pipeline.fit(train_X,train_y)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression())])

In [9]:
# Model scores on test and training data
pipeline.score(test_X,test_y)

0.9649122807017544

In [10]:
pipeline.score(train_X,train_y)

0.9912087912087912

<br>

Le modèle propose les scores suivants. Notez que le modèle a tendance à sur-ajuster les données car le score du test est de 0,991et le score d'entraînement est de 0,991.

Ajustement du modèle à l'aide du classificateur bagging

<!--Dans cette section, nous ajusterons un classificateur baggin en utilisant différents hyperparamètres tels que le suivant et l'estimateur de base en tant que pipeline construit à l'aide de la régression logistique. Notez que vous pouvez effectuer une recherche de grille ou une recherche aléatoire pour obtenir l'estimateur le plus approprié.-->
Hyperparametres:

*     n_estimateurs = 100
*     max_features = 10
*     max_samples = 100

Voici à quoi ressemblera le code Python pour le modèle Bagging Classifier:

In [11]:
# Pipeline Estimator
pipeline_2 = make_pipeline(StandardScaler(), LogisticRegression())

In [12]:
# Instantiate the bagging classifier
bgc = BaggingClassifier(base_estimator = pipeline_2, n_estimators = 100, max_features = 10, n_jobs = 5)

In [14]:
# Fit the bagging classifier
bgc.fit(train_X,train_y)

BaggingClassifier(base_estimator=Pipeline(steps=[('standardscaler',
                                                  StandardScaler()),
                                                 ('logisticregression',
                                                  LogisticRegression())]),
                  max_features=10, n_estimators=100, n_jobs=5)

In [15]:
# Model scores on test and training data
bgc.score(test_X, test_y)

0.956140350877193

In [16]:
bgc.score(train_X,train_y)

0.9846153846153847

Le modèle propose les scores suivants. Notez que le modèle a tendance à surajouter les données car le score au test est de 0,958 et le score d'entraînement est de 0,972. Cependant, le modèle donnera de meilleures performances de généralisation que l'ajustement du modèle avec la régression logistique.<br>
<br><br><br>

## Boosting

Dans cette section, nous examinerons les codes Python pour entraîner un modèle à l'aide de GradientBoostingRegressor pour prédire le prix du logement à Boston Houses.

<!--*     Entraîner le modèle de régression par amplification de gradient
*     Déterminer l'importance de la fonctionnalité
*     Évaluer la formation et tester la déviance (perte)-->

### Python Code for Training the Model

Voici le code Python pour entraîner le modèle à l'aide du jeu de données Boston et de l'algorithme Gradient Boosting Regressor. Notez certains des éléments suivants dans le code ci-dessous:

*    L'ensemble de données Sklearn Boston est utilisé pour la formation
*    L'implémentation Sklearn GradientBoostingRegressor est utilisée pour ajuster le modèle.
*    Le modèle de régression avec amplification de gradient crée une forêt de 1000 arbres avec une profondeur maximale de 3 et une perte de carré moindre.
*    Les hyperparamètres utilisés pour entraîner les modèles sont les suivants:
     *   n_estimators: nombre d'arbres utilisés pour booster
     *   max_depth: Profondeur maximale de l'arbre
     *   learning_rate: Taux selon lequel le résultat de chaque arbre sera mis à l'échelle ou réduit
     *   perte: fonction de perte à optimiser. Les options pour les fonctions de perte sont: ls, lad, huber, quantile. ls représente la moindre perte carrée. lad représente la moindre déviation absolue. huber représente la combinaison des deux, ls et lad.
*    Coefficient de détermination, R-carré est utilisé pour mesurer la précision du modèle. Le score de la méthode invoqué sur l'instance de la régression d'amplification de gradient entraînerait l'impression du R-carré
*    Vous pouvez également calculer l'erreur quadratique moyenne (MSE) pour mesurer les performances du modèle.

In [17]:
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor

In [19]:
# Load the Boston Dataset
house_data = datasets.load_boston()

In [20]:
X_2 = house_data.data
y_2 = house_data.target

In [21]:
# Create Training and Test Split
train_X_2, test_X_2, train_y_2, test_y_2  = train_test_split(X_2, y_2, test_size = 0.2)

In [22]:
# Standardize the dataset
sds = StandardScaler()
train_X_sds = sds.fit_transform(train_X_2)
test_X_sds = sds.fit_transform(test_X_2)

In [23]:
# Hyperparameters for GradientBoostingRegressor 
hparams = {'n_estimators':100,'min_samples_split':5,'learning_rate':0.01, 'loss':'ls'}

In [24]:
# Create an instance of gradient boosting regressor 
gbr = GradientBoostingRegressor(**hparams)

In [25]:
# Fit the model
gbr.fit(train_X_sds,train_y_2)

GradientBoostingRegressor(learning_rate=0.01, min_samples_split=5)

In [26]:
# Print Coefficient of determination R^2
gbr.score(test_X_sds,test_y_2)

0.7364466891620205

In [27]:
# Create the mean squared error
mse = mean_squared_error(test_y_2, gbr.predict(test_X_sds))
mse

21.50343850436667

La précision du modèle peut être mesurée en termes de coefficient de détermination, R2 (R-carré) ou erreur quadratique moyenne (MSE). La valeur du modèle R2 s'est avérée 0,918 et la valeur MSE s'est avérée être 5,9486.