#  Introduction à l'apprentissage ensembliste

On va introduire l'apprentissage ensembliste (**ensemble learning**) dont le but est d'améliorer les performances de notre modèle en combinant plusieurs classifieurs dits faibles (en termes de **biais** ou **variance** des erreurs de prédiction).

<div>
<img src="attachment:bias%20variance.png" width="300"/>
</div>



Dans l'apprentissage ensembliste, on distingue 3 grandes familles de méthodes : le **Bagging** (parallèle), le **Boosting** et le **Stacking** (séquentielles)

Le **Bagging** qui est un diminutif de **B**ootstrap **Agg**regat**ing** (vous allez comprendre ce nom dans un instant) est une méthode permettant de combiner plusieurs classifieurs sur différents échantillons Bootstrap indépendants (tirage avec remise dans la base de départ). La construction des classifieurs est faite de manière parallèle. Cette méthode permet de réduire la variance des estimateurs individuels et offre une prédiction plus performante et plus stable, dépendante du nombre de classifieurs faibles utilisés. 

<div>
<img src="attachment:bagging.jpeg" width="500"/>
</div>

Le **Boosting** consiste à combiner plusieurs classifieurs en accordant plus de poids à ceux dont la prédiction est correcte. Le Boosting procède séquentiellement. Chaque classifieur est une version adaptative du précédent en donnant plus de poids aux observations mal ajustées ou mal prédites. L’estimateur construit à l’étape k concentrera donc ses efforts sur les observations mal ajustées par l’estimateur à l’étape k−1.Cette méthode permet de réduire le biais des estimateurs individuels.**AdaBoost** est l'algorithme de Boosting le plus populaire. 

- **Algorithme AdaBoost**
<div>
<img src="attachment:boosting.png" width="400"/>
</div>

<div>
<img src="attachment:adaboost.png" width="400"/>
</div>

Le **stacking** est un procédé qui consiste à appliquer un algorithme de machine learning à des classifieur générés par un autre algorithme de machine learning.Il s’agit de prédire quels sont les meilleurs classifieurs et de les pondérer. 

<div>
<img src="attachment:stacking.png" width="400"/>
</div>

On peut également citer les **Random Forests** comme autre méthode ensembliste.Ils sont une **amélioration du Bagging** puisqu'elles créent des arbres plus différents structurellement en échantillonnant aléatoirement seulement un sous-ensemble des features disponibles, ce qui permet de réduire la corrélation entre les arbres et donc d'obtenir un meilleur modèle final.

<div>
<img src="attachment:rand-forest-2.jpg" width="400"/>
</div>

L'agrégation des modèles ensembliste se fait par **vote majoritaire** parmi les prédictions pour les problèmes de classification et par **moyennisation** (pondérée ou non) des prédictions pour des problèmes de régression.

Nous allons mettre en pratique les méthodes ensemblistes (Bagging,AdaBoost,Random Forest) sur le dataset **PIMA INDIAN DIABETES**. 


Les données disponibles sont les suivantes :

Pregnancies = Number of times pregnant

Glucose = Plasma glucose concentration a 2 hours in an oral glucose tolerance test

BloodPressure  = Diastolic blood pressure (mm Hg)

SkinThickness = Triceps skin fold thickness (mm)

Insulin = 2-Hour serum insulin (mu U/ml)

BMI = Body mass index (weight in kg/(height in m)^2)

DiabetesPedigreeFunction = Diabetes pedigree function

Age  = Age (years)

Outcome = Class variable (1:tested positive for diabetes, 0: tested negative for diabetes)




### 1. Import des libraries utiles

In [1]:
#Analyse exploratoire des données et Preprocessing
import numpy as np 
import pandas as pd 

from sklearn import preprocessing
from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt 

import seaborn as sns
sns.set(style="white") #white background style for seaborn plots
sns.set(style="whitegrid", color_codes=True)

### 2. Description du dataset
1. Charger le dataset et afficher sa dimension

2. Afficher les 10 premières lignes de la table

3. Afficher la liste des variables et leurs types


 ### 3. Analyse des valeurs manquantes
1. Afficher le nombre ainsi que le pourcentage de valeurs manquantes par variable


 ### 4. Analyse exploratoire 
 
 1. Afficher le `distplot`de la variable `Glucose`. Commenter
 2. Afficher le `distplot` de la variable `DiabetesPedigreeFunction`. Commenter
 3. Afficher le `Boxplot`de la variable `Insulin`en fonction de la variable cible `Outcome`
 4. Afficher les `Boxplot` des variables `BMI` et `Age` en fonction de la variable cible `Outcome`
 5. Afficher le `pairplot`de l'ensemble des variables `BloodPressure`et `BMI`en fonction de la variable `Outcome`.Commenter
 6. Afficher la HeatMap des corrélations de l'ensemble des variables (hors variable cible). Commenter
 
 **Bonus:** Afficher le `kdeplot`de l'ensemble des variables en fonction de la variable cible. Commenter
 
 

 ### 5. Data splitting
 
 1. Créer un DataFrame `X` contenant les features et `y` la Target
 2. Générer les échantillons d'apprentissage (training) et de test à l'aide de `sklearn.model_selection.train_test_split` en fixant le test_size à 0.33 et random_state à 42 et stratify = y 

3. Àfficher le tableau de fréquence de la variable `y` (en nombre et pourcentage) pour les 2 échantillons générés. Commenter 

 ### 6. Bagging - Modélisation et Performances

Nous allons à ce stade entraîner un **modèle Bagging** en utilisant la fonction `sklearn.ensemble.BaggingClassifier`

1. Afficher la DocString de cette fonction

2. On paramètre la fonction avec  `tree.DecisionTreeClassifier(random_state=1)`. Quelle est sa signification?

3. Instancier un `BaggingClassifier(tree.DecisionTreeClassifier(random_state=1))` et appliquer le (fonction `.fit()`) sur votre échantillon d'apprentissage

4. Faire une prédiction (fonction `.predict()`) de la variable Y sur l'échantillon de test.

5. Afficher la `heatmap` de la matrice de confusion (fonction `sklearn.metrics.confusion_matrix`) et l'Accuracy. Commenter

6. Définir l'AUC et l'afficher
   
7. Définir la courbe ROC
   Afficher la courbe ROC. Interpréter

 ### 7. AdaBoost - Modélisation et Performances

Nous allons à cette stade entraîner un **modèle AdaBoost** en utilisant la fonction `sklearn.ensemble.AdaBoostClassifier`

1. Afficher la DocString de cette fonction
2. Instancier un `AdaBoostClassifier(random_state=1)` et appliquer le (fonction `.fit()`) sur votre échantillon d'apprentissage

3. Faire une prédiction (fonction `.predict()`) de la variable Y sur l'échantillon de test. 

4. Afficher l'Accuracy, l'AUC et la courbe ROC

 ### 8. Random Forest - Modélisation et Performances

Nous allons à cette stade entraîner un **modèle RANDOM FOREST** en utilisant la fonction `sklearn.ensemble.RandomForestClassifier`

1. Afficher la DocString de cette fonction
2. On choisit n_estimators=1000. Quelle est sa signification?
3. Instancier un `RandomForestClassifier(n_estimators=1000)` et appliquer le (fonction `.fit()`) sur votre échantillon d'apprentissage

4. Faire une prédiction (fonction `.predict()`) de la variable Y sur l'échantillon de test. 

5. Afficher l'Accuracy, l'AUC et la courbe ROC

6. Afficher l'importance de chaque variable dans le RF avec `rf.feature_importances_`. Associer à chaque niveau le nom de la variable associée (dans l'ordre des variables disponibles dans le dataset).
   Afficher le `barplot` de l'importance par variable. Commenter
   
**Bonus** : Exclure les 2 variables les moins importantes (`SkinThickness`et `Insulin`) et relancer le modèle. Comparer l'AUC à celui du modèle incluant l'ensemble des variables
**Bonus**: Rechercher les hyperparamètres optimaux de la RF par GridSearch puis relancer le modèle RF et calculer l'AUC. Commenter les résultats par comparaison avec les précédents modèles

```
param_grid = { 
    'n_estimators': [100, 500,1000],
    'max_features': ['auto', 'sqrt', 'log2']
}

CV_rfc = GridSearchCV(estimator=rfc, param_grid=param_grid, cv= 5)
```

 ### 9. Comparaison des performances
 1. Regrouper dans un DataFrame les Accuracy et AUC par modèle (créer au préalable un Dictionnaire)
 2. Superposer les courbes ROC. Commenter les résultats