# Leçon #13 - Méthodes d'ensemble

### 3 méthodes
1. Bagging : Construire plusieurs modèles de même type à partir de différent sous-ensemble du jeu de données.
2. Boosting : Construire plusieurs modèles de même type qui vont apprendre à corriger les erreurs des modèles précédemment roulés.
3. Voting : Construire plusieurs modèles de types différents qui vont être combinés à l'aide d'une statistique simple pour maximiser la performance.



### Importer le jeu de données Diabiètes pour la classification

In [1]:
# Importer la librairie pandas
import pandas as pd

# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

# Remplacer le nom des colonnes
colnames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data.columns = colnames

data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Séparer les données en sous-ensemble X et y

In [2]:
# Préparation des données
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]

In [3]:
# Imprimer l'aperçu des colonnes incluses dans X
X.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [4]:
# Imprimer les colonnes incluses dans y
y.head()

0    1
1    0
2    1
3    0
4    1
Name: class, dtype: int64

### 1. Bagging

In [5]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import ExtraTreesClassifier

#### 1.1 Arbres de décision en *Bagging*

In [6]:
from sklearn.tree import DecisionTreeClassifier

# cart = Classification and Regression Trees
dtc = DecisionTreeClassifier()

# Utiliser le méthode d'ensemble bagging classifier
model = BaggingClassifier(base_estimator=dtc, n_estimators=100, random_state=5)

# Appliquer le bagging dans la validation croisée
results = cross_val_score(model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 76.56% +/- 5.52%


#### 1.2 Forêt aléatoire / *Random forest*

In [7]:
from sklearn.ensemble import RandomForestClassifier

# Utiliser le méthode des arbres aléatoires (*random forest*)
model = RandomForestClassifier(n_estimators=100, max_features=3)

# Appliquer le modèle d'arbres aléatoires dans la validation croisée
results = cross_val_score(model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 76.04% +/- 5.32%


#### 1.3 Arbres supplémentaires / *Extra trees*

In [8]:
from sklearn.ensemble import ExtraTreesClassifier

# Utiliser le méthode des arbres aléatoires (*random forest*)
model = ExtraTreesClassifier(n_estimators=100, max_features=3)

# Appliquer le modèle d'arbres supplémentaires dans la validation croisée
results = cross_val_score(model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 75.51% +/- 5.4%


### 2. Boosting

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import GradientBoostingClassifier

#### 2.1 *Boosting* adaptatif / AdaBoost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

# Utiliser la méthode AdaBoost
model = AdaBoostClassifier(n_estimators=30, random_state=5)

# Appliquer le modèle AdaBoost dans la validation croisée
results = cross_val_score(model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 74.61% +/- 5.26%


#### 2.2 Stochastic Gradient Boosting / *Boosting* aléatoire par gradient

In [None]:
from sklearn.ensemble import GradientBoostingClassifier

# Utiliser la méthode de boosting aléatoire par gradient
model = GradientBoostingClassifier(n_estimators=30, random_state=5)

# Appliquer le modèle de boosting aléatoire par gradient dans la validation croisée
results = cross_val_score(model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 76.3% +/- 6.29%


### 3. Ensemble de votes / *Voting*

In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC

#### 3.1 Modèles séparés

##### Modèle 1 - Régression Logistique

In [None]:
from sklearn.linear_model import LogisticRegression

# Initialiser le modèle
lr_model = LogisticRegression(max_iter=1000)

# Appliquer le modèle dans la validation croisée
lr_results = cross_val_score(lr_model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(lr_results.mean()*100.0, 2)}% +/- {round(lr_results.std()*100.0, 2)}%")

Accuracy : 77.35% +/- 3.57%


##### Modèle 2 - Arbres de décision

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Initialiser le modèle
dtc_model = DecisionTreeClassifier()

# Appliquer le modèle dans la validation croisée
dtc_results = cross_val_score(dtc_model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(dtc_results.mean()*100.0, 2)}% +/- {round(dtc_results.std()*100.0, 2)}%")

Accuracy : 70.7% +/- 6.09%


##### Modèle 3 - Support Vector Machine

In [None]:
from sklearn.svm import SVC

# Initialiser le modèle
svc_model = SVC()

# Appliquer le modèle dans la validation croisée
svc_results = cross_val_score(svc_model, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(svc_results.mean()*100.0, 2)}% +/- {round(svc_results.std()*100.0, 2)}%")

Accuracy : 75.79% +/- 3.05%


#### 3.2 Ensemble de votes / *Voting*

In [None]:
from sklearn.ensemble import VotingClassifier

In [None]:
# Créer une liste de sous-modèles
estimators = []

model1 = LogisticRegression(max_iter=1000, random_state=5)
estimators.append(('logistic', model1))

model2 = DecisionTreeClassifier(random_state=5)
estimators.append(('dtc', model2))

model3 = SVC(random_state=5)
estimators.append(('svm', model3))

In [None]:
# Imprimer les modèles et leurs paramètres un par un
for model in estimators:
  print(model)

('logistic', LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=1000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=5, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False))
('dtc', DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=5, splitter='best'))
('svm', SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=5, shrinking=True, tol=

In [None]:
# Initialiser la méthode d'ensembles de votes
ensemble = VotingClassifier(estimators)

# Appliquer le modèle dans la validation croisée
results = cross_val_score(ensemble, X, y, cv=10, scoring='accuracy')

# Imprimer les résultats
print(f"Accuracy : {round(results.mean()*100.0, 2)}% +/- {round(results.std()*100.0, 2)}%")

Accuracy : 76.96% +/- 4.33%


## **LEÇON #13 - EXERCICE CONTINU**

## Appliquer une méthode d'ensemble en classification et régression

### Tâches à accomplir

> *Utiliser votre notebook individuel `notebook_pratique_classification_binaire.ipynb` pour les exercices concernant la classification sur le jeu de données `banknotes.csv`.*

1. Appliquer une méthode d'ensemble de modèle par **bagging**. 
  * Condition :
    * Utiliser un modèle `DecisionTreeClassifier`.

> *Utiliser votre notebook individuel `notebook_pratique_régression.ipynb` pour les exercices concernant la régression avec le jeu de données `concrete.csv`.*

2. Appliquer une méthode d'ensemble de modèle par **boosting**.
  * Condition :
    * Utiliser la méthode de boosting AdaBoost.

> *Utiliser votre notebook individuel `notebook_pratique_classification_binaire.ipynb` pour les exercices concernant la classification sur le jeu de données `banknotes.csv`.*

3. Appliquer une méthode d'ensemble de modèle par **vote**.
  * Condition :
    * Combiner 2 modèles ensemble pour le vote.
    