In [1]:
# Import des bibliothèques 
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('letter-recognition.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 17 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   letter  20000 non-null  object
 1   xbox    20000 non-null  int64 
 2   ybox    20000 non-null  int64 
 3   width   20000 non-null  int64 
 4   height  20000 non-null  int64 
 5   onpix   20000 non-null  int64 
 6   xbar    20000 non-null  int64 
 7   ybar    20000 non-null  int64 
 8   x2bar   20000 non-null  int64 
 9   y2bar   20000 non-null  int64 
 10  xybar   20000 non-null  int64 
 11  x2ybar  20000 non-null  int64 
 12  xy2bar  20000 non-null  int64 
 13  xedge   20000 non-null  int64 
 14  xedgey  20000 non-null  int64 
 15  yedge   20000 non-null  int64 
 16  yedgex  20000 non-null  int64 
dtypes: int64(16), object(1)
memory usage: 2.6+ MB


Les features de chaque lettre sont stockées dans les 16 derniers attributs de df, la variable cible dans l'attribut letter. 

In [3]:
#Séparation des données et des cibles
data = df.drop('letter', axis=1)

target = df['letter']

In [4]:
# Jeu apprentissage et heu de test (30%)

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3)

# Classification supervisée par l'abre de décision
La construction des arbres de décision comme modèle de classification se fait en spécifiant la profondeur maximale max_depth (Il y a d'autres paramètres qu'il est possible de donner)

In [5]:
# construiction modèle de classification
dtc = DecisionTreeClassifier(max_depth=5)
dtc.fit(X_train, y_train)

# Evaluation du modèle de classification


In [6]:
# Calcule tx bonnes prédiction methode score
dtc.score(X_test, y_test)

0.3715

Le taux de bonne prédiction est relativement faible. Pour une meilleure clarté des prédictions effectuées, il convient d'afficher une matrice de confusion. 


In [7]:
# Prédiction sur X_test et matrice de confusion

y_pred = dtc.predict(X_test)
pd.crosstab(y_test, y_pred, rownames = ['Classe réelle'], colnames=['Classe prédite'])

Classe prédite,A,B,C,I,J,L,M,N,P,Q,R,S,T,U,V,W,Z
Classe réelle,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
A,182,20,6,0,1,0,2,0,0,32,4,4,0,0,0,0,0
B,0,234,2,0,0,0,0,0,0,3,0,0,0,3,0,0,0
C,0,6,198,0,0,0,0,0,0,7,3,0,0,18,0,0,0
D,0,183,3,0,2,0,0,2,0,2,3,0,0,15,0,0,22
E,0,29,171,0,0,0,0,0,0,22,3,0,0,0,0,0,4
F,0,62,2,0,0,0,0,0,45,0,13,0,59,6,45,0,0
G,0,39,149,0,0,0,1,2,0,35,1,0,0,0,0,0,0
H,0,107,22,0,0,0,0,0,0,7,13,0,0,72,0,0,0
I,0,71,6,138,3,0,0,0,4,6,3,0,0,0,0,0,2
J,0,49,1,3,162,0,2,0,4,5,1,0,0,4,0,0,0


# Algorithme de Boosting
Scikit-Learn permet l’application d’AdaBoost comme algorithme de Boosting. 
L’objectif de cette partie est de créer un nouveau modèle de classification à partir de séquences d’arbres de décisions comme dtc défini plus haut. 


In [9]:
# Création du classifier et construction du modèle sur les données d'entraînement
ac = AdaBoostClassifier(estimator=dtc, n_estimators=400)
ac.fit(X_train, y_train)

# Calcul de l'accuracy
ac.score(X_test, y_test)

0.8733333333333333

In [10]:
# Matrice de confusion de l'ensemble de test

y_pred = ac.predict(X_test)
pd.crosstab(y_test, y_pred)

col_0,A,B,C,D,E,F,G,H,I,J,...,Q,R,S,T,U,V,W,X,Y,Z
letter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A,240,0,0,1,0,0,2,0,0,1,...,2,0,0,2,0,0,0,1,2,0
B,0,197,0,3,0,0,1,0,0,1,...,0,15,15,0,0,2,0,3,0,0
C,0,0,216,0,8,0,3,0,0,0,...,2,0,0,1,1,0,0,0,0,0
D,1,6,0,210,0,1,0,2,0,0,...,1,1,2,0,0,0,0,1,0,0
E,0,0,1,0,184,0,7,0,0,0,...,5,3,2,3,0,0,0,14,0,0
F,0,6,2,2,1,189,0,1,0,0,...,0,0,1,3,0,0,0,3,7,0
G,0,1,40,4,1,1,169,0,0,0,...,2,1,2,0,0,1,1,0,0,0
H,0,5,0,9,0,0,2,184,0,0,...,1,8,0,1,1,0,0,0,3,0
I,0,0,1,2,0,7,0,0,205,2,...,0,0,11,0,0,0,0,1,0,0
J,0,1,0,5,1,2,0,2,14,198,...,0,0,7,0,0,0,0,0,0,0


Les résultats obtenus sont sensiblement meilleurs qu'avec l'arbre de décision simple. 
Adaboost est un algorithme applicable à de nombreux domaines par un bon choix de classificateurs de base. Cette technique est adaptée aux problèmes multi-étiquettes et permet de bien classifier les exemples aberrants. 

# Le Bagging ou Bootstrap AGGregatING
Le terme de Bagging vient de la contraction de Bootstrap Aggregating, il regroupe un ensemble de méthodes visant à réduire la variance et à augmenter la stabilité des algorithmes de Machine Learning utilisés pour la classification ou la régression. 
La méthode générale du Bagging consiste principalement en l’entraînement d’un modèle sur différents sous-ensembles de même taille que l’échantillon initial, par la technique de Bootstrap, c’est-à-dire de tirage aléatoire avec remise. 
La méthode construit donc un ensemble d’estimateurs indépendants contrairement au Boosting qui sont par la suite agrégés en un méta-modèle, avec un vote majoritaire pour la classification et une moyenne pour la régression. 
Contrairement au Boosting choisir un grand nombre d’estimateur n’entrainera pas de risque supplémentaire d’overfitting. En effet, plus le nombre d’estimateur est élevé, plus le biais du modèle final sera équivalent à la moyenne de biais agrégés et la variance diminuera d’autant plus que les estimateurs que l’on agrège seront décorrélés. On aura donc tout intérêt à choisir un nombre d’estimateurs le plus élevé possible, en fonction du temps que l’on souhaite accorder au processus d’entrainement. 


In [11]:
# Création du classifier et construction du modèle sur données entrainement
from sklearn.ensemble import BaggingClassifier
bc = BaggingClassifier(n_estimators=1000, oob_score=True)
bc.fit(X_train, y_train)
bc.oob_score_

0.9439285714285715

In [12]:
# Calcul accuracy sur échantillon test
bc.score(X_test, y_test)

0.947

In [13]:
# Matrice de confusion
y_pred = bc.predict(X_test)
pd.crosstab(y_test, y_pred)

col_0,A,B,C,D,E,F,G,H,I,J,...,Q,R,S,T,U,V,W,X,Y,Z
letter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
A,246,0,0,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,1,0
B,0,231,0,3,1,0,2,0,0,0,...,0,2,1,0,0,0,0,1,0,0
C,0,0,217,0,6,1,5,0,0,0,...,2,0,0,0,0,0,0,0,0,0
D,0,1,0,221,0,1,0,4,0,0,...,0,0,0,0,0,0,0,0,0,1
E,0,0,2,0,205,2,6,0,0,0,...,1,0,3,1,0,0,0,4,0,1
F,0,2,0,1,0,214,1,1,1,0,...,0,0,0,4,0,0,0,1,1,0
G,0,0,2,4,0,0,218,0,0,0,...,1,0,0,0,0,0,0,0,0,0
H,0,2,0,1,0,0,0,205,0,0,...,0,7,0,0,0,0,0,0,0,0
I,0,1,0,0,0,4,1,0,216,6,...,1,0,0,1,0,0,0,0,0,2
J,1,1,0,1,0,1,0,1,15,204,...,1,0,2,0,1,0,0,0,0,1


Les resultat obtenus avec le Bagging sont encore largement supérieurs à ceux de premiers modèles. 
Le bagging est une méthode d’ensemble simple et robuste réduisant la variance quand les prédicteurs sont instables. Son estimation de l’erreur de prédiction par Bootstrap prévient l’overfitting. 
L’utilisation du Bagging est adaptée aux algorithmes à fortes variance qui sont ainsi stabilisés, notamment les réseaux neuronaux et les arbres de décision. 
Cependant, il peut également dégrader les qualités pour des algorithmes plus stable par exemple la méthode des k plus proche voisins, ou la régression linéaire. 


Pour conclure, les méthodes de Bagging et de Boosting sont similaires sur le fond mais bien différentes sur la forme. En effet le bagging et le boosting :
-	Sont toutes les deux des méthodes d’ensemble qui produisent un nombre N d’estimateurs pour en obtenir un, MAIS alors qu’ils sont indépendants pour le Bagging, le Boosting crée des modèles qui s’améliorent itérativement en insistant là où les modèles précédents ont échoué. 
-	Génèrent différents jeux de données par rééchantillonnage, MAIS alors que le rééchantillonnage est totalement aléatoire pour le Bagging, le Boosting calcule des poids différents pour sélectionner à chaque étape les observations les plus difficiles à prédire. 
-	Déterminent toutes les deux la décision finale en effectuant un vote de majorité ou une moyenne sur les N estimateurs, MAIS la moyenne est équipondérée pour le Bagging et pondérée par des coefficients relatifs à la performance des estimateurs pour le Boosting. 
-	Sont efficaces pour réduire la variance et apporter une plus grande stabilité MAIS seul le Boosting tente de réduire le biais, tandis que le Bagging est meilleur pour éviter l’overfitting que le Boosting peut parfois créer. 
