# Random Forest

Le module sklearn.ensemble va nous permettre d’utiliser la classe RandomForestClassifier afin de créer une instance de l’algorithme RandomForest

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import precision_recall_fscore_support as score
from sklearn.model_selection import train_test_split

Lecture de la base de données et stockage des données dans une variable data

In [13]:
data = pd.read_csv("../Data/spambase.csv", sep=',', header=None)
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,48,49,50,51,52,53,54,55,56,57
0,0.00,0.64,0.64,0.0,0.32,0.00,0.00,0.00,0.00,0.00,...,0.000,0.000,0.0,0.778,0.000,0.000,3.756,61,278,1
1,0.21,0.28,0.50,0.0,0.14,0.28,0.21,0.07,0.00,0.94,...,0.000,0.132,0.0,0.372,0.180,0.048,5.114,101,1028,1
2,0.06,0.00,0.71,0.0,1.23,0.19,0.19,0.12,0.64,0.25,...,0.010,0.143,0.0,0.276,0.184,0.010,9.821,485,2259,1
3,0.00,0.00,0.00,0.0,0.63,0.00,0.31,0.63,0.31,0.63,...,0.000,0.137,0.0,0.137,0.000,0.000,3.537,40,191,1
4,0.00,0.00,0.00,0.0,0.63,0.00,0.31,0.63,0.31,0.63,...,0.000,0.135,0.0,0.135,0.000,0.000,3.537,40,191,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4596,0.31,0.00,0.62,0.0,0.00,0.31,0.00,0.00,0.00,0.00,...,0.000,0.232,0.0,0.000,0.000,0.000,1.142,3,88,0
4597,0.00,0.00,0.00,0.0,0.00,0.00,0.00,0.00,0.00,0.00,...,0.000,0.000,0.0,0.353,0.000,0.000,1.555,4,14,0
4598,0.30,0.00,0.30,0.0,0.00,0.00,0.00,0.00,0.00,0.00,...,0.102,0.718,0.0,0.000,0.000,0.000,1.404,6,118,0
4599,0.96,0.00,0.00,0.0,0.32,0.00,0.00,0.00,0.00,0.00,...,0.000,0.057,0.0,0.000,0.000,0.000,1.147,5,78,0


Extraction des labels

In [3]:
email_class = data[57]

Supprimer la colonne 57 qui contient les labels

In [4]:
data.drop([57],axis = 1, inplace=True)

Split des données

In [5]:
x_train, x_test, y_train, y_test = train_test_split(data, email_class, test_size=0.25)

La première instruction crée l’objet alg_DecisionTree qui représente une instance de l’algorithme Random Forest. Cet objet a été initialisé avec la valeur n_estimators=1. Ce paramètre permet d’indiquer le nombre d’arbres de décision à utiliser et c’est ce qui justifie le suffixe DecisionTree dans le nom de la variable associée à cet objet.

Le paramètre max_depth permet d’indiquer la profondeur maximale que les arbres de décision sont autorisés à avoir.

Le paramètre n_jobs permet d’indiquer le nombre de processeurs à exploiter lors de la construction des arbres de décision. Lorsque ce paramètre est affecté avec la valeur -1, cela indique notre souhait d’exploiter tous les processeurs disponibles.

Ce dernier code va construire un seul arbre de décision puisque n_estimators=1 ; de ce fait, dans cet exemple le paramètre n_jobs a peu d’intérêt.

La deuxième instruction permet tout simplement de lancer la procédure de création de l’unique arbre de décision à partir des données x_train et y_train indiquées comme arguments de la fonction fit. Une fois construit, cet arbre de décision sera stocké dans la variable dt_model.

In [6]:
alg_DecisionTree = RandomForestClassifier(n_estimators=1, max_depth=60, n_jobs=-1)

Entrainement du modèle

In [7]:
dt_model = alg_DecisionTree.fit(x_train, y_train)

La première instruction permet d’utiliser l’arbre de décision dt_model construit à l’étape précédente afin de prédire les catégories des e-mails stockés dans le jeu de données de test x_test. Les résultats de ces prédictions seront stockés dans la variable dt_predictions.

La deuxième instruction permet tout simplement de calculer les valeurs des quatre métriques de performance precision, recall, fscore, support. Par la suite, nous allons nous intéresser uniquement aux deux métriques precision et recall avec la métrique accuracy que nous allons calculer.

In [8]:
dt_predictions = dt_model.predict(x_test)

Cette dernière instruction permet de calculer et d’afficher les trois métriques de performance precision, recall et accuracy

In [9]:
precision, recall, fscore, support = score(y_test, dt_predictions, pos_label=1, average='binary')

In [10]:
print('Precision: {} / Recall: {} / Accuracy: {}'.format(round(precision, 3),
                                                         round(recall, 3), round((dt_predictions==y_test).sum() / len(dt_predictions),3)))

Precision: 0.895 / Recall: 0.842 / Accuracy: 0.894


Une seule exécution d’un algorithme du Machine Learning sur un jeu de données ne permet pas d’avoir un modèle robuste et stable une fois déployé en production. Afin qu’un modèle gagne toute notre confiance, il est plus judicieux d’utiliser la technique de cross-validation. La suite de cet exemple montre comment réaliser la cross-validation avec Scikit-learn.

La première instruction permet d’importer la classe KFold et la fonction cross_val_score qui permettent de réaliser la cross-validation de façon simple et intuitive.

La deuxième instruction permet de créer une instance de l’algorithme Random Forest comme nous l’avons réalisé lors de l’exemple précédent. Notez le fait que nous avons encore affecté la valeur 1 à l’argument n_estimators, ce qui signifie que l’algorithme va encore construire un seul arbre de décision par modèle durant la cross-validation.

La troisième instruction permet de créer l’objet k_fold de type KFold avec l’argument n_splits=4 qui indique le nombre de paquets à utiliser avec la cross-validation.

La dernière ligne de ce code permet de lancer le processus de la cross-validation avec la fonction cross_val_score. Cette fonction reçoit en arguments l’algorithme alg_RandomForest qui sera appliqué à chaque étape de la cross-validation ainsi que les données d’apprentissage, qui sont représentées ici par les arguments data et email_class, l’objet k_fold pour indiquer quels sont les paquets de données à utiliser, l’argument scoring=’accuracy’ indique la métrique sur laquelle sera basée la comparaison des modèles construits à chaque étape de la cross-validation, et enfin l’argument n_jobs=-1 pour autoriser ce programme à exploiter tous les processeurs disponibles. 

In [11]:
from sklearn.model_selection import KFold, cross_val_score
alg_RandomForest = RandomForestClassifier(n_estimators=1, max_depth=60, n_jobs=-1)
k_fold = KFold(n_splits=4)
cross_val_score(alg_RandomForest, data, email_class, cv=k_fold, scoring='accuracy', n_jobs=-1)

array([0.72632493, 0.86347826, 0.88608696, 0.78434783])

In [12]:
from sklearn.model_selection import KFold, cross_val_score
alg_RandomForest = RandomForestClassifier(n_estimators=100, max_depth=60, n_jobs=-1)
k_fold = KFold(n_splits=4)
cross_val_score(alg_RandomForest, data, email_class, cv=k_fold, scoring='accuracy', n_jobs=-1)

array([0.82363162, 0.91652174, 0.9626087 , 0.8226087 ])