# L'algorithme du Random Forest avec Sklearn

## Importation des packages

In [11]:
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

## Importation des données 

In [12]:
data = load_breast_cancer()

x = data['data']
y = data['target']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)

In [13]:
x

array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]])

In [14]:
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0,

## Les paramètres

Dans cette partie, je vais prendre le temps de vous expliquer chaque paramètre de l'algorithme du random forest. De cette façon, vous pourrez choisir judicieusement les paramètres les plus adaptés à votre problème dans le but d'entraîner le modèle de random forest le plus performant. 

### n_estimators

Le paramètre *n_estimators* contrôle le nombre d'arbres présents dans notre forêt d'arbres de décision. Plus il y a d'arbres plus le modèle sera précis, mais plus il sera lent à utiliser. 

In [15]:
model_1 = RandomForestClassifier(n_estimators=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9468085106382979


In [16]:
model_2 = RandomForestClassifier(n_estimators=100, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9627659574468085


### criterion

Vous pouvez choisir entre deux façons de calculer l'erreur de votre modèle lors de son entraînement. L'indice Gini ou le calcule de l'Entropy. 

In [17]:
model_1 = RandomForestClassifier(criterion='gini', random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [18]:
model_1 = RandomForestClassifier(criterion='entropy', random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9680851063829787


In [19]:
model_2 = RandomForestClassifier(criterion='entropy', random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9680851063829787


### max_depth

La profondeur de l'arbre est un des paramètres les plus importants à définir. 

Ce paramètre va déterminer la longueur maximum de votre arbre. Vous pouvez aussi spécifier None pour ce paramètre, dans ce cas durant l'entraînement l'arbre va s'approfondir jusqu'à obtenir les feuilles les plus pures possible. 

Je ne vous conseille pas de laisser ce paramètre à *None*, car plus votre arbre sera profond plus il sera complexe et plus il souffrira du sur-entraînement.

In [20]:
model_1 = RandomForestClassifier(max_depth=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


Plus la profondeur est réduite, plus le modèle sera simple et généralisable. Cette meilleure généralisation augmentera les performances du modèle sur le jeu de test.


Pour un random forest on préfère travailler avec des "Weak Learner" un ensemble de modèle peu performant et gagner de la performance en alliant leurs forces.

### min_samples_split

Le *min_sample_split* est le nombre minimal d'exemples que le modèle doit avoir pour pouvoir faire une nouvelle séparation. 

Vous avez le choix de remplir ce paramètre avec un entier (int) ou un flottant (float). 

Si vous utilisez un entier, le modèle le comprendra comme le nombre minimal d'exemples que le noeud doit avoir pour pouvoir créer une nouvelle séparation. 

Si vous utilisez un flottant, le modèle le comprendra comme la fraction de données que le noeud doit avoir pour pouvoir créer une nouvelle séparation.

Plus ce paramètre sera grand plus votre arbre sera simple et plus il sera généralisable.

In [21]:
model_1 = RandomForestClassifier(min_samples_split=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9521276595744681


### min_samples_leaf

Le *min_sample_leaf* est le minimum d'exemples requis pour créer une feuille.

Seules les feuilles ayant ce minimum d'exemples seront conservées. Pour ce paramètre aussi vous pouvez spécifier un nombre entier ou un nombre flottant.

Plus ce paramètre sera bas, plus votre modèle pourra faire du cas par cas et aura du mal à généraliser.

In [22]:
model_1 = RandomForestClassifier(min_samples_leaf=20, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9574468085106383


### min_weight_fraction_leaf

Dans l'entraînement d'un modèle d'arbre de décision, on peut ajouter un vecteur de poids qui donne une importance différente aux observations de notre jeu de données.

Si vous avez donné un vecteur de poids avec votre jeu de données, ce paramètre vous permet de spécifier le minimum de poids de votre feuille pour sa création. Si vous n'avez pas ajouté de vecteur de poids pour l'entraînement de votre modèle, ce paramètre a la même utilité que le paramètre *min_sample_leaf*.

Pour ce paramètre aussi vous pouvez spécifier un nombre entier ou un nombre flottant.

### max_features

Le paramètre *max_features* contrôle le nombre de variables à tester pour trouver la meilleure séparation.

Vous pouvez indiquer un entier qui déterminera le nombre de variables à tester.

Vous pouvez indiquer un flottant qui sera la proportion de variables à tester parmi les variables du jeu de données.

Il y a une option auto qui effectue un test pour chaque variable de votre jeu de données, cette option est équivalente à choisir None. 

Il y a une option sqrt qui teste la racine carrée du nombre de variables du jeu de données.

Il y a une option log2 qui teste le log2 du nombre de variables de votre jeu de données.

À noter que même si vous spécifiez un maximum de variable à tester l'algorithme peut le dépasser dans le cas où il ne trouve pas de variable valide pour séparer le jeu de données dans le nombre de tests imparti. 


C'est un paramètre à tuner si vous avez des problèmes de performance et que vous voulez réduire le temps de calcul. Si vous n'avez pas de problème de performance, je vous recommande de laisser None ou auto.

### max_leaf_nodes

Ce paramètre vous permet de choisir le nombre maximum de feuilles de votre arbre, il peut être intéressant de fixer ce nombre pour contrôler la complexité de l'arbre. Il garde bien sûr les meilleures feuilles disponibles.

In [23]:
model_1 = RandomForestClassifier(max_leaf_nodes=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


### min_impurity_decrease

Ce paramètre permet de contrôler si le gain de pureté est suffisant pour continuer la construction de l'arbre dans cette voie. 

Ce paramètre peut être intéressant, car il est possible d'avoir des règles supplémentaires qui complexifient le modèle pour ne faire gagner que peu de pureté.

Plus la valeur de ce paramètre est basse plus l'arbre sera complexe et moins il sera généralisable.

Plus la valeur de ce paramètre est élevée plus l'arbre sera simple et généralisable. 

### min_impurity_split

Ce paramètre n'est plus maintenu ne l'utilisait pas préférez utiliser min_impurity_decrease.

### bootstrap

Ce paramètre contrôle si la construction de vos arbres se font en sélectionnant aléatoirement des samples de votre jeu de données ou si vos arbres sont construits sur toute votre base de données. 

Si vous vous souvenez du principe de l'ensemble learning un des points importants est la variété des modèles utilisés pour optimiser les performances du modèle. Utilisé tout votre jeu de données pour la création de vos arbres réduit la variété des arbres que vous pouvez créer et donc nuit à la performance de votre modèle.

Utiliser toujours bootstrap

In [24]:
model_1 = RandomForestClassifier(bootstrap=True, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [25]:
model_2 = RandomForestClassifier(bootstrap=False, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9521276595744681


### n_jobs

Pour l'algorithme du random forest des arbres sont construit sur des parties aléatoire du jeux de données. Il n'y a pas de lien entre la construction des différents arbres, ils peuvent donc être construit en parrallèle. Le paramètre n_jobs nous propose de paralèliser l'utilisation de notre algorithme. Le chiffre de ce paramètre désignera le nombre de processeur à utiliser pour la parallèlisation de l'aglrotihme. 

### random_state

Ce paramètre permet d'initialiser une seed. C'est-à-dire que les nombres générés aléatoirement seront toujours les mêmes. C'est intéressant à utiliser durant les tests où l'on voudra tomber sur les mêmes résultats et être sûr que les changements de performance sont dû au changement des paramètres et non à une initialisation différente.

### verbose

Ce paramètre contrôle le nombre de textes à afficher lors de l'entraînement. Plus ce paramètre est élevé plus vous aurez d'informations affichées. 

In [26]:
model_1 = RandomForestClassifier(verbose=0, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [27]:
model_2 = RandomForestClassifier(verbose=1, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9627659574468085


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


In [28]:
model_3 = RandomForestClassifier(verbose=2, random_state=123)
model_3.fit(x_train, y_train)
y_pred_3 = model_3.predict(x_test)
print(np.sum(y_pred_3 == y_test)/x_test.shape[0])

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


building tree 1 of 100
building tree 2 of 100
building tree 3 of 100
building tree 4 of 100
building tree 5 of 100
building tree 6 of 100
building tree 7 of 100
building tree 8 of 100
building tree 9 of 100
building tree 10 of 100
building tree 11 of 100
building tree 12 of 100
building tree 13 of 100
building tree 14 of 100
building tree 15 of 100
building tree 16 of 100
building tree 17 of 100
building tree 18 of 100
building tree 19 of 100
building tree 20 of 100
building tree 21 of 100
building tree 22 of 100
building tree 23 of 100
building tree 24 of 100
building tree 25 of 100
building tree 26 of 100
building tree 27 of 100
building tree 28 of 100
building tree 29 of 100
building tree 30 of 100
building tree 31 of 100
building tree 32 of 100
building tree 33 of 100
building tree 34 of 100
building tree 35 of 100
building tree 36 of 100
building tree 37 of 100
building tree 38 of 100
building tree 39 of 100
building tree 40 of 100
building tree 41 of 100
building tree 42 of 100
b

[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.1s finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


### max_samples

Ca paramètre contrôle le nombre d'observations à tirer pour l'entraînement de nos modèles. 

Par défaut on tire autant d'observations que le nombre de lignes dans le jeu de données d'origine. Ce paramètre vous permet de définir vous même le nombre d'observations que l'algorithme doit tirer pour l'entraînement des arbres. 

## Attributs

Les attributs sont les différentes informations que l'on peut obtenir du modèle une fois qu'il est entraîné.

L'attribut *base_estimator_* retourne les paramètres d'entraînement de notre algorithme de random forest. 

In [None]:
model_1.base_estimator_

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

### classes_

L'attribut *classes_* retourne les classes de notre modèle.

In [35]:
model_1.classes_

array([0, 1])

### n_classes_

L'attribut *n_classes_* retourne le nombre de classes de notre modèle.

In [36]:
model_1.n_classes_

2

### n_features_

L'attribut *n_features_* retourne le nombre de variables de notre modèle. 

In [37]:
model_1.n_features_

30

### feature_importances_

L'attribut *feature_importances_* retourne l'importance des variables du jeu de données dans la construction des arbres de la forêt.

In [38]:
pd.DataFrame({'Features' : data.feature_names, 
              'Features_importances' : model_1.feature_importances_})

Unnamed: 0,Features,Features_importances
0,mean radius,0.033636
1,mean texture,0.015113
2,mean perimeter,0.048606
3,mean area,0.02707
4,mean smoothness,0.004224
5,mean compactness,0.011495
6,mean concavity,0.054362
7,mean concave points,0.135544
8,mean symmetry,0.001556
9,mean fractal dimension,0.005046
