# L'algorithme du Random Forest avec Sklearn

## Importation des packages

In [None]:
import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

## Importation des données 

In [None]:
data = load_breast_cancer()

x = data['data']
y = data['target']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)

## Les paramètres

Dans cette partie, je vais prendre le temps de vous expliquer chaque paramètre de l'algorithme du random forest. De cette façon, vous pourrez choisir judicieusement les paramètres les plus adaptés à votre problème dans le but d'entraîner le modèle de random forest le plus performant. 

### n_estimators

Le paramètre *n_estimators* contrôle le nombre d'arbres présents dans notre forêt d'arbres de décision. Plus il y a d'arbres plus le modèle sera précis, mais plus il sera lent à utiliser. 

In [None]:
model_1 = RandomForestClassifier(n_estimators=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9468085106382979


In [None]:
model_2 = RandomForestClassifier(n_estimators=100, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9627659574468085


### criterion

Vous pouvez choisir entre deux façons de calculer l'erreur de votre modèle lors de son entraînement. L'indice Gini ou le calcule de l'Entropy. 

In [None]:
model_1 = RandomForestClassifier(criterion='gini', random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [None]:
model_2 = RandomForestClassifier(criterion='entropy', random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9680851063829787


### max_depth

La profondeur de l'arbre est un des paramètres les plus importants à définir. 

Ce paramètre va déterminer la longueur maximum de votre arbre. Vous pouvez aussi spécifier None pour ce paramètre, dans ce cas durant l'entraînement l'arbre va s'approfondir jusqu'à obtenir les feuilles les plus pures possible. 

Je ne vous conseille pas de laisser ce paramètre à *None*, car plus votre arbre sera profond plus il sera complexe et plus il souffrira du sur-entraînement.

In [None]:
model_1 = RandomForestClassifier(max_depth=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


Plus la profondeur est réduite, plus le modèle sera simple et généralisable. Cette meilleure généralisation augmentera les performances du modèle sur le jeu de test.


Pour un random forest on préfère travailler avec des "Weak Learner" un ensemble de modèle peu performant et gagner de la performance en alliant leurs forces.

### min_samples_split

Le *min_sample_split* est le nombre minimal d'exemples que le modèle doit avoir pour pouvoir faire une nouvelle séparation. 

Vous avez le choix de remplir ce paramètre avec un entier (int) ou un flottant (float). 

Si vous utilisez un entier, le modèle le comprendra comme le nombre minimal d'exemples que le noeud doit avoir pour pouvoir créer une nouvelle séparation. 

Si vous utilisez un flottant, le modèle le comprendra comme la fraction de données que le noeud doit avoir pour pouvoir créer une nouvelle séparation.

Plus ce paramètre sera grand plus votre arbre sera simple et plus il sera généralisable.

In [None]:
model_1 = RandomForestClassifier(min_samples_split=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9521276595744681


### min_samples_leaf

Le *min_sample_leaf* est le minimum d'exemples requis pour créer une feuille.

Seules les feuilles ayant ce minimum d'exemples seront conservées. Pour ce paramètre aussi vous pouvez spécifier un nombre entier ou un nombre flottant.

Plus ce paramètre sera bas, plus votre modèle pourra faire du cas par cas et aura du mal à généraliser.

In [None]:
model_1 = RandomForestClassifier(min_samples_leaf=20, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9574468085106383


### min_weight_fraction_leaf

Dans l'entraînement d'un modèle d'arbre de décision, on peut ajouter un vecteur de poids qui donne une importance différente aux observations de notre jeu de données.

Si vous avez donné un vecteur de poids avec votre jeu de données, ce paramètre vous permet de spécifier le minimum de poids de votre feuille pour sa création. Si vous n'avez pas ajouté de vecteur de poids pour l'entraînement de votre modèle, ce paramètre a la même utilité que le paramètre *min_sample_leaf*.

Pour ce paramètre aussi vous pouvez spécifier un nombre entier ou un nombre flottant.

### max_features

Le paramètre *max_features* contrôle le nombre de variables à tester pour trouver la meilleure séparation.

Vous pouvez indiquer un entier qui déterminera le nombre de variables à tester.

Vous pouvez indiquer un flottant qui sera la proportion de variables à tester parmi les variables du jeu de données.

Il y a une option auto qui effectue un test pour chaque variable de votre jeu de données, cette option est équivalente à choisir None. 

Il y a une option sqrt qui teste la racine carrée du nombre de variables du jeu de données.

Il y a une option log2 qui teste le log2 du nombre de variables de votre jeu de données.

À noter que même si vous spécifiez un maximum de variable à tester l'algorithme peut le dépasser dans le cas où il ne trouve pas de variable valide pour séparer le jeu de données dans le nombre de tests imparti. 


C'est un paramètre à tuner si vous avez des problèmes de performance et que vous voulez réduire le temps de calcul. Si vous n'avez pas de problème de performance, je vous recommande de laisser None ou auto.

### max_leaf_nodes

Ce paramètre vous permet de choisir le nombre maximum de feuilles de votre arbre, il peut être intéressant de fixer ce nombre pour contrôler la complexité de l'arbre. Il garde bien sûr les meilleures feuilles disponibles.

In [None]:
model_1 = RandomForestClassifier(max_leaf_nodes=10, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


### min_impurity_decrease

Ce paramètre permet de contrôler si le gain de pureté est suffisant pour continuer la construction de l'arbre dans cette voie. 

Ce paramètre peut être intéressant, car il est possible d'avoir des règles supplémentaires qui complexifient le modèle pour ne faire gagner que peu de pureté.

Plus la valeur de ce paramètre est basse plus l'arbre sera complexe et moins il sera généralisable.

Plus la valeur de ce paramètre est élevée plus l'arbre sera simple et généralisable. 

### min_impurity_split

Ce paramètre n'est plus maintenu ne l'utilisait pas préférez utiliser min_impurity_decrease.

### bootstrap

Ce paramètre contrôle si la construction de vos arbres se font en sélectionnant aléatoirement des samples de votre jeu de données ou si vos arbres sont construits sur toute votre base de données. 

Si vous vous souvenez du principe de l'ensemble learning un des points importants est la variété des modèles utilisés pour optimiser les performances du modèle. Utilisé tout votre jeu de données pour la création de vos arbres réduit la variété des arbres que vous pouvez créer et donc nuit à la performance de votre modèle.

Utiliser toujours bootstrap, je ne vois pas de raison de ne pas vouloir l'utiliser.

In [None]:
model_1 = RandomForestClassifier(bootstrap=True, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [None]:
model_2 = RandomForestClassifier(bootstrap=False, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9521276595744681


### oob_score

Ce paramètre est un score qui permet d'estimer la généralisation de notre modèle en testant les arbres sur les parties du jeu de données non sélectionné lors de sa construction. Oob signifie out-of-bag c'est-à-dire les données non choisi.

### n_jobs

Pour l'algorithme du random forest des arbres sont construit sur des parties aléatoire du jeux de données. Il n'y a pas de lien entre la construction des différents arbres, ils peuvent donc être construit en parrallèle. Le paramètre n_jobs nous propose de paralèliser l'utilisation de notre algorithme. Le chiffre de ce paramètre désignera le nombre de processeur à utiliser pour la parallèlisation de l'aglrotihme. 

### random_state

Ce paramètre permet d'initialiser une seed. C'est-à-dire que les nombres générés aléatoirement seront toujours les mêmes. C'est intéressant à utiliser durant les tests où l'on voudra tomber sur les mêmes résultats et être sûr que les changements de performance sont dû au changement des paramètres et non à une initialisation différente.

### verbose

Ce paramètre contrôle le nombre de textes à afficher lors de l'entraînement. Plus ce paramètre est élevé plus vous aurez d'informations affichées. 

In [None]:
model_1 = RandomForestClassifier(verbose=0, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [None]:
model_2 = RandomForestClassifier(verbose=1, random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9627659574468085


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


In [None]:
model_3 = RandomForestClassifier(verbose=2, random_state=123)
model_3.fit(x_train, y_train)
y_pred_3 = model_3.predict(x_test)
print(np.sum(y_pred_3 == y_test)/x_test.shape[0])

building tree 1 of 100
building tree 2 of 100
building tree 3 of 100
building tree 4 of 100
building tree 5 of 100
building tree 6 of 100
building tree 7 of 100
building tree 8 of 100
building tree 9 of 100
building tree 10 of 100
building tree 11 of 100
building tree 12 of 100
building tree 13 of 100
building tree 14 of 100
building tree 15 of 100
building tree 16 of 100
building tree 17 of 100
building tree 18 of 100
building tree 19 of 100
building tree 20 of 100
building tree 21 of 100
building tree 22 of 100
building tree 23 of 100
building tree 24 of 100
building tree 25 of 100
building tree 26 of 100
building tree 27 of 100
building tree 28 of 100
building tree 29 of 100
building tree 30 of 100
building tree 31 of 100
building tree 32 of 100
building tree 33 of 100
building tree 34 of 100
building tree 35 of 100
building tree 36 of 100
building tree 37 of 100
building tree 38 of 100
building tree 39 of 100
building tree 40 of 100
building tree 41 of 100
building tree 42 of 100
b

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s


building tree 71 of 100
building tree 72 of 100
building tree 73 of 100
building tree 74 of 100
building tree 75 of 100
building tree 76 of 100
building tree 77 of 100
building tree 78 of 100
building tree 79 of 100
building tree 80 of 100
building tree 81 of 100
building tree 82 of 100
building tree 83 of 100
building tree 84 of 100
building tree 85 of 100
building tree 86 of 100
building tree 87 of 100
building tree 88 of 100
building tree 89 of 100
building tree 90 of 100
building tree 91 of 100
building tree 92 of 100
building tree 93 of 100
building tree 94 of 100
building tree 95 of 100
building tree 96 of 100
building tree 97 of 100
building tree 98 of 100
building tree 99 of 100
building tree 100 of 100
0.9627659574468085


[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.2s finished
[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.0s remaining:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


### warm_start

L'option warm_start permet de pouvoir effectué un second entrainement sur des nouveaux arbres sans toucher aux arbres du premier entraînement.

In [None]:
model_1 = RandomForestClassifier(warm_start=True, random_state=123)
model_1.fit(x_train, y_train)
y_pred_1 = model_1.predict(x_test)
print(np.sum(y_pred_1 == y_test)/x_test.shape[0])

0.9627659574468085


In [None]:
model_1.n_estimators += 20
model_1.fit(x_test, y_test)
y_pred_1 = model_1.predict(x)
print(np.sum(y_pred_1 == y)/x.shape[0])

0.9912126537785588


In [None]:
model_2 = RandomForestClassifier(random_state=123)
model_2.fit(x_train, y_train)
y_pred_2 = model_2.predict(x_test)
print(np.sum(y_pred_2 == y_test)/x_test.shape[0])

0.9627659574468085


In [None]:
model_2.n_estimators += 20
model_2.fit(x_test, y_test)
y_pred_2 = model_2.predict(x)
print(np.sum(y_pred_2 == y)/x.shape[0])

0.961335676625659


### class_weight

Ce paramètre permet de donner un poids différent aux classes de notre jeu d'entraînement. Ce paramètre peut être intéressant lorsque nous avons affaire à un jeu de données qui n'est pas réparti équitablement entre les différentes classes.

### ccp_alpha

Ce paramètre initialise le *alpha* de l'algorithme du minimal Cost-Complexity Pruning (CCP).

Le CCP est un algorithme qui permet de supprimer des parties de l'arbre qui ajoute de la complexité au modèle sans apporter beaucoup de valeur supplémentaire. Le but de cette suppression est de rendre l'algorithme plus simple et plus généralisable tout en conservant une performance acceptable.

Le paramètre alpha est un nombre positif. Plus le paramètre est élevé plus le modèle sera simplifié. 

Attention si *alpha* est trop élevé votre modèle deviendra trop simple et cela dégradera la performance de votre modèle. 

### max_samples

Ca paramètre contrôle le nombre d'observations à tirer pour l'entraînement de nos modèles. 

Par défaut on tire autant d'observations que le nombre de lignes dans le jeu de données d'origine. Ce paramètre vous permet de définir vous même le nombre d'observations que l'algorithme doit tirer pour l'entraînement des arbres. 

## Attributs

Les attributs sont les différentes informations que l'on peut obtenir du modèle une fois qu'il est entraîné.

### base_estimator_


L'attribut *base_estimator_* retourne les paramètres d'entraînement de notre algorithme de random forest. 

In [None]:
model_1.base_estimator_

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

### estimators_

L'attribut *estimators_* retourne les paramètres d'entraînement de chacun des arbres de notre forêt. 

In [None]:
model_1.estimators_

[DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                        max_depth=None, max_features='auto', max_leaf_nodes=None,
                        min_impurity_decrease=0.0, min_impurity_split=None,
                        min_samples_leaf=1, min_samples_split=2,
                        min_weight_fraction_leaf=0.0, presort='deprecated',
                        random_state=843828734, splitter='best'),
 DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                        max_depth=None, max_features='auto', max_leaf_nodes=None,
                        min_impurity_decrease=0.0, min_impurity_split=None,
                        min_samples_leaf=1, min_samples_split=2,
                        min_weight_fraction_leaf=0.0, presort='deprecated',
                        random_state=914636141, splitter='best'),
 DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                        max_depth=None, ma

### classes_

L'attribut *classes_* retourne les classes de notre modèle.

In [None]:
model_1.classes_

array([0, 1])

### n_classes_

L'attribut *n_classes_* retourne le nombre de classes de notre modèle.

In [None]:
model_1.n_classes_

2

### n_features_

L'attribut *n_features_* retourne le nombre de variables de notre modèle. 

In [None]:
model_1.n_features_

30

### n_outputs_

L'attribut *n_outputs* retourne le nombre de sortie de notre modèle.

In [None]:
model_1.n_outputs_

1

### feature_importances_

L'attribut *feature_importances_* retourne l'importance des variables du jeu de données dans la construction des arbres de la forêt.

In [None]:
pd.DataFrame({'Features' : data.feature_names, 
              'Features_importances' : model_1.feature_importances_})

Unnamed: 0,Features,Features_importances
0,mean radius,0.02504
1,mean texture,0.017265
2,mean perimeter,0.035399
3,mean area,0.028034
4,mean smoothness,0.00484
5,mean compactness,0.009528
6,mean concavity,0.060733
7,mean concave points,0.159195
8,mean symmetry,0.001634
9,mean fractal dimension,0.00539


### oob_score_

Le paramètre *oob_score_* permet de retourner le score de votre modèle sur les observations non vues par les arbres pendant leurs constructions. 

In [None]:
model_1 = RandomForestClassifier(verbose=0, random_state=123, oob_score=True)
model_1.fit(x_train, y_train)
model_1.oob_score_

0.952755905511811

### oob_decision_function_

Le paramètre *oob_decision_function_* nous permet de voir le score de toutes les observations classifier par les arbres n'ayant pas utilisé ces observations durant sa construction.

In [None]:
print(x_train.shape)
print(model_1.oob_decision_function_.shape)
model_1.oob_decision_function_

(381, 30)
(381, 2)


array([[0.81578947, 0.18421053],
       [0.03225806, 0.96774194],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.875     , 0.125     ],
       [0.03125   , 0.96875   ],
       [0.02564103, 0.97435897],
       [0.97297297, 0.02702703],
       [0.        , 1.        ],
       [0.03225806, 0.96774194],
       [0.07317073, 0.92682927],
       [1.        , 0.        ],
       [0.03225806, 0.96774194],
       [1.        , 0.        ],
       [1.        , 0.        ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.11111111, 0.88888889],
       [0.38636364, 0.61363636],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.07692308, 0.92307692],
       [0.        , 1.        ],
       [0.59375   , 0.40625   ],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.05405405, 0.94594595],
       [0.