---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="b5f7b35a" -->
# Table des matières
1. [Classification par forêt aléatoire](#classification-par-forêt-aléatoire)
  1. [Applications](#applications)
1. [Voir l'arbre dans la forêt](#voir-larbre-dans-la-forêt)
  1. [Exemple général en 2D](#exemple-général-en-2d)
  1. [Exemple réel en 2D](#exemple-réel-en-2d)
  1. [Principe de construction d'un arbre décisionnel en classification](#principe-de-construction-dun-arbre-décisionnel-en-classification)
    1. [Qu'est-ce que l'entropie?](#quest-ce-que-lentropie)
    1. [Le gain d'information](#le-gain-dinformation)
    1. [Pourquoi est-ce que ça marche?](#pourquoi-est-ce-que-ça-marche)
  1. [Forces et faiblesses des arbres décisionnels en classification](#forces-et-faiblesses-des-arbres-décisionnels-en-classification)
1. [L'union fait la force: la forêt aléatoire](#lunion-fait-la-force-la-forêt-aléatoire)
  1. [Le principe du classificateur par forêt aléatoire](#le-principe-du-classificateur-par-forêt-aléatoire)
  1. [Forces et faiblesses des forêts aléatoires en classification](#forces-et-faiblesses-des-forêts-aléatoires-en-classification)
<!-- #endregion -->

<!-- #region id="1b1c50bb" -->
Il y a beaucoup de similarité entre les forêts aléatoires utilisées dans les tâches de régression et celles
utilisées en classification. Nous allons brièvement résumer ce qu'elles ont en commun avant de nous intéresser
à celles utilisées en classification.

Les forêts aléatoires constituent une méthode d'apprentissage par ensemble. Elles sont formées en combinant une
multitude d'arbres décisionnels entraînés sur des jeux de données aléatoires tirés du jeu de données d'entraînement
original $(X,y)$. L'aspect heuristique est doublement important dans cette approche pour les raisons suivantes;


- les jeux de données, de tailles identiques, sont générés avec la méthode Bootstrap,
- chaque jeu de données contient un sous-ensemble aléatoire, de taille constante, des facteurs
$x_{i}$ utilisés dans l'ensemble original.


En mode inférence, c'est-à-dire, lorsque l'on veut effectuer une prédiction avec des données jamais utilisées lors d'un
entraînement, les prédictions des $n$ arbres sont combinées. La façon de combiner les réponses
individuelles dépend du type d'application:


- tâches de régression: la réponse $y$ est la moyenne des $n$ réponses prédites,
- tâches de classification: la réponse $y$ est la classe majoritaire parmi les $n$ classes prédites.



Beaucoup de problèmes de classification peuvent être abordés en utilisant la régression logistique
décrite dans une section précédente. Elle est couramment utilisée en sciences sociales et en sciences de la vie.
Ses performances sont bonnes lorsque les hypothèses sur lesquelles elle est
basée sont vérifiées. Néanmoins, celles-ci sont plutôt restrictives dans la pratique.
On pense ainsi à l'impossibilité de modéliser certains phénomènes à partir de facteurs $x_{i}$ hétéroclites
variant de façon non continue et pouvant interagir entre eux. Le nombre d'interactions à considérer peut devenir
très important. Les méthodes classiques comme la régression logistique requièrent de les spécifier dans
leurs modèles, ce qui est rarement connu *a priori*. Comme on le verra plus loin, les forêts aléatoires
peuvent gérer ces situations problématiques.

> À noter que ce module ne contient pas d'exemple en Python. Le prochain module
présente un exemple concret utilisant les forêts aléatoires.
<!-- #endregion -->

<!-- #region id="1b5f9900" -->
# <a id=applications>Applications</a>
<!-- #endregion -->

<!-- #region id="1f480464" -->
Les forêts aléatoires sont particulièrement utiles dans les applications de classification où l'on ne peut pas modéliser
la probabilité d'appartenance à une classe donnée. C'est souvent le cas lorsque les facteurs mesurés $x_{i}$ sont hétéroclites.
Par exemple en médecine, on essaie de diagnostiquer précocement la maladie d'Alzheimer chez un patient à partir
d'échantillons de liquide céphalo-rachidien complétés par des tests d'évaluation moteurs et cognitifs. Chaque test
permet de mesurer de multiples facteurs $x_{i}$, difficiles à relier entre eux, mais pouvant
idéalement lever le voile sur une facette de la maladie.

Voici quelques applications et problèmes où les forêts aléatoires sont utilisées:
<!-- #endregion -->

<!-- #region id="dd084f15" -->
## Technologie:
<!-- #endregion -->

<!-- #region id="5595ca81" -->
- Considérant les concentrations bactériennes et celles d'éléments traces dans un échantillon d'eau,
celle-ci est-elle potable (OMS)?
<!-- #endregion -->

<!-- #region id="82a21aa0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/children-drinking-water.jpeg"  width="400" />
    <div>
    <font size="0.5">Image Source: https://pxhere.com/en/photo/878077</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="e17bcd0f" -->
- Identification du type de culture céréalière à partir d'images satellites (U.S. Geological Survey).

<!-- #endregion -->

<!-- #region id="044d8193" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/vegetation-map.gif"  width="400" />
    <div>
    <font size="0.5">Image Source: https://seos-project.eu/agriculture/agriculture-c03-p05.html</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="857faab3" -->
## Sciences:
<!-- #endregion -->

<!-- #region id="770ee4bc" -->
- Selon leur morphologie, on peut classifier chaque type de galaxie observée dans un immense région du ciel photographiée par un télescope (NASA).

<!-- #endregion -->

<!-- #region id="3ad3a6e0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/telescope-image.jpeg"  width="400" />
    <div>
    <font size="0.5">Image Source: https://www.flickr.com/photos/24354425@N03/44022429911/in/faves-jonathanospina/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="f7c22de5" -->
## Médecine:
<!-- #endregion -->

<!-- #region id="cf3d4a80" -->
- D'après les résultats d'un test d'urine, on peut déterminer si un patient est diabétique (NIH).
<!-- #endregion -->

<!-- #region id="fc0a8fad" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/urine-test.jpeg"  width="400" />
    <div>
    <font size="0.5">Image Source: https://pxhere.com/en/photo/928823</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="089b3731" -->
## Finances:
<!-- #endregion -->

<!-- #region id="20c3a83a" -->
- Un client va-t-il rembourser un emprunt d'ici cinq ans?
- Un client sera-t-il satisfait de son achat?
- Un achat sur une carte de crédit est-il frauduleux (BMO, Scotia Bank, etc.)?
<!-- #endregion -->

<!-- #region id="7d062822" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/scamming-complaints.png"  width="400" />
    <div>
    <font size="0.5">Image Source: https://www.stonystratford.gov.uk/news/blog-article/scamming-complaints-on-the-rise-</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="b79fee0a" -->
# <a id=voir-larbre-dans-la-forêt>Voir l'arbre dans la forêt</a>
<!-- #endregion -->

<!-- #region id="a1528188" -->
Les forêts aléatoires qu'elles soient utilisées pour des applications en régression ou en
classification sont basées sur le concept d'arbres décisionnels. Ceux-ci ont déjà été
présentés dans le module sur la régression par forêt aléatoire.

Dans ce qui suit, nous allons voir la simplicité d'utilisation des arbres décisionnels en classification.
Toutefois, dans bien des situations, cette simplicité mène à des résultats trop peu précis pour être utilisée.
<!-- #endregion -->

<!-- #region id="de991f84" -->
## <a id=exemple-général-en-2d>Exemple général en 2D</a>
<!-- #endregion -->

<!-- #region id="3ef4da08" -->
Le panneau de droite de la figure suivante
montre un exemple d'arbre décisionnel où l'on veut prédire la classe $y \in \{A, B, C, D\}$ d'un item ou d'une
observation en fonction de deux facteurs $x_{1}$ et $x_{2}$ mesurés.

Le panneau du centre montre la zone d'influence de chaque classe dans le plan $x_{1}, x_{2}$. On remarque que
les frontières de décisions séparant les zones d'influence sont parallèles aux axes des facteurs $X$. Chaque décision
implique une séparation en deux de l'espace dans une zone rectangulaire précédente.

Le panneau de gauche montre un résultat potentiellement plus utile, car plus complexe. Il est néanmoins
impossible à obtenir avec un arbre décisionnel puisqu'il contredit l'observation précédente. Cela limite
les possibilités des arbres décisionnels.
<!-- #endregion -->

<!-- #region id="cc5ed26b" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/decision-tree-example2.png"  width="600" />
    <div>
    <font size="0.5">Image Source: http://cedric.cnam.fr/vertigo/Cours/ml2/coursArbresDecision.html</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="6f626e3c" -->
## <a id=exemple-réel-en-2d>Exemple réel en 2D</a>
<!-- #endregion -->

<!-- #region id="2e913901" -->
La figure suivante montre un exemple d'arbre décisionnel servant à classifier deux types d'insectes, des sauterelles
(*grasshopper*) et des katydides, en fonction de la longueur de l'abdomen $x_{1}$ et
de la longueur des antennes $x_{2}$.

<!-- #endregion -->

<!-- #region id="20e1d607" -->
<p>&nbsp;</p>
<div align="center">
    <img src="../images/decision-tree-example3.png" width="400">
    <div>
    <font size="0.5">Image Source: https://medium.com/swlh/decision-tree-classification-de64fc4d5aac</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="b356036f" -->
La figure suivante montre la zone d'influence de chaque classe. L'arbre de décision précédent a deux niveaux de décision,
ce qui génère les trois zones dans la figure. Une correspond aux sauterelles (cercles) et les deux autres correspondent
aux katydides (carrés).
<!-- #endregion -->

<!-- #region id="d0294d97" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/decision-tree-example4.jpeg"  width="400" />
    <div>
    <font size="0.5">Image Source: https://medium.com/swlh/decision-tree-classification-de64fc4d5aac</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="09233e3d" -->
Toute nouvelle observation d'une sauterelle ou d'une katydide peut être classifiée au moyen
de ce diagramme comme le montre le point rouge basé sur les mensurations d'une sauterelle.

Le problème avec cette approche est que toutes les frontières sont parallèles aux axes des facteurs
$X$. Les décisions du classificateur sont faciles à expliquer, mais il n'est pas très précis, car il ne
peut reproduire des frontières complexes qui sont la norme plutôt que l'exception.
<!-- #endregion -->

<!-- #region id="110bacca" -->
## <a id=principe-de-construction-dun-arbre-décisionnel-en-classification>Principe de construction d'un arbre décisionnel en classification</a>
<!-- #endregion -->

<!-- #region id="a6b78aba" -->
La méthode est très similaire à celle pour les arbres décisionnels en régression. Elle a été vue dans le module
portant sur la régression par forêt aléatoire. Nous allons la répéter ici de façon simplifiée, car
elle permet de faire le pont avec la version en classification.

L'idée des arbres décisionnels en régression est que chaque noeud de l'arbre sert à séparer les
données d'entraînement $(x_{1}, \cdots, x_{n}, y)$ qui y parviennent en deux nouveaux ensembles, ses feuilles. Supposons, par simplicité, qu'il n'y a que deux variables $x_1$ et $x_2$. On sélectionne initialement $x_{1}$ et on impose un seuil donné $\tau$. Toutes les valeurs d'entraînement $(x_{1}, x_{2}, y)$ pour lesquelles $x_1<\tau$ seront dirigées vers la feuille de gauche, et les autres vers la feuille de droite. On calcule ensuite la variance des valeurs d'entraînement $\sigma^2(y)$ dans chaque feuille, puis on calcule la somme des deux. Il faut ensuite
déterminer pour quelle valeur de seuil $\tau$ la somme des deux variances est minimale. On refait ensuite la même procédure avec toutes les valeurs d'entraînement, mais en utilisant, cette fois-ci, la variable $x_2$. Après cette seconde étape, on dispose de deux sommes de variances, une pour $x_1$ et une pour $x_2$. On sélectionne la variable ayant la somme des variances la plus faible. On sépare enfin les données avec cette variable et son seuil $\tau$ associé.
Cette étape vise à uniformiser un peu plus les données dans chaque feuille. On se retrouve à nouveau avec deux ensembles de données, un par feuille. On refait la même procédure avec toutes les feuilles de l'arbre jusqu'à ce que le nombre de données associées à chaque feuille atteigne un nombre minimal prédéterminé. La moyenne des valeurs de $y$ dans chaque feuille est la réponse de l'arbre de régression.

Les arbres décisionnels en classification sont conçus de manière similaire. Ils visent plutôt à uniformiser les classes dans chaque feuille. C'est-à-dire, réduire le nombre de classes dans chacune. Ce qui change ici, c'est la fonction à maximiser lors du passage d'un nœud à ses deux feuilles. On maximise maintenant une fonction basée sur la théorie de l'information; le gain d'information. Avant de discuter de celui-ci, nous allons d'abord définir le concept
d'entropie sur lequel il est basé.

<!-- #endregion -->

<!-- #region id="175e50d3" -->
### <a id=quest-ce-que-lentropie>Qu'est-ce que l'entropie?</a>
<!-- #endregion -->

<!-- #region id="4e7d2019" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/confused-girl-cartoon.png"  width="250" />
    <div>
    <font size="0.5">Image Source: https://freesvg.org/confused-cartoon-kid</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="cd8068ef" -->
Sa définition dépend du domaine dans lequel elle est utilisée. Elle tire son origine de la physique statistique.
Toutefois, en informatique, l'entropie est une mesure de la quantité d'aléatoire dont dispose un système. En voici un exemple.

Désordre minimal:
Supposons qu'on a un sac contenant $n$ balles de la même couleur connue. On est donc certain que si on en pige une, elle aura cette couleur. Il n'y a qu'une classe; $p=1$ et l'entropie est nulle puisque

$$\begin{align}
E &= -\sum\limits_{i=1}^{N_c}p^{(i)} \log_{2}p^{(i)} \\
&= -\sum\limits_{i=1}^{1} 1 \log_{2}(1) \\
&= 0.
\end{align}$$
Cette situation requiert peu d'information pour décrire le contenu du sac; soit le nombre $n$ de balles et la couleur.

Désordre maximal:
Supposons maintenant que le sac contient $n$ balles de $n$ couleurs différentes. On n'a aucune certitude de la couleur
de la balle que l'on va choisir. Il y a autant de classes que de balles ($p=1/n)$, l'entropie prend sa valeur maximale

$$\begin{align}
E &= -\sum\limits_{i=1}^{N_c}p^{(i)} \log_{2}p^{(i)} \\
&= -\sum\limits_{i=1}^{n} \frac{1}{n} \log_{2}(\frac{1}{n}) \\
&= \log_{2}n.
\end{align}$$
Cette situation requiert beaucoup d'information pour décrire le contenu du sac; il faut spécifier les $n$ couleurs.

Ainsi, plus les données sont uniformes, moins elles contiennent d'information et plus faible est l'entropie.
Plus les données sont variées, plus elles contiennent d'information et plus grande est l'entropie.

<!-- #endregion -->

<!-- #region id="45254dcc" -->
### <a id=le-gain-dinformation>Le gain d'information</a>
<!-- #endregion -->

<!-- #region id="1087a997" -->
Le gain d'information remplace la somme des variances dans la construction de l'arbre de décision. Alors que la somme des variances devait être minimisée, le gain d'information doit être maximisé.

L'idée maîtresse ici est de diviser un ensemble de données contenant plusieurs classes en deux ensembles contenant moins de classes par ensemble. La somme des deux entropies finales sera inférieure à l'entropie initiale.

Soit un ensemble de $n$ données contenant par exemple trois classes $\{A, B, C\}$. L'entropie est une mesure de l'information contenue dans l'ensemble. Elle est définie comme suit

$$E = -\sum\limits_{i=1}^{n_c}p^{(i)} \log_{2}p^{(i)}$$

où $p^{(i)}$ est la probabilité de chacune des $n_c$ classes constituant l'ensemble. Par exemple, si un noeud contient $n=15$ données réparties comme suit; 3 éléments de la classe A, 2 éléments de la classe B et 10 éléments de la classe C , alors on a $p=[3/15, 2/15, 10/15]$ et

$$E_{\text{noeud}} = -[\frac{3}{15}\log_{2}(\frac{3}{15})+\frac{2}{15}\log_{2}(\frac{2}{15})+\frac{10}{15}\log_{2}(\frac{10}{15})].$$

Si l'on répartit les données du nœud dans ses deux feuilles, avec $n = n_1 + n_2$, on peut calculer
l'entropie de chacune

$$\begin{align}
E_{\text{feuille 1}} &= -\sum\limits_{i=1}^{n_c}p_{1}^{(i)} \log_{2}p_{1}^{(i)} \\
E_{\text{feuille 2}} &= -\sum\limits_{i=1}^{n_c}p_{2}^{(i)} \log_{2}p_{2}^{(i)}
\end{align}$$

où $p_{1}^{(i)}$ et $p_{2}^{(i)}$ sont les probabilités des trois classes dans chaque feuille. La
partition de l'ensemble original en deux ensembles a une entropie plus faible

$$E_{\text{feuilles}} = (\dfrac{n_{1}}{n_{1}+n_{2}}) E_{\text{feuille 1}} + (\dfrac{n_{2}}{n_{1}+n_{2}}) E_{\text{feuille 2}}$$

Le gain d'information est défini comme suit

$$GI = E_{\text{noeud}} - E_{\text{feuilles}}$$

C'est la fonction que l'on veut maximiser en classification. On refait la même procédure itérativement pour chaque noeud/feuille de l'arbre jusqu'à ce que le nombre de données associées à chaque feuille atteigne un nombre minimal prédéterminé. Le gain d'information est calculé individuellement pour chaque noeud/feuille et non pour tous les noeuds/feuilles en même temps. À la fin, la classe la plus populeuse dans chaque feuille est la réponse $y$ de l'arbre de classification.
<!-- #endregion -->

<!-- #region id="17ea9653" -->
### <a id=pourquoi-est-ce-que-ça-marche>Pourquoi est-ce que ça marche?</a>
<!-- #endregion -->

<!-- #region id="4561368c" -->
Comme on l'a vu, l'entropie d'un ensemble de $n$ données similaires est plus faible que celle d'un ensemble de $n$ données variées. Si l'on veut uniformiser les classes dans les feuilles, il faut séparer les données de chaque noeud afin de minimiser l'entropie totale dans ses feuilles. En conséquence, le gain d'information, $GI$, doit augmenter. Idéalement, à la fin du processus, chaque feuille ne devrait contenir que des éléments d'une même classe.

<!-- #endregion -->

<!-- #region id="a68c1d79" -->
## <a id=forces-et-faiblesses-des-arbres-décisionnels-en-classification>Forces et faiblesses des arbres décisionnels en classification</a>
<!-- #endregion -->

<!-- #region id="f8736017" -->
#### Forces:
<!-- #endregion -->

<!-- #region id="dfb90c29" -->
- Ils permettent l'identification des variables $x_{i}$ importantes; celles-ci sont les plus utilisées pour
prendre des décisions à travers un arbre,
- ils ont une grande interprétabilité; leurs décisions sont faciles à expliquer, 
- calculs très rapides dus à leur simplicité. 

<!-- #endregion -->

<!-- #region id="55ed1522" -->
#### Faiblesses:
<!-- #endregion -->

<!-- #region id="c4dac116" -->
- De petits changements dans les données d'entraînement peuvent beaucoup influencer la logique décisionnelle,
- tendance au sur apprentissage,
- les frontières de décisions sont parallèles aux axes des facteurs $X$,
- les arbres complexes sont difficiles à interpréter et les décisions qu'ils prennent
peuvent apparaître contre-intuitives.
<!-- #endregion -->

<!-- #region id="d1b1d8ad" -->
# <a id=lunion-fait-la-force-la-forêt-aléatoire>L'union fait la force: la forêt aléatoire</a>
<!-- #endregion -->

<!-- #region id="7628d4ea" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/union-fait-la-force.jpeg"  width="500" />
    <div>
    <font size="0.5">Image Source: https://www.rawpixel.com/image/322555/premium-psd-man-puzzle-jigsaw-colorfull-piece-holding/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="ff82fc50" -->
Cette section est fortement inspirée de celle dans le module portant sur la méthode de régression par forêts aléatoires.
Il y a néanmoins quelques subtilités entre elles. De plus, la familiarité avec un nouveau concept vient avec la
répétition et l'usage.
<!-- #endregion -->

<!-- #region id="828a12ae" -->
## <a id=le-principe-du-classificateur-par-forêt-aléatoire>Le principe du classificateur par forêt aléatoire</a>
<!-- #endregion -->

<!-- #region id="bd5655b5" -->
Attention, utiliser trop de niveaux décisionnels donne une fausse impression de précision aux
arbres décisionnels. En fait, c'est l'inverse qui se produit; ils deviennent plus fragiles dans leurs
dernières branches, car l'ajout ou le retrait de quelques données à l'ensemble d'entraînement d'un arbre peut
modifier sa structure finale et augmenter la variabilité de ses prédictions. La solution à ce dilemme consiste
à combiner une multitude d'arbres décisionnels peu profonds et moins précis. Ce que l'on perd en précision pour
chacun est largement compensé par ce que l'on gagne à les combiner dans un ensemble, la forêt.

La figure suivante montre un exemple de forêt aléatoire combinant $n$ arbres décisionnels.

<!-- #endregion -->

<!-- #region id="7dd23ce3" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/random-forest-example2.jpeg" width="600" />
    <div>
    <font size="0.5">Image Source: https://www.researchgate.net/publication/338730476</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="abc8ccca" -->
Chaque arbre n'utilise qu'un sous-ensemble aléatoire des facteurs $x_{i}$ disponibles; ses performances sont
limitées pour cette raison. C'est un classificateur généralement moins performant (*weak classifier*)
qu'un arbre les utilisant tous. Il a un biais et une variabilité supérieurs à l'arbre initial.
On fait l'hypothèse que les erreurs d'un grand nombre de ces classificateurs vont se compenser mutuellement; le biais et la variabilité des résultats
seront réduits par rapport à ceux de l'arbre initial.

Un autre aspect heuristique est impliqué dans cette approche. En effet, bien que chaque arbre utilise
le même nombre de données d'entraînement, les jeux d'entraînement sont tous
différents entre eux. Ils sont générés avec la méthode d'échantillonnage de type *bootstrap*. Cette méthode consiste à créer de « nouveaux échantillons » statistiques, mais uniquement par tirage
avec remise, à partir de l'échantillon initial [[Wikipedia](https://fr.wikipedia.org/wiki/Bootstrap_(statistiques))].
Cette approche permet de simuler un plus grand nombre de jeux de données tout en respectant la distribution
statistique du jeu original. Chaque nouveau jeu de données peut contenir des
données dupliquées et manquer certaines des données originales. De plus, les facteurs $x_{i}$ sont
différents d'un jeu à l'autre, mais leur nombre demeure le même. Par exemple, si le jeu original d'entraînement contenait
1 000 données $(X,y)$ avec 20 facteurs, soit $X=\{x_{1},\cdots, x_{20}\}$, chaque nouveau jeu d'entraînement contiendra
1 000 données $(X',y')$ où $X'$ pourrait ne contenir que 10 facteurs $x_{i}$ choisis aléatoirement parmi les 20.



Si l'on construisait un arbre décisionnel ($AD$) unique contenant l'ensemble des données d'entraînement $(X_{\text{train}},y)$, la
réponse lors de l'entraînement serait
$$\hat{y} = AD(X_{\text{train}}|\Theta)$$
avec les paramètres $\Theta$ définissant l'arbre. En mode d'inférence, la réponse pour une nouvelle donnée X serait
$$y = AD(X|\Theta).$$

Dans l'exemple de forêt aléatoire ci-dessus, on rassemble plutôt $n$ arbres décisionnels utilisant chacun un jeu
différent de données d'entraînement $(X_{\text{train}}',y')$. On choisit ensuite la classe majoritaire parmi les $n$
prédictions obtenues. La réponse lors de l'entraînement devient

$$\hat{y} = \text{Vote} \{AD(X_{\text{train}}'|\Theta')\|$$
avec les paramètres $\Theta'$ définissant chaque arbre. En mode d'inférence, la réponse pour une nouvelle donnée X devient

$$y = \text{Vote} \{AD(X'|\Theta')\|$$
avec la sélection des facteurs $X'$ pour chaque arbre.

La librairie Scikit-learn contient la classe [`RandomForestClassifier`](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
pour effectuer de la classification par forêt aléatoire. Plusieurs paramètres peuvent être ajustés tel que le nombre d'arbres,
le nombre de facteurs $x_{i}$ à utiliser, le nombre de niveaux maximal de chaque arbre, etc.
<!-- #endregion -->

<!-- #region id="f163b72c" -->
## <a id=forces-et-faiblesses-des-forêts-aléatoires-en-classification>Forces et faiblesses des forêts aléatoires en classification</a>
<!-- #endregion -->

<!-- #region id="95b142e0" -->
#### Forces:
<!-- #endregion -->

<!-- #region id="e28962c8" -->
- Plus précis que la plupart des classificateurs nonlinéaires,
- performent souvent mieux que les réseaux de neurones,
- robustesse due au grand nombre d'arbres décisionnels impliqués,
- permettent d'estimer les valeurs discrètes manquantes dans un  jeu de données,
- permettent d'identifier les facteurs $x_{i}$ les plus importants.
<!-- #endregion -->

<!-- #region id="326ba4dc" -->
#### Faiblesses:
<!-- #endregion -->

<!-- #region id="f1b5d3e4" -->
- Temps d'inférence généralement plus longs que pour les autres types de classificateurs
dus au grand nombre d'arbres décisionnels impliqués,
- moins utiles pour les applications en temps réel pour la raison précédente,
- résultats plus difficiles à interpréter dus au grand nombre d'arbres décisionnels impliqués.
<!-- #endregion -->
