---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="920629ec" -->
# Table des matières
1. [Exemple d'applications](#exemple-dapplications)
1. [Types de classification](#types-de-classification)
    1. [Classification binaire](#classification-binaire)
    1. [Classification multiclasse](#classification-multiclasse)
    1. [Classification multiétiquette](#classification-multiétiquette)
1. [Le problème du débalancement des classes](#le-problème-du-débalancement-des-classes)
1. [Que faire lorsqu'il y a plus de deux classes?](#que-faire-lorsquil-y-a-plus-de-deux-classes)
1. [Méthodes qui seront présentées](#méthodes-qui-seront-présentées)
<!-- #endregion -->

<!-- #region id="8626de69" -->
Dans ce module, on s'intéresse à la classification en général. C'est l'un des trois grands axes en
apprentissage automatique avec la régression et le regroupement de données. La classification des objets permet
de les situer les uns par rapport aux autres.

Il serait difficile de dire laquelle de la régression ou de la classification a le plus d'applications dans la société.

La classification sert à prédire une classe $C$, qui est une variable catégorielle
(p. ex. un chat, un chien, un sujet sain, un groupe sanguin, etc.), en fonction de plusieurs
facteurs $x_{i}$ souvent mesurés

$$C=g(x_{1}, \cdots, x_{N}, \Theta)$$

où $\Theta$ représente l'ensemble des paramètres de la fonction $g$.

Dans la littérature, la classification est souvent expliquée en termes de reconnaissance d'image,
car les exemples sont faciles à comprendre. Dans cette formation, nous ne classifions pas directement
les images comme le font par exemple les réseaux de neurones. Ceux-ci sont présentés dans d'autres formations.
Dans le cadre de la présente formation, nous effectuons plutôt des classifications à partir de
vecteurs de valeurs mesurés $X=\{x_{1}, \cdots, x_{N}\}$. Ceux-ci peuvent provenir de résultats
d'expériences en génie, de recensements, d'études épidémiologiques, mais aussi de mesures
effectuées directement sur des images, des échantillons de sons et même des tests d'évaluation de saveurs
de crèmes glacées. L'important à retenir est qu'on travaille avec des variables $x_{i}$ et non avec des images.
<!-- #endregion -->

<!-- #region id="bf295356" -->
# <a id=exemple-dapplications>Exemple d'applications</a>
<!-- #endregion -->

<!-- #region id="0c66d4a5" -->
Pour avoir une meilleure idée de ce que l'on veut faire avec la classification, nous allons présenter
quelques exemples d'applications en biologie, en médecine et en ... sociologie!
<!-- #endregion -->

<!-- #region id="c51f2f8e" -->
## Le classement de fleurs de genre iris
<!-- #endregion -->

<!-- #region id="fb4f734c" -->
C'est un exemple bien connu en apprentissage automatique où l'on doit identifier à quel type d'iris appartient
une fleur à partir de mesures de longueur et d'épaisseur de ses pétales et sépales. La figure suivante montre
les trois types de fleurs ainsi que les mesures à effectuer sur chacune.
<!-- #endregion -->

<!-- #region id="88ab6e54" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/iris-flowers.jpeg"  width="500" />
    <div>
    <font size="0.5">Image Source: https://www.ubuntupit.com/best-machine-learning-datasets-for-practicing-applied-ml/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="b5e19237" -->
Ce jeu de données a été utilisé pour la première fois en 1936 par le statisticien britannique Fisher afin
de tester une nouvelle méthode de classification (l'analyse discriminante linéaire). Il reste une
référence en analyse des données. La figure suivante montre les relations entre les quatre mesures (en cm) pour les
trois classes de fleur. Le jeu de données sera utilisé dans un des modules d'exemple sur la classification.
<!-- #endregion -->

<!-- #region id="0eb64220" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/iris-data.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://en.wikipedia.org/wiki/Iris_flower_data_set/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="9ee6d903" -->
## L'identification des patients atteints de diabète
<!-- #endregion -->

<!-- #region id="26efcad1" -->
Voici une belle application de la classification en médecine. Un jeu de données sur le
diabète a été créé et mis à jour depuis 1965 afin d'étudier la prévalence de la maladie chez les femmes
de la Première Nation Pima aux
États-Unis. Elles constituent la population la plus affectée au pays et l'on veut comprendre pourquoi.
Le jeu de données contient plusieurs variables facilement mesurables: pression sanguine,
taux d'insuline dans le sang, nombre de grossesses, etc. Le but de l'étude est, non seulement de pouvoir prédire
si une nouvelle personne est à risque de développer la maladie, mais aussi de déterminer quelles sont les
variables les plus importantes. C'est-à-dire, les variables permettant de comprendre la prévalence de la maladie dans la population.
<!-- #endregion -->

<!-- #region id="142c7dc6" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/classifier-model-illustration.png"  width="500" />
    <div>
    <font size="0.5">Image Source: Google Image</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="9ddb40b7" -->
## La prédiction des chances de survie des passagers sur le Titanic
<!-- #endregion -->

<!-- #region id="39e45fd0" -->
Voici une fameuse application de la classification en sociologie venue de nulle part! Elle est
tirée d'un projet de classification proposé en 2014 sur la plateforme Web
[Kaggle](https://www.kaggle.com/c/titanic/) qui organise
des compétitions en science des données. Le but est de prédire la survie de passagers lors du
naufrage du Titanic en 1912, au large de Terre-Neuve, au Canada.
<!-- #endregion -->

<!-- #region id="eab5880d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/iceberg-titanic.jpeg"  width="300" />
    <div>
    <font size="0.5">Image Source: https://publicdomainpictures.net/en/view-image.php?image=63492&picture=wallpaper-clip-art/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="f5f6bedd" -->
Le jeu de données contient neuf variables; la figure suivante montre
les six variables les plus significatives.
<!-- #endregion -->

<!-- #region id="ff8f4b33" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/titanic-survival.png"  width="600" />
    <div>
    <font size="0.5">Image Source: https://betterprogramming.pub/titanic-survival-prediction-using-machine-learning-4c5ff1e3fa16 </font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="5e7ee8ae" -->
On remarque dans les deux premiers panneaux que les hommes avaient moins de chances de survivre que les femmes
et les enfants. Les passagers des premières classes étaient d'ailleurs favorisés par rapport à ceux de
la troisième classe. Ce dernier aspect psychologique est l'une des raisons ayant le plus frappé l'imagination et a
contribué à garder l'histoire du naufrage dans nos mémoires. Beaucoup d'efforts ont été mis à l'analyse des données
afin de voir comment les différentes variables ont contribué aux statistiques.
<!-- #endregion -->

<!-- #region id="fc0cce70" -->
# <a id=types-de-classification>Types de classification</a>
<!-- #endregion -->

<!-- #region id="0ba03507" -->
Il y a trois principaux types de classification: binaire, multiclasse et multiétiquette.

Dans ce qui suit, nous allons utiliser des exemples de classification basés sur des variables
mesurées $x_{1}$ ou sur des images. Les deux approches sont utilisées afin de faciliter la compréhension.
<!-- #endregion -->

<!-- #region id="628fb668" -->
## <a id=classification-binaire>Classification binaire</a>
<!-- #endregion -->

<!-- #region id="22554254" -->
Dans beaucoup d'applications, on n'utilise que deux classes, car on ne cherche à traiter
qu'un type d'évènement. Par exemple, on veut déterminer si un courriel arrivant dans notre boîte à lettres
est un pourriel (*SPAM*). Il n'y a que deux éventualités possibles: oui ou non.
<!-- #endregion -->

<!-- #region id="93509b09" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/spam-model.png"  width="400" />
    <div>
    <font size="0.5">Image Source: https://towardsdatascience.com/spam-detection-with-logistic-regression-23e3709e522/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="901d81d0" -->
Dans l'industrie, on utilise des systèmes de vision par ordinateur afin d'identifier les pièces défectueuses
observées sur un convoyeur. Plusieurs mesures peuvent être effectuées sur chacune et on doit les classifier
en fonction de ces dernières. Le panneau de gauche dans la figure suivante montre un exemple
où l'on doit décider, en fonction des variables mêmes variables $x_{1}$ et $x_{2}$ mesurées sur celle-ci, si une pièce
est défectueuse (carrés rouges) ou non (cercles verts).
<!-- #endregion -->

<!-- #region id="ce03487c" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/binary-vs-multiclass.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://tutorialspoint.dev/computer-science/machine-learning/getting-started-with-classification/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="b6b1832c" -->
En classification binaire, on utilise généralement la convention suivante pour assigner les classes:

- Classe 0: la moins intéressante (état normal). Par exemple, « sujet sain », « bon courriel » ou « pièce en bon état ».

- Classe 1: la plus intéressante (état anormal). Par exemple, « sujet malade », « pourriel » ou « pièce défectueuse ».

<!-- #endregion -->

<!-- #region id="fab675b2" -->
## <a id=classification-multiclasse>Classification multiclasse</a>
<!-- #endregion -->

<!-- #region id="2c1a7336" -->
La classification multiclasse est la seconde plus courante. Dans le système de vision industrielle
précédent, on aimerait maintenant identifier automatiquement divers types de défauts. Le panneau droit
de la dernière figure montre un exemple contenant les mêmes variables $x_{1}$ et $x_{2}$ mesurées
pour des pièces en bon état (cercles) ou possédant deux types de défauts (triangles et hexagones).
<!-- #endregion -->

<!-- #region id="eb8f1e9b" -->
## <a id=classification-multiétiquette>Classification multiétiquette</a>
<!-- #endregion -->

<!-- #region id="f3c0d2dd" -->
Ce dernier type de classification est utilisé lorsque, par exemple, on doit identifier tous les types d'objets
apparaissant dans une image. Il y a autant d'étiquettes que de types d'objets dans la figure.

La figure suivante compare les classifications multiclasse et multiétiquette en reconnaissance d'images.
Il y a trois classes possibles (soleil, lune et nuage) qui sont représentées par un vecteur d'étiquettes
(*labels*). Dans le cas multiclasse, le vecteur ne contient qu'une seule étiquette à la fois, par image.
Dans le cas multiétiquette, le vecteur peut en contenir plusieurs par image en fonction des éléments se
trouvant dans celle-ci.
<!-- #endregion -->

<!-- #region id="de7498d8" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/multiclass-vs-multilabel.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://towardsdatascience.com/building-a-multi-label-text-classifier-using-bert-and-tensorflow-f188e0ecdc5d</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="20ebee10" -->
L'avantage d'utiliser plusieurs étiquettes est évident. Supposons que pendant l'étape d'étiquetage
de voitures dans le cadre d'un projet de reconnaissance de véhicule, vous hésitez entre deux marques
de voitures. Vous pouvez utiliser les deux étiquettes associées. L'analyse subséquente des données
permettra de les départager en incluant d'autres sources d'information.
<!-- #endregion -->

<!-- #region id="4b73b615" -->
# <a id=le-problème-du-débalancement-des-classes>Le problème du débalancement des classes</a>
<!-- #endregion -->

<!-- #region id="6507caed" -->
Ce sujet est abordé plus en détail dans le module sur le prétraitement des données. Nous allons toutefois
en discuter brièvement ici puisqu'il est fondamental dans les applications concrètes de la classification.
D'ailleurs, les exemples de classification dans les modules qui suivent le mentionnent à quelques reprises.

Dans beaucoup de problèmes réels de classification, on s'aperçoit que la classe d'intérêt que l'on tente d'identifier est
plutôt rare. Il est courant que le nombre d'exemples dans chaque classe puisse varier de plusieurs ordres de grandeur.
Imaginez que vous avez développé un test permettant de mesurer très précisément 100 marqueurs $x_{i}$ à partir d'un échantillon
sanguin. Vous voulez vous en servir pour détecter dans la population la présence d'une maladie particulièrement rare.
Lors de l'étape de construction du jeu de données pour mener l'étude, vous devez constituer un groupe de sujets
sains et un autre de sujets malades. Supposons que vous trouvez facilement 9 990 sujets sains, mais seulement 10
sujets malades. Votre étude clinique ne portera pas fruit même si vous avez 100 marqueurs très pertinents.
Le problème ne vient pas des marqueurs, mais du débalancement des classes. Si vous utilisez un classificateur stupide
qui ne fait que prédire la classe la plus populeuse, celle des sujets sains, le classificateur prédira toujours
des patients sains et atteindra une exactitude de $99,9~\%$. Oui, vous avez bien lu!

Il existe plusieurs méthodes pour réduire l'impact du débalancement sur les classifications, mais
la meilleure demeure l'augmentation du nombre de sujets malades jusqu'à parité avec les sujets sains. C'est
difficilement faisable dans la réalité.

Le problème du débalancement se produit aussi en classification multiclasse. En voici quelques exemples:

- reconnaissance de caractères (on a plus d'images de A que de Z),
- reconnaissance de modèles de voitures (on a plus d'images de Toyota Corolla que de Lamborghini Aventador),
- reconnaissance de races de chiens (on a plus d'images de Beagle que de Puli).

Dans la pratique on évalue le niveau de débalancement avec cette « règle du pouce » (on reprend à nouveau
l'exemple des sujets sains et malades):

- nul: $50~\%$ sains, $50~\%$ malades,
- négligeable: $60~\%$ sains, $40~\%$ malades,
- important: $90~\%$ sains, $10~\%$ malades.

Les situations de débalancement négligeable affectent peu les performances en classification. Les situations avec un
débalancement important doivent être traitées en utilisant des méthodes spécialisées. Ce sujet est abordé dans le
module sur la méthodologie.
<!-- #endregion -->

<!-- #region id="2bd151a0" -->
# <a id=que-faire-lorsquil-y-a-plus-de-deux-classes>Que faire lorsqu'il y a plus de deux classes?</a>
<!-- #endregion -->

<!-- #region id="d29d7839" -->
Cette situation est importante dans le cas des méthodes de classification binaire comme la régression
logistique. Ce n'est pas un problème pour les forêts aléatoires qui peuvent traiter un grand nombre
de classes en même temps.

Les principes de la régression logistique sont expliqués dans un prochain module, mais nous allons la décrire ici brièvement. C'est une méthode qui permet de prédire la probabilité $p \in [0,1]$ qu'un évènement $E$ se produise, en fonction de plusieurs facteurs $x_{i}$. La formulation standard du modèle est

$$p(E|X,\Theta)= {\dfrac {1}{1+e^{-(a_{0}+a_{1}x_{1}+\cdots + a_{N} x_{N})}}}$$

où les $a_{i}$ sont les paramètres de la fonction. En général, on considère que l'évènement E se produit lorsque $p(E|X,\Theta)>50\%$. Les paramètres permettent d'identifier les variables $x_i$ les plus importantes et facilitent
l'interprétation des résultats, comme on le verra dans un prochain module.

Dans beaucoup d'applications, on n'utilise que deux classes, car on est intéressé à ne traiter
qu'un type d'évènement. Par exemple, est-ce qu'une pièce mécanique est défectueuse? Il n'y a que deux
éventualités possibles: oui ou non. Le panneau de gauche dans la figure suivante montre un exemple
où l'on doit décider, en fonction des variables $x_{1}$ et $x_{2}$ mesurées sur une pièce donnée, si elle
est défectueuse (croix rouges) ou non (cercles bleus).
<!-- #endregion -->

<!-- #region id="1ea83cdc" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/logistic-regression.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://medium.com/deep-math-machine-learning-ai/chapter-2-0-logistic-regression-with-math-e9cbb3ec6077/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="4cdd1389" -->
Il y a toutefois d'autres cas où l'on a plus de deux classes mutuellement exclusives. Ce serait le cas, par exemple,
d'un système de vision industrielle par ordinateur mesurant deux caractéristiques pour chaque pièce observée
sur un convoyeur. Dans ce cas, on aimerait identifier automatiquement le type de pièce associé. Le panneau
à droite dans la même figure montre un exemple contenant trois types de pièces et donc autant de classes à déterminer.

Deux approches sont couramment utilisées pour traiter ce genre de problème. Dans l'approche
« un contre tous » (*one-versus-all*), qui est la
plus intuitive des deux, on traite le problème en trois problèmes indépendants.
Pour chaque type de pièce, on assigne l'étiquette 1 à ses éléments et l'étiquette 0 aux éléments des
autres pièces. Puis, on calcule la probabilité d'appartenance à cette classe. On obtient ainsi:

- problème 1: $p(\text{Pièce 1}|X)$,
- problème 2: $p(\text{Pièce 2}|X)$,
- problème 3: $p(\text{Pièce 3}|X)$.

On identifie ensuite la classe gagnante comme étant celle ayant la probabilité maximale de gagner.
La figure suivante en montre un exemple à trois classes.
<!-- #endregion -->

<!-- #region id="8e86da2b" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/one-vs-all.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://houxianxu.github.io/2015/04/25/support-vector-machine/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="70e71326" -->
L'autre approche traite toutes les classes en même temps. C'est la régression logistique multinomiale,
mieux connue sous le nom de [softmax](https://fr.wikipedia.org/wiki/Fonction_softmax). C'est une extension de la régression logistique standard; elle est principalement utilisée dans les réseaux de neurones.
<!-- #endregion -->

<!-- #region id="91d22257" -->
# <a id=méthodes-qui-seront-présentées>Méthodes qui seront présentées</a>
<!-- #endregion -->

<!-- #region id="39afbfc5" -->
Comme pour la régression, il existe aujourd'hui un grand nombre de méthodes de classification
qui sont utilisées dans différents domaines. Chacune a ses forces et ses faiblesses en
fonction du type de données à analyser. Dans les modules qui suivent, nous allons nous
concentrer sur deux d'entre elles largement utilisées en recherche et dans l'industrie:

- la régression logistique,
- la classification par forêts aléatoires.

Chacune utilise une approche différente au problème. La première méthode
est systématique, prévisible et repose sur un modèle simple vu ci-dessus. Elle représente la voie standard
ayant mené à plusieurs découvertes en science et en médecine. La seconde est
heuristique, désordonnée et chaotique. Elle correspond aux nouvelles stratégies d'attaque
en apprentissage automatique. Les deux méthodes seront présentées, avec exemples à l'appui, dans les modules qui suivent.

Les deux méthodes de classification sont dérivées des approches de régression vues dans les modules précédents.
Ainsi, il y a plusieurs analogies entre la régression avec des modèles linéaires et la régression logistique. Ça explique la similarité des noms. Les similarités sont encore plus grandes entre la régression et la classification
par forêts aléatoires. La seule différence entre les deux est le type de réponse $y$ prédite. On obtient une valeur continue en régression et une classe en classification. Rien de plus.
<!-- #endregion -->
