# L’apprentissage automatique

## Définition

Par apprentissage automatique (*machine learning* en anglais), on désigne l’ensemble des méthodes mathématiques et statistiques qui programment un ordinateur dans le but de l’aider à améliorer sa faculté à résoudre des tâches.

Traditionnellement, on distingue deux types d’aprentissages :
- L’apprentissage supervisé, grâce auquel le système apprend à partir de données annotées ;
- l’apprentissage non supervisé, où le système est entraîné à détecter quels traits, parmi toutes les variables d’un jeu de données, lui permettront d’en révéler la structure sous-jacente.

L’ambition fondamentale de l’apprentissage automatique est de fournir des modèles prédictifs.

## Focus sur l’apprentissage supervisé

### De l’importance des données

Afin de programmer efficacement un modèle prédictif dans le cadre d’un apprentissage supervisé, il est impératif d’avoir à disposition un jeu de données annotées qui soit à la fois fiable, équilibré et aussi large que possible. Toute donnée manquante ou toute erreur d’annotation pèsera davantage dans la performance du modèle si le volume de données est faible. Dans le même ordre d’idée, une classe surreprésentée dans le jeu de données d’entraînement aura plus tendance à être affectée lors de la résolution de la tâche.

### Des algorithmes en œuvre

Deux grandes familles se disputent la programmation du système en fonction de la nature de la tâche :
- Soit la prévision est dite *qualitative* (ou *discrète*) et l’on parle de **classification** ;
- soit elle est dite *quantitative* (ou *continue*) et l’on parle alors de **régression**.

Par exemple, une tâche de classification serait de déterminer si une critique est positive ou négative, si tel arbre tient plutôt du chêne ou du bouleau, si une personne est riche ou pauvre, etc. Pour la régression, on chercherait plutôt à estimer quel est le salaire qu’un·e étudiant·e peut espérer à la sortie d’un diplôme, quelles sont les températures attendues pour les prochains jours, ou encore à quel prix pourrait se vendre un T2 avec terrasse dans le 12e arrondissement de Paris.

### De l’art de paramétrer un modèle

Grâce aux bibliothèques spécialisées, la mise en place d’un *workflow* pour l’apprentissage est somme toute assez triviale. Il s’agira grossièrement de :
1. Partitionner le jeu de données en deux parties inégales (données d’entraînement et données de test) ;
2. entraîner le modèle et le tester le modèle avec des données vérifiées ;
3. évaluer la performance du modèle.

Le véritable travail s’effectue en amont, autant dans la compréhension des données que dans leur préparation.

## Une affaire de manchots

À partir de la description de certaines caractéristiques physiques de trois espèces de manchots de l’Antarctique (Adélie, Gentoo et Chinstrap), imaginons pour objectif de fournir un programme qui déterminerait à quelle espèce tel ou tel nouvel individu appartiendrait.

|Longueur du bec|Largeur du bec|Longueur des nageoires|Masse|Espèce|
|-:|-:|-:|-:|:-:|
|39.1|18.7|181|3750|Adélie|
|37.8|18.3|174|3400|Adélie|
|49.6|16|225|5700|Gentoo|
|42.7|13.7|208|3950|Gentoo|
|49.3|19.9|203|4050|Chinstrap|
|43.5|18.1|202|3400|Chinstrap|

### Quelques observations

Sur la seule base des caractéristiques fournies dans le tableau ci-dessus, en dehors du fait que le nombre d’individus est insuffisant et que les Chinstrap sont sous-représentés, on remarque que :
- Les Gentoos ont plus de masse que les deux autres ;
- la masse seule ne permet pas de différencier les Adélie des Chinstrap ;
- qu’il en va de même pour la longueur du bec qui est plus plus court chez les Adélie ;
- … et que la longueur des nageoires est également insuffisante pour discriminer les trois espèces.

### Visualiser les données

L’idée est alors de comparer deux caractéristiques pour dégager des associations nettes et, dans ce domaine, rien de tel qu’un diagramme pour effectuer rapidement des observations.

Essayons avec les deux premières caractéristiques, la longueur et la largeur du bec des différentes espèces :

![Répartition des espèces de manchots en fonction des dimensions de leur bec](./images/bill-dimensions.png)

Et maintenant avec toutes les caractéristiques entre elles :

![Répartition des espèces de manchots en fonction de leurs caractéristiques physiques](./images/penguin-dimensions.png)

En cherchant les appariements où les cas de chevauchement sont les plus limités, il apparaît que la longueur du bec est la plus discriminante, surtout quand elle est associée à la largeur du bec.

### Distribution des données

Le dénombrement des effectifs du jeu de données montre la répartition suivante :
- Adélie : 152
- Gentoo : 124
- Chinstrap : 68

Le déséquilibre entre les résultats pose la question de la représentativité. Bien souvent, une étape de redimensionnement sera un préalable à tout apprentissage.

### Partitionnement des jeux d’entraînement et de test

De manière habituelle, on conseille un partitionnement 80/20 ou 75/25. Sur 344 individus dans le jeu de données, on en sélectionne donc 275 pour le jeu d’entraînement et 69 pour le jeu de test.

On veillera également à ce qu’une espèce ne soit pas surreprésentée. Dans notre cas, sont recensés d’abord les Adélie, puis les Gentoo et enfin les Chinstrap. Comme ces derniers ne sont qu’au nombre de 68 et que le jeu de test sera constitué de 69 individus, ils ne seront pas du tout présents dans le jeu d’entraînement ! Le système sera donc incapable d’effectuer des prédictions convenables. La solution consiste à mélanger les observations, une opération qui sera d’autant plus efficace que la distribution aura été équilibrée.

### Évaluation de la performance du modèle

Une fois le modèle entraîné, la dernière étape avant de le confronter à des données inédites consiste à le confronter au jeu de test et à comparer les prévisions avec les annotations. Le premier résultat à considérer est le taux de succès en divisant le nombre de prédictions correctes avec le nombre total d’observations dans le jeu de test (69).

Prenons le cas fictif où les cinq premières observations et prévisions seraient :

|n|observation|prévision|concordance|
|-:|-|-|-|
|0|Adelie|Adelie|vrai|
|1|Gentoo|Adelie|faux|
|2|Gentoo|Gentoo|vrai|
|3|Chinstrap|Chinstrap|vrai|
|4|Gentoo|Gentoo|vrai|

Quatre prévisions correctes sur cinq donne un taux de succès de 80 %.

### À propos des données

> Gorman KB, Williams TD, Fraser WR (2014). Ecological sexual dimorphism and environmental variability within a community of Antarctic penguins (genus *Pygoscelis*). PLoS ONE 9(3):e90081. https://doi.org/10.1371/journal.pone.0090081