---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="a3758eeb" -->
# Table des matières
1. [Apprentissage supervisé](#Apprentissage-supervisé)
   1. [Régression](#Régression)
       1. [Exemple](#Exemple)
   2. [Classification](#Classification)
       1. [Exemple](#Exemple-1)
2. [Apprentissage non supervisé](#Apprentissage-non-supervisé)
    1. [Regroupement de données](#Regroupement-de-données)
       1. [Exemple](#Exemple-2)
       2. [À quoi correspondent ces groupes?](#À-quoi-correspondent-ces-groupes)
       3. [Différences entre le regroupement des données et la classification](#Différences-entre-le-regroupement-des-données-et-la-classification)
       4. [Méthodes de regroupement des données](#Méthodes-de-regroupement-des-données)
          1. [Exemples](#Exemples)
    2. [Détection d'anomalies](#Détection-danomalies)
    3. [Algorithmes de recommandation](#Algorithmes-de-recommandation)
3. [Exemple de regroupement de données en apprentissage non supervisé](#Exemple-de-regroupement-de-données-en-apprentissage-non-supervisé)
    1. [Préparation des données](#Préparation-des-données)
    1. [Affichage des résultats](#Affichage-des-résultats)
4. [Exercice](#Exercice)
5. [Conclusion](#Conclusion)

# Attention!
Ne lancez pas l'exécution automatique du notebook en entier en cliquant sur le bouton **Tout exécuter**. L'exécution serait interrompue, car certaines cellules exigent une entrée de votre part!

Il faut simplement exécuter le notebook, une cellule à la fois, et entrer quelques lignes de code lorsque demandées. Il est inutile de sauter ces cellules pour aller aux suivantes car celles-ci ont justement besoin de votre input!

Importons d'abord les librairies nécessaires.
<!-- #endregion -->



In [None]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, manifold
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.mixture import GaussianMixture
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

seed = 42
np.random.seed(seed)



<!-- #region id="785bb70d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/types-of-machine-learning.png"  width="700" />
    <div>
    <font size="0.5">Image Source: https://www.uscjournal.com/articles/artificial-intelligence-cardiac-imaging</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="174a6b43" -->
La figure ci-dessus montre, juste dans le domaine de la médecine, les grandes divisions en apprentissage
automatique avec leurs domaines d'applications. On trouve facilement sur le web d'autres représentations
similaires en marketing, en ingénierie, etc. Cela montre l'impact de l'apprentissage automatique 
dans l'analyse de données de toutes sortes et d'origines diverses.

La figure montre qu'il y a quatre grandes divisions en apprentissage automatique:


- l'apprentissage supervisé,
- l'apprentissage non supervisé,
- l'apprentissage semi-supervisé,
- l'apprentissage par renforcement.


Pour être plus précis, on pourrait les ramener à trois; l'apprentissage semi-supervisé se trouve en réalité
à la frontière entre le supervisé et le non supervisé.

Dans ce module, nous allons comparer les deux premières divisions c.-à-d. celles dans la moitié supérieure de la figure.
Nous allons discuter du type de données que chacune utilise et des applications qu'on peut en tirer. Plusieurs des
concepts ont déjà été abordés dans des modules et des thèmes différents. Nous allons nous concentrer sur les
similitudes et les différences entre les deux types d'apprentissages.

<!-- #endregion -->

<!-- #region id="dbbb13c1" -->
# <a id=Apprentissage-supervisé>Apprentissage supervisé</a>
<!-- #endregion -->

<!-- #region id="56f1a0d6" -->
## <a id=Régression>Régression</a>
<!-- #endregion -->

<!-- #region id="4bd9361b" -->
La régression est une méthode permettant de prédire une réponse $y$ en fonction de variables
d'entrées (ou caractéristique) $X=[x_1, x_2, \cdots, x_N]$ connues. La réponse $y$ est réelle et continue, telle
qu'un prix, un courant électrique, un résultat d'examen. Précisons ici que les méthodes de régression
basées sur l'apprentissage profond, peuvent avoir des réponses $y$ multiples.

De nombreux modèles peuvent être utilisés. Nous avons discuté dans les modules précédents de deux d'entre eux, soit la régression linéaire dans les coefficients et la régression par forêt aléatoire. Leur choix était déterminé
par leurs grandes différences d'approches aux problèmes (déterministique *versus* heuristique) et
le type de problèmes où elles performent le mieux.

En apprentissage automatique, il existe plusieurs algorithmes d'apprentissage de régression. Les plus utilisés, qui ne touchent pas à l'apprentissage profond, sont les suivants:

- les modèles linéaires dans les coefficients,
- la forêt aléatoire,
- les machines à vecteurs de support (*Support Vector Machine*),
- le boosting du gradient (*Gradient Boosting*).
<!-- #endregion -->

<!-- #region id="bf8c3580" -->
### <a id=Exemple>Exemple</a>
<!-- #endregion -->

<!-- #region id="1c7019ba" -->
Le marché immobilier utilise régulièrement des techniques de régression pour estimer le prix de vente de
divers types d'immeubles. Un agent immobilier aimerait ainsi estimer le prix
de vente de maisons qui seront bientôt mises sur le marché. Pour cela, il dispose d'un jeu de données
de maisons vendues récemment. Celui-ci contient les caractéristiques d'intérêt de chaque maison ainsi que son
prix de vente. La figure suivante montre le jeu de données dont il dispose.
<!-- #endregion -->

<!-- #region id="8ef5ff5f" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/housing-example1.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="02dd1ea0" -->
Un analyste des données de la compagnie immobilière doit concevoir un algorithme de régression qu'il
entraînera sur les données précédentes. Une fois entraîné et validé, l'algorithme pourra être utilisé
par l'agent immobilier pour prédire le prix de vente de plusieurs maisons dont les données
apparaissent dans la figure suivante.
<!-- #endregion -->

<!-- #region id="3efe1776" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/housing-example2.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="238aefc4" -->
## <a id=Classification>Classification</a>
<!-- #endregion -->

<!-- #region id="d11bec7b" -->
La classification est également une méthode permettant de prédire une réponse $y$ en fonction de variables d'entrées $X=[x_1, x_2, \cdots, x_N]$ connues. La différence avec la régression repose sur le type de réponse à prédire. Alors que la régression produit une réponse $y$ continue, la classification produit une réponse catégorielle.

Il y a plusieurs types de catégories:

- les catégories standard utilisent des mots comme "Chat", "Chien", etc.,
- les variables quantitatives nominales (p. ex. les groupes 1, 2, 3 où l'ordre est non important),
- les variables quantitatives ordinales (p. ex. des niveaux d'appréciation 1, 2, 3 où l'ordre est important).


Plusieurs méthodes ont la possibilité de prédire la probabilité de chaque classe (comme le fait la régression logistique); dans ce cas, la réponse $y$ est multiple (autant de probabilités que de classes) et continue (des probabilités entre $0~\%$ et $100~\%$).

De nombreux modèles peuvent être utilisés. Nous avons discuté dans les modules précédents de deux d'entre eux, soit la régression logistique et les forêts aléatoires. Comme pour la régression, leur choix était déterminé par leurs grandes différences d'approches aux problèmes et le type de problèmes où elles performent le mieux.

Il existe de nombreux algorithmes d'apprentissage de classification. Les plus connus, qui ne touchent pas à l'apprentissage profond, sont probablement les suivants:

- la régression logistique,
- l'arbre de décision,
- la forêt aléatoire,
- la classification naïve bayésienne (*Naive Bayes*),
- les machines à vecteurs de support,
- XGBoost.

<!-- #endregion -->

<!-- #region id="e240ef01" -->
### <a id=Exemple-1>Exemple</a>
<!-- #endregion -->

<!-- #region id="79c3645d" -->
Comment fait-on pour déterminer si une personne est atteinte du cancer?
Il existe de nombreuses méthodes. L'une d'entre elles repose sur l'étude de biopsies
effectuées chez un patient par un médecin et analysées par un cytologiste (biologiste clinique).
Pour faire ce type de pronostic, il faut se baser sur l'étude de biopsies effectuées en pathologie
sur un grand nombre de patients pour lesquels on connait le diagnostic clinique. La figure suivante
montre un exemple de jeu de données cliniques dont on dispose.
<!-- #endregion -->

<!-- #region id="3e3a1cd0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/biopsie-example1.png"  width="800" />
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="8946dc5e" -->
Un chercheur en pathologie doit concevoir un algorithme de classification qu'il entraîne sur
les données précédentes. Une fois entraîné et validé, l'algorithme pourra être utilisé par un
cytologiste travaillant en milieu hospitalier afin de prédire si les biopsies qu'on lui demande
d'analyser (et dont les données apparaissent dans la figure suivante) proviennent ou non de sujets cancéreux.
<!-- #endregion -->

<!-- #region id="ff298271" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/biopsie-example2.png"  width="800" />
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="9e0a8e61" -->
# <a id=Apprentissage-non-supervisé>Apprentissage non supervisé</a>
<!-- #endregion -->

<!-- #region id="2f9ba021" -->
## <a id=Regroupement-de-données>Regroupement de données</a>
<!-- #endregion -->

<!-- #region id="c4257ea6" -->
Les bases de données couramment utilisées sont souvent constituées de caractéristiques $X=[x_1, x_2, \cdots, x_N]$ avec une réponse $y$. Dans les problèmes de classification, la réponse $y$ correspond à une classe prédéterminée (p. ex. « voiture » ou « camion »). Ça implique que quelqu'un a mesuré les caractéristiques pour des éléments de types connus.

Il y a une autre classe de problèmes où les éléments ne sont pas connus à l'avance. C'est le regroupement des données (*Data Clustering*). On aimerait savoir si les éléments pour lesquels on a mesuré les caractéristiques $X$ peuvent être ordonnés de façon cohérente afin de révéler un ordre sous-jacent. On cherche à découvrir s'il y a une organisation latente (c.-à-d. cachée) dans celles-ci. L'exemple suivant va montrer une application intéressante du regroupement de données en médecine.
<!-- #endregion -->

<!-- #region id="7797a136" -->
### <a id=Exemple-2>Exemple</a>
<!-- #endregion -->

<!-- #region id="215237c1" -->
La maladie d'Alzheimer est dégénérative; les gens atteints perdent graduellement leurs capacités cognitives.
Il existe plusieurs méthodes permettant d'estimer la présence et la sévérité de la maladie chez les patients.
Une d'entre elles consiste à effectuer un prélèvement de liquide céphalo-rachidien (LCR), au moyen
d'une ponction lombaire. Le LCR entoure la moelle épinière et le cerveau, leur fournit
une nutrition et les protège contre les blessures. Pour chaque échantillon prélevé, on mesure ensuite en laboratoire
les concentrations de certaines molécules, des biomarqueurs, qui pourraient nous permettre de comprendre et de suivre
la progression de la maladie. Toutefois, on peut faire mieux que ça.

La figure suivante montre un exemple de  jeu de données obtenues. Seules les caractéristiques $X$ apparaissent.
À chaque échantillon de LCR correspond N caractéristiques, ce qui peut être visualisé comme un point dans un
espace en N dimensions.
<!-- #endregion -->

<!-- #region id="25c7e642" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example1.png"  width="600" />
    </div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="0a1235f1" -->
L'analyse par regroupement consiste à trouver le nombre de groupes naturels de données dans cet espace.
Comme on le verra plus loin, on peut estimer le nombre optimal de groupes dans les données. Supposons
qu'il y en a quatre dans ce cas-ci. Le regroupement des données va assigner un groupe à chaque élément
du jeu de données comme le montre la figure suivante en fonction des caractériques des patients.

<!-- #endregion -->

<!-- #region id="1bc9f7e7" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example2.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="05dd19e7" -->
À partir de ce moment, le problème de regroupement des données est transformé en un autre
de classification. On pourra entraîner un algorithme de classification sur les données
précédentes. Une fois entraîné et validé, l'algorithme pourra être utilisé afin de prédire
à quel groupe appartiennent les nouveaux patients dont le LCR a été analysé.
<!-- #endregion -->

<!-- #region id="4a7874be" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example3.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="047ec7ed" -->
### <a id=À-quoi-correspondent-ces-groupes>À quoi correspondent ces groupes?</a>
<!-- #endregion -->

<!-- #region id="5cefb5e6" -->
Voici maintenant l'étape scientifique la plus intéressante, mais aussi celle qui requiert le plus d'expertise et
d'ouverture d'esprit chez un chercheur. Il doit isoler tous les sujets faisant partie de chaque groupe
et voir:

- ce qu'ils ont en commun,
- en quoi les groupes diffèrent entre eux.

Dans notre exemple, le chercheur remarquera, par exemple, que tous les sujets dans le groupe 4 sont des contrôles et que les sujets dans les trois autres groupes sont atteints de formes légèrement différentes, et jamais détectées, de la maladie qu'il nommera A, B et C. Les groupes correspondent désormais à:


- Alzheimer-A,
- Alzheimer-B,
- Alzheimer-C,
- Sujets contrôles (c.-à-d. sains).


Il pourrait s'arrêter à ce résultat; c'est déjà une découverte scientifique en soi. Sachant qu'il connaît maintenant les
différents types (ou stades?) de la maladie, il pourra renommer les classes 1, 2, 3 et 4 de son classificateur en conséquence. L'algorithme pourra être utilisé en neurologie pour prédire si les patients examinés sont atteints ou non
par la maladie, et si oui, par quel sous-type de celle-ci.

<!-- #endregion -->

<!-- #region id="49710190" -->
### <a id=Différences-entre-le-regroupement-des-données-et-la-classification>Différences entre le regroupement des données et la classification</a>
<!-- #endregion -->

<!-- #region id="20a0e3bf" -->
Comme l'a montré l'exemple précédent, les deux méthodes sont reliées entre elles.
La figure suivante compare les deux méthodes. Le regroupement des données est une étape
préliminaire à la classification. Il peut se faire naturellement; un enfant apprend à mettre
dans des groupes distincts les chats et les chiens. Le regroupement peut aussi se faire
algorithmiquement dans les cas plus difficiles, comme dans l'exemple précédent.

<!-- #endregion -->

<!-- #region id="b3d119d1" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/classification-vs-clustering.png"  width="500" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="335f69da" -->
### <a id=Méthodes-de-regroupement-des-données>Méthodes de regroupement des données</a>
<!-- #endregion -->

<!-- #region id="7b937087" -->
Il existe plusieurs
[méthodes de regroupement](https://fr.wikipedia.org/wiki/Partitionnement_de_données) de données.
Les plus connues, qui ne touchent pas à l'apprentissage profond, sont probablement les suivantes:

- les k-moyennes (*K-Means*),
- l'algorithme espérance-maximisation (mélange de gaussiennes),
- le regroupement hiérarchique (*Hierarchical Clustering*).

Elles sont toutes basées sur la notion de distance entre les données $X$ dans un espace en N dimensions.
Il existe plusieurs
[façons de mesurer les distances](https://fr.wikipedia.org/wiki/Distance_%28mathématiques%29).
La figure suivante montre les principales; la distance
euclidienne demeure la plus utilisée.
<!-- #endregion -->

<!-- #region id="2e1b376d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/distance-metrics.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://fr.wikipedia.org/wiki/Distance_(mathématiques)/</font>
    </div>
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="6e55e38a" -->
Il faut aussi déterminer le nombre de groupes de données. Encore une fois, il existe plusieurs façons de le déterminer.
Les [méthodes suivantes](https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set)
sont souvent utilisées:


- la validation croisée,
- le critère de la silhouette,
- les critères d'information d'Akaike et bayésienne.
<!-- #endregion -->

<!-- #region id="a497bdc1" -->
### <a id=Exemples>Exemples</a>
<!-- #endregion -->

<!-- #region id="a0b57529" -->
**Algorithme K-Means en action**

L'animation suivante montre la méthode de regroupement K-Means qui est la plus intuitive
de toutes. On essaie ici de regrouper les données en quatre amas. On initialise aléatoirement
le centre des amas, identifiés par des croix. Ensuite, chaque point est assigné à la croix la
plus proche. Une fois cette étape terminée, on calcule le centre de gravité des points assignés
à chaque croix et on la déplace à cet endroit. On recommence plusieurs fois la même série d'opérations.
Dans la figure, une couleur est associée à chaque amas. Le panneau de droite affiche une métrique
de qualité de regroupement, soit la somme des distances au carré entre chaque croix et les points
qui lui sont associés. Au fil des itérations, les amas sont de mieux en mieux définis et les points
de mieux en mieux assignés aux croix. En conséquence, la somme des distances diminue et finit par
être plus ou moins constante; l'algorithme a alors convergé et le regroupement est terminé. 
<!-- #endregion -->

<!-- #region id="f9d0e463" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/k-means-in-action.gif"  width="500" />
    <div>
    <font size="0.5">Image Source: https://damminhtien.com/2018/11/11/K-Means-Clustering.html/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="aad5b37d" -->
**Algorithme d'espérance-maximisation en action**

**Algorithme d'espérance-maximisation en action**

La figure suivante montre les résultats de regroupement en utilisant l'algorithme espérance-maximisation (EM),
mieux connu sous le nom de mélange de gaussiennes. La différence fondamentale avec la méthode précédente
est que l’algorithme K-Means fait l'hypothèse que les groupes contiennent le même nombre de points et ont
la même distribution isotrope. L’algorithme EM part de la solution K-Means, puis fait les hypothèses suivantes;

- les distributions sont gaussiennes,
- elles peuvent être anisotropes,
- elles peuvent avoir des nombres de points différents.

À chaque itération, la probabilité d'appartenance de chaque point à
chaque amas est calculée, puis on s'en sert pour calculer les nouvelles positions et distributions statistiques
des amas. Les itérations se poursuivent jusqu'à convergence, comme pour la méthode K-Means.
<!-- #endregion -->

<!-- #region id="3956821d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/em-in-action.gif"  width="500" />
    <div>
    <font size="0.5">Image Source: https://fr.wikipedia.org/wiki/Algorithme_espérance-maximisationfont>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="24187c21" -->
Un exemple d'utilisation de la méthode de mélange de gaussiennes est présenté en exercice à la fin du module.

<!-- #endregion -->

<!-- #region id="40e325e4" -->
## <a id=Détection-danomalies>Détection d'anomalies</a>
<!-- #endregion -->

<!-- #region id="6e9d4487" -->
La détection d'anomalies est l'identification d'éléments, d'évènements ou d'observations rares qui
soulèvent des suspicions en différant de manière significative de la majorité des autres données.
Pour obtenir plus d'information sur le sujet, consultez la page [Wikipédia](https://fr.wikipedia.org/wiki/Détection_d%27anomalies)
sur la détection d'anomalies.

Les anomalies peuvent révéler la présence d'une fraude bancaire, un évènement naturel, mais très rare, un
problème médical, etc. Ces valeurs aberrantes sont détectées en se basant sur les résultats
des techniques de regroupement. Prenons l'exemple de la fraude bancaire. Beaucoup de paramètres $x_i$ sont
enregistrés lors d'une transaction bancaire; montant, type d'achat, lieu et heure de la transaction, etc.
Ces données forment un ou plusieurs regroupements dans l'espace des paramètres $X=[x_1, x_2, \cdots, x_N]$.

La figure suivante montre un exemple 2-D de regroupement de données (méthode EM) où il y a deux amas qui
représentent la distribution normale d'observations. Les points blancs sont les données d'entraînement
du modèle utilisé. Les
points bleus représentent de nouvelles observations qui sont bien réparties selon les distributions
des deux gaussiennes. Les points jaunes sont de nouvelles observations qui ne respectent pas les
distributions statistiques. Ce sont des valeurs aberrantes; il serait trop improbable de les
observer dans la réalité si elles étaient des observations du même phénomène. C'est ainsi
que l'on détecte les fraudes par exemple. La nature
aberrante ou non dépend d'un seuil de probabilité minimum qu'il faut déterminer expérimentalement.

<!-- #endregion -->

<!-- #region id="fa1a5270" -->
<div align="center">
    <img src= "../images/novelty-detection.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="5581e240" -->
## <a id=Algorithmes-de-recommandation>Algorithmes de recommandation</a>
<!-- #endregion -->

<!-- #region id="3cad1a0b" -->
Il y a une autre classe de problèmes où les éléments ne sont pas connus et parfois difficiles, voire même impossibles, à connaitre. Par exemple, lorsque l'on veut faire des recommandations à un client en fonction de son historique d'achats. Nous n'avons pas d'étiquette (*labels*) indiquant si oui ou non une recommandation sera appréciée par celui-ci.

Les algorithmes de recommandation analysent toutes les informations dont ils disposent dans les bases de données sur leurs clients afin de prédire le résultat le plus pertinent pour un nouveau ou un ancien client.
<!-- #endregion -->

<!-- #region id="08354719" -->
# <a id=Exemple-de-regroupement-de-données-en-apprentissage-non-supervisé>Exemple de regroupement de données en apprentissage non supervisé</a>
<!-- #endregion -->

<!-- #region id="9b31a7ae" -->
Nous allons montrer comment effectuer un regroupement de données à partir la base de
données [**MNIST**](https://en.wikipedia.org/wiki/MNIST_database) qui comprend des images de chiffres 0 à 9 de
taille $8 \text{ par } 8$. Ce  jeu de données a été utilisée à plusieurs reprises dans cette formation.

On va considérer à nouveau qu'à chaque image correspond un point dans un espace de dimension $8 \times 8=64$. Plutôt que d'essayer de
regrouper des points dans un espace de cette dimension, nous allons plutôt projeter les données en 2-D avec
l'analyse en composantes principales (ACP). Cette technique a été présentée dans le module sur
la réduction de la dimensionnalité.

Nous utiliserons la méthode de regroupement K-Means. Les images, une fois regroupées, permettront de
délimiter la zone d'influence de chaque classe de chiffre. C'est une représentation souvent utilisée
pour comparer entre elles diverses méthodes de classification.

Cette section s'inspire librement de l'[exemple](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html)
de Scikit-learn sur le regroupement des données avec la méthode K-Means.

<!-- #endregion -->

<!-- #region id="53d70eef" -->
## <a id=Préparation-des-données>Préparation des données</a>
<!-- #endregion -->



In [None]:
# Lecture du jeu de données

n_digits = 10
X, y = datasets.load_digits(return_X_y=True)



<!-- #region id="2e41aa00" -->
Afin de faciliter la classification, les données en 64-D vont être normalisées. Puis, pour les fins de cet exemple, la dimensionnalité des données sera réduite à 2-D avec l'ACP.

Les deux opérations sont effectuées avec le pipeline de prétraitement suivant:
<!-- #endregion -->



In [None]:
pipeline = Pipeline(
    [("transformation", StandardScaler()), ("reduce_dim", PCA(n_components=2))]
)



<!-- #region id="ff303633" -->
Dans cet exemple, on se sert de toutes les caractéristiques $X$ comme ensemble d'entraînement.
<!-- #endregion -->



In [None]:
X_transf = pipeline.fit_transform(X)



<!-- #region id="6ae35250" -->
Les données 2-D vont être regroupées en 10 groupes avec la méthode K-Means.
<!-- #endregion -->



In [None]:
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
y_pred = kmeans.fit(X_transf)



<!-- #region id="df466886" -->
## <a id=Affichage-des-résultats>Affichage des résultats</a>
<!-- #endregion -->

<!-- #region id="8ec98533" -->
On définit une grille dans l'espace des composantes principales $(CP_1, CP_2)$ où l'on va calculer la classe associée à chaque point. Cela va permettre de visualiser la zone d'influence de chacune.
<!-- #endregion -->



In [None]:
h = 0.02  # résolution spatiale dans chaque dimension

x_min, x_max = X_transf[:, 0].min() - 1, X_transf[:, 0].max() + 1
y_min, y_max = X_transf[:, 1].min() - 1, X_transf[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))



<!-- #region id="373f3d8c" -->
Prédiction de la classe associée à chaque position $(CP_1, CP_2)$ de la grille.
<!-- #endregion -->



In [None]:
# Détermination de la zone d'influence de chaque classe

Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)



<!-- #region id="491318ad" -->
La figure suivante présente ces informations:

- le centroïde de chaque classe, indiqué par un cercle jaune,
- la zone d'influence de chaque classe, indiquée par une couleur différente,
- le symbole et la position de chaque image du jeu de données
<!-- #endregion -->



In [None]:
# Affiche la zone d'influence de chaque classe avec une couleur différente
fig, ax = plt.subplots(figsize=(10, 10))
ax.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

# Affiche le centroïde de chaque amas avec un cercle jaune
centroids = kmeans.cluster_centers_
ax.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="o",
    s=169,
    linewidths=3,
    color="yellow",
    edgecolors="r",
    zorder=10,
)

# Affiche le symbole de chaque image du jeu de données
for i in range(X.shape[0]):
    plt.text(
        X_transf[i, 0],
        X_transf[i, 1],
        str(y[i]),
        fontdict={"weight": "bold", "size": 9},
    )

ax.set_title("Zone d'influence de chaque classe d'image", fontsize=20)
ax.set_xlim([x_min, x_max])
ax.set_ylim([y_min, y_max])
ax.set_xlabel("Composante principale 1", fontsize=20)
ax.set_ylabel("Composante principale 2", fontsize=20)
ax.set_xticks(())
ax.set_yticks(())
plt.show()



<!-- #region id="5f751975" -->
La figure montre que les chiffres sont assez bien séparés. Il demeure toutefois un recouvrement entre les classes. Nous étions arrivés à la même conclusion au sujet de cette méthode dans le module sur la réduction de la dimensionnalité.
<!-- #endregion -->

<!-- #region id="cd00abef" -->
# <a id=Exercice>Exercice</a>
<!-- #endregion -->

<!-- #region id="281de8d9" -->
Refaites l'exemple précédent en remplissant les `# TODO`. Cette fois, refaite l'exemple en utilisant cette la méthode de réduction de dimensionnalité
t-SNE ([`TSNE`](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)), au lieu de l'ACP,  et utilisez la méthode de regroupement par
mélange de gaussiennes ([`GaussianMixture`](https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn.mixture.GaussianMixture)), au lieu de la méthode des K-Means.
<!-- #endregion -->



In [None]:
np.random.seed(seed)

# Définition du nouveau pipeline
pipeline = Pipeline(
    [
        ("transformation", StandardScaler()),
        ("reduce_dim", manifold.TSNE(n_components=2, init="pca", random_state=0)),
    ]
)

# Entraînement du pipeline
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    X_transf = pipeline.fit_transform(X)

# Regroupement des données
gm = GaussianMixture(n_components=10, random_state=0)
gm.fit(X=X_transf.astype("double"))

# Génération de la grille
h = 0.1  # résolution spatiale dans chaque dimension
x_min, x_max = X_transf[:, 0].min() - 1, X_transf[:, 0].max() + 1
y_min, y_max = X_transf[:, 1].min() - 1, X_transf[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# Calcul de la classe associée à chaque point de la grille
Z = gm.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Affiche la zone d'influence de chaque classe avec une couleur différente
fig, ax = plt.subplots(figsize=(10, 10))
ax.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

# Affiche le centroïde de chaque amas avec un cercle jaune
centroids = gm.means_
ax.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="o",
    s=169,
    linewidths=3,
    color="yellow",
    edgecolors="r",
    zorder=10,
)

# Affiche le symbole de chaque image du jeu de données
for i in range(X.shape[0]):
    plt.text(
        X_transf[i, 0],
        X_transf[i, 1],
        str(y[i]),
        fontdict={"weight": "bold", "size": 9},
    )

ax.set_title("Zone d'influence de chaque classe d'image", fontsize=20)
ax.set_xlim([x_min, x_max])
ax.set_ylim([y_min, y_max])
ax.set_xlabel("Composante 1", fontsize=20)
ax.set_ylabel("Composante 2", fontsize=20)
ax.set_xticks(())
ax.set_yticks(())
plt.show()



<!-- #region id="6eaa0c73" -->
Que remarquez-vous?
<!-- #endregion -->

<!-- #region id="63507368" -->
**Réponse: Les groupes de chiffres sont maintenant mieux séparés et le recouvrement entre classes est minimal. La zone d'influence de chaque type de chiffres est mieux définie.**
<!-- #endregion -->

<!-- #region id="bbf02f3a" -->
# <a id=Conclusion>Conclusion</a>
<!-- #endregion -->

<!-- #region id="13b90415" -->
Si l'on tire les grandes lignes de ce que l'on a appris dans ce module, on observe les éléments ci-bas.
<!-- #endregion -->

<!-- #region id="442fc139" -->
**Apprentissage supervisé**
<!-- #endregion -->

<!-- #region id="f136b2fc" -->
On utilise des données analysées par des experts humains pour entraînement des systèmes permettant de traiter de nouvelles données tout aussi bien.

- Données disponibles: variables d'entrées $𝑋=[𝑥_1, 𝑥_2, \cdots, 𝑥_𝑁]$ et réponse $y$ associée. 
- Applications courantes:
    - régression,
    - classification.
    
- Buts: construire un modèle permettant de prédire une réponse $y$ à partir de nouvelles valeurs des variables d'entrées $X$.
<!-- #endregion -->

<!-- #region id="2c0f3bc4" -->
**Apprentissage non supervisé**
<!-- #endregion -->

<!-- #region id="1797f87c" -->
On utilise des données pour entraînement des systèmes permettant de les regrouper et de faire des associations entre les variables tout aussi bien qu'un expert humain le ferait.

- Données disponibles: variables d'entrées $𝑋=[𝑥_1, 𝑥_2, \cdots, 𝑥_𝑁]$, pas de réponse $y$ connue! 
- Applications courantes:
    
    - regroupement de données,
    - réduction de la dimensionnalité,
    - détection d'anomalies,
    - algorithmes de recommandation.
    
- Buts:
    
    - découvrir des structures cachées dans les données,
    - faciliter l'exploration des données,
    - découvrir des évènements rares, possiblement importants,
    - faire des recommandations pertinentes aux clients en fonction d'interactions précédentes.
<!-- #endregion -->
