---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="a3758eeb" -->
# Table des mati√®res
1. [Apprentissage supervis√©](#Apprentissage-supervis√©)
   1. [R√©gression](#R√©gression)
       1. [Exemple](#Exemple)
   2. [Classification](#Classification)
       1. [Exemple](#Exemple-1)
2. [Apprentissage non supervis√©](#Apprentissage-non-supervis√©)
    1. [Regroupement de donn√©es](#Regroupement-de-donn√©es)
       1. [Exemple](#Exemple-2)
       2. [√Ä quoi correspondent ces groupes?](#√Ä-quoi-correspondent-ces-groupes)
       3. [Diff√©rences entre le regroupement des donn√©es et la classification](#Diff√©rences-entre-le-regroupement-des-donn√©es-et-la-classification)
       4. [M√©thodes de regroupement des donn√©es](#M√©thodes-de-regroupement-des-donn√©es)
          1. [Exemples](#Exemples)
    2. [D√©tection d'anomalies](#D√©tection-danomalies)
    3. [Algorithmes de recommandation](#Algorithmes-de-recommandation)
3. [Exemple de regroupement de donn√©es en apprentissage non supervis√©](#Exemple-de-regroupement-de-donn√©es-en-apprentissage-non-supervis√©)
    1. [Pr√©paration des donn√©es](#Pr√©paration-des-donn√©es)
    1. [Affichage des r√©sultats](#Affichage-des-r√©sultats)
4. [Exercice](#Exercice)
5. [Conclusion](#Conclusion)

# Attention!
Ne lancez pas l'ex√©cution automatique du notebook en entier en cliquant sur le bouton **Tout ex√©cuter**. L'ex√©cution serait interrompue, car certaines cellules exigent une entr√©e de votre part!

Il faut simplement ex√©cuter le notebook, une cellule √† la fois, et entrer quelques lignes de code lorsque demand√©es. Il est inutile de sauter ces cellules pour aller aux suivantes car celles-ci ont justement besoin de votre input!

Importons d'abord les librairies n√©cessaires.
<!-- #endregion -->



In [None]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, manifold
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.mixture import GaussianMixture
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

seed = 42
np.random.seed(seed)



<!-- #region id="785bb70d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/types-of-machine-learning.png"  width="700" />
    <div>
    <font size="0.5">Image Source: https://www.uscjournal.com/articles/artificial-intelligence-cardiac-imaging</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="174a6b43" -->
La figure ci-dessus montre, juste dans le domaine de la m√©decine, les grandes divisions en apprentissage
automatique avec leurs domaines d'applications. On trouve facilement sur le web d'autres repr√©sentations
similaires en marketing, en ing√©nierie, etc. Cela montre l'impact de l'apprentissage automatique 
dans l'analyse de donn√©es de toutes sortes et d'origines diverses.

La figure montre qu'il y a quatre grandes divisions en apprentissage automatique:


- l'apprentissage supervis√©,
- l'apprentissage non supervis√©,
- l'apprentissage semi-supervis√©,
- l'apprentissage par renforcement.


Pour √™tre plus pr√©cis, on pourrait les ramener √† trois; l'apprentissage semi-supervis√© se trouve en r√©alit√©
√† la fronti√®re entre le supervis√© et le non supervis√©.

Dans ce module, nous allons comparer les deux premi√®res divisions c.-√†-d. celles dans la moiti√© sup√©rieure de la figure.
Nous allons discuter du type de donn√©es que chacune utilise et des applications qu'on peut en tirer. Plusieurs des
concepts ont d√©j√† √©t√© abord√©s dans des modules et des th√®mes diff√©rents. Nous allons nous concentrer sur les
similitudes et les diff√©rences entre les deux types d'apprentissages.

<!-- #endregion -->

<!-- #region id="dbbb13c1" -->
# <a id=Apprentissage-supervis√©>Apprentissage supervis√©</a>
<!-- #endregion -->

<!-- #region id="56f1a0d6" -->
## <a id=R√©gression>R√©gression</a>
<!-- #endregion -->

<!-- #region id="4bd9361b" -->
La r√©gression est une m√©thode permettant de pr√©dire une r√©ponse $y$ en fonction de variables
d'entr√©es (ou caract√©ristique) $X=[x_1, x_2, \cdots, x_N]$ connues. La r√©ponse $y$ est r√©elle et continue, telle
qu'un prix, un courant √©lectrique, un r√©sultat d'examen. Pr√©cisons ici que les m√©thodes de r√©gression
bas√©es sur l'apprentissage profond, peuvent avoir des r√©ponses $y$ multiples.

De nombreux mod√®les peuvent √™tre utilis√©s. Nous avons discut√© dans les modules pr√©c√©dents de deux d'entre eux, soit la r√©gression lin√©aire dans les coefficients et la r√©gression par for√™t al√©atoire. Leur choix √©tait d√©termin√©
par leurs grandes diff√©rences d'approches aux probl√®mes (d√©terministique *versus* heuristique) et
le type de probl√®mes o√π elles performent le mieux.

En apprentissage automatique, il existe plusieurs algorithmes d'apprentissage de r√©gression. Les plus utilis√©s, qui ne touchent pas √† l'apprentissage profond, sont les suivants:

- les mod√®les lin√©aires dans les coefficients,
- la for√™t al√©atoire,
- les machines √† vecteurs de support (*Support Vector Machine*),
- le boosting du gradient (*Gradient Boosting*).
<!-- #endregion -->

<!-- #region id="bf8c3580" -->
### <a id=Exemple>Exemple</a>
<!-- #endregion -->

<!-- #region id="1c7019ba" -->
Le march√© immobilier utilise r√©guli√®rement des techniques de r√©gression pour estimer le prix de vente de
divers types d'immeubles. Un agent immobilier aimerait ainsi estimer le prix
de vente de maisons qui seront bient√¥t mises sur le march√©. Pour cela, il dispose d'un jeu de donn√©es
de maisons vendues r√©cemment. Celui-ci contient les caract√©ristiques d'int√©r√™t de chaque maison ainsi que son
prix de vente. La figure suivante montre le jeu de donn√©es dont il dispose.
<!-- #endregion -->

<!-- #region id="8ef5ff5f" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/housing-example1.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="02dd1ea0" -->
Un analyste des donn√©es de la compagnie immobili√®re doit concevoir un algorithme de r√©gression qu'il
entra√Ænera sur les donn√©es pr√©c√©dentes. Une fois entra√Æn√© et valid√©, l'algorithme pourra √™tre utilis√©
par l'agent immobilier pour pr√©dire le prix de vente de plusieurs maisons dont les donn√©es
apparaissent dans la figure suivante.
<!-- #endregion -->

<!-- #region id="3efe1776" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/housing-example2.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="238aefc4" -->
## <a id=Classification>Classification</a>
<!-- #endregion -->

<!-- #region id="d11bec7b" -->
La classification est √©galement une m√©thode permettant de pr√©dire une r√©ponse $y$ en fonction de variables d'entr√©es $X=[x_1, x_2, \cdots, x_N]$ connues. La diff√©rence avec la r√©gression repose sur le type de r√©ponse √† pr√©dire. Alors que la r√©gression produit une r√©ponse $y$ continue, la classification produit une r√©ponse cat√©gorielle.

Il y a plusieurs types de cat√©gories:

- les cat√©gories standard utilisent des mots comme "Chat", "Chien", etc.,
- les variables quantitatives nominales (p. ex. les groupes 1, 2, 3 o√π l'ordre est non important),
- les variables quantitatives ordinales (p. ex. des niveaux d'appr√©ciation 1, 2, 3 o√π l'ordre est important).


Plusieurs m√©thodes ont la possibilit√© de pr√©dire la probabilit√© de chaque classe (comme le fait la r√©gression logistique); dans ce cas, la r√©ponse $y$ est multiple (autant de probabilit√©s que de classes) et continue (des probabilit√©s entre $0~\%$ et $100~\%$).

De nombreux mod√®les peuvent √™tre utilis√©s. Nous avons discut√© dans les modules pr√©c√©dents de deux d'entre eux, soit la r√©gression logistique et les for√™ts al√©atoires. Comme pour la r√©gression, leur choix √©tait d√©termin√© par leurs grandes diff√©rences d'approches aux probl√®mes et le type de probl√®mes o√π elles performent le mieux.

Il existe de nombreux algorithmes d'apprentissage de classification. Les plus connus, qui ne touchent pas √† l'apprentissage profond, sont probablement les suivants:

- la r√©gression logistique,
- l'arbre de d√©cision,
- la for√™t al√©atoire,
- la classification na√Øve bay√©sienne (*Naive Bayes*),
- les machines √† vecteurs de support,
- XGBoost.

<!-- #endregion -->

<!-- #region id="e240ef01" -->
### <a id=Exemple-1>Exemple</a>
<!-- #endregion -->

<!-- #region id="79c3645d" -->
Comment fait-on pour d√©terminer si une personne est atteinte du cancer?
Il existe de nombreuses m√©thodes. L'une d'entre elles repose sur l'√©tude de biopsies
effectu√©es chez un patient par un m√©decin et analys√©es par un cytologiste (biologiste clinique).
Pour faire ce type de pronostic, il faut se baser sur l'√©tude de biopsies effectu√©es en pathologie
sur un grand nombre de patients pour lesquels on connait le diagnostic clinique. La figure suivante
montre un exemple de jeu de donn√©es cliniques dont on dispose.
<!-- #endregion -->

<!-- #region id="3e3a1cd0" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/biopsie-example1.png"  width="800" />
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="8946dc5e" -->
Un chercheur en pathologie doit concevoir un algorithme de classification qu'il entra√Æne sur
les donn√©es pr√©c√©dentes. Une fois entra√Æn√© et valid√©, l'algorithme pourra √™tre utilis√© par un
cytologiste travaillant en milieu hospitalier afin de pr√©dire si les biopsies qu'on lui demande
d'analyser (et dont les donn√©es apparaissent dans la figure suivante) proviennent ou non de sujets canc√©reux.
<!-- #endregion -->

<!-- #region id="ff298271" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/biopsie-example2.png"  width="800" />
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="9e0a8e61" -->
# <a id=Apprentissage-non-supervis√©>Apprentissage non supervis√©</a>
<!-- #endregion -->

<!-- #region id="2f9ba021" -->
## <a id=Regroupement-de-donn√©es>Regroupement de donn√©es</a>
<!-- #endregion -->

<!-- #region id="c4257ea6" -->
Les bases de donn√©es couramment utilis√©es sont souvent constitu√©es de caract√©ristiques $X=[x_1, x_2, \cdots, x_N]$ avec une r√©ponse $y$. Dans les probl√®mes de classification, la r√©ponse $y$ correspond √† une classe pr√©d√©termin√©e (p. ex. ¬´ voiture ¬ª ou ¬´ camion ¬ª). √áa implique que quelqu'un a mesur√© les caract√©ristiques pour des √©l√©ments de types connus.

Il y a une autre classe de probl√®mes o√π les √©l√©ments ne sont pas connus √† l'avance. C'est le regroupement des donn√©es (*Data Clustering*). On aimerait savoir si les √©l√©ments pour lesquels on a mesur√© les caract√©ristiques $X$ peuvent √™tre ordonn√©s de fa√ßon coh√©rente afin de r√©v√©ler un ordre sous-jacent. On cherche √† d√©couvrir s'il y a une organisation latente (c.-√†-d. cach√©e) dans celles-ci. L'exemple suivant va montrer une application int√©ressante du regroupement de donn√©es en m√©decine.
<!-- #endregion -->

<!-- #region id="7797a136" -->
### <a id=Exemple-2>Exemple</a>
<!-- #endregion -->

<!-- #region id="215237c1" -->
La maladie d'Alzheimer est d√©g√©n√©rative; les gens atteints perdent graduellement leurs capacit√©s cognitives.
Il existe plusieurs m√©thodes permettant d'estimer la pr√©sence et la s√©v√©rit√© de la maladie chez les patients.
Une d'entre elles consiste √† effectuer un pr√©l√®vement de liquide c√©phalo-rachidien (LCR), au moyen
d'une ponction lombaire. Le LCR entoure la moelle √©pini√®re et le cerveau, leur fournit
une nutrition et les prot√®ge contre les blessures. Pour chaque √©chantillon pr√©lev√©, on mesure ensuite en laboratoire
les concentrations de certaines mol√©cules, des biomarqueurs, qui pourraient nous permettre de comprendre et de suivre
la progression de la maladie. Toutefois, on peut faire mieux que √ßa.

La figure suivante montre un exemple de  jeu de donn√©es obtenues. Seules les caract√©ristiques $X$ apparaissent.
√Ä chaque √©chantillon de LCR correspond N caract√©ristiques, ce qui peut √™tre visualis√© comme un point dans un
espace en N dimensions.
<!-- #endregion -->

<!-- #region id="25c7e642" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example1.png"  width="600" />
    </div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="0a1235f1" -->
L'analyse par regroupement consiste √† trouver le nombre de groupes naturels de donn√©es dans cet espace.
Comme on le verra plus loin, on peut estimer le nombre optimal de groupes dans les donn√©es. Supposons
qu'il y en a quatre dans ce cas-ci. Le regroupement des donn√©es va assigner un groupe √† chaque √©l√©ment
du jeu de donn√©es comme le montre la figure suivante en fonction des caract√©riques des patients.

<!-- #endregion -->

<!-- #region id="1bc9f7e7" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example2.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="05dd19e7" -->
√Ä partir de ce moment, le probl√®me de regroupement des donn√©es est transform√© en un autre
de classification. On pourra entra√Æner un algorithme de classification sur les donn√©es
pr√©c√©dentes. Une fois entra√Æn√© et valid√©, l'algorithme pourra √™tre utilis√© afin de pr√©dire
√† quel groupe appartiennent les nouveaux patients dont le LCR a √©t√© analys√©.
<!-- #endregion -->

<!-- #region id="4a7874be" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/lcr-example3.png"  width="800" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="047ec7ed" -->
### <a id=√Ä-quoi-correspondent-ces-groupes>√Ä quoi correspondent ces groupes?</a>
<!-- #endregion -->

<!-- #region id="5cefb5e6" -->
Voici maintenant l'√©tape scientifique la plus int√©ressante, mais aussi celle qui requiert le plus d'expertise et
d'ouverture d'esprit chez un chercheur. Il doit isoler tous les sujets faisant partie de chaque groupe
et voir:

- ce qu'ils ont en commun,
- en quoi les groupes diff√®rent entre eux.

Dans notre exemple, le chercheur remarquera, par exemple, que tous les sujets dans le groupe 4 sont des contr√¥les et que les sujets dans les trois autres groupes sont atteints de formes l√©g√®rement diff√©rentes, et jamais d√©tect√©es, de la maladie qu'il nommera A, B et C. Les groupes correspondent d√©sormais √†:


- Alzheimer-A,
- Alzheimer-B,
- Alzheimer-C,
- Sujets contr√¥les (c.-√†-d. sains).


Il pourrait s'arr√™ter √† ce r√©sultat; c'est d√©j√† une d√©couverte scientifique en soi. Sachant qu'il conna√Æt maintenant les
diff√©rents types (ou stades?) de la maladie, il pourra renommer les classes 1, 2, 3 et 4 de son classificateur en cons√©quence. L'algorithme pourra √™tre utilis√© en neurologie pour pr√©dire si les patients examin√©s sont atteints ou non
par la maladie, et si oui, par quel sous-type de celle-ci.

<!-- #endregion -->

<!-- #region id="49710190" -->
### <a id=Diff√©rences-entre-le-regroupement-des-donn√©es-et-la-classification>Diff√©rences entre le regroupement des donn√©es et la classification</a>
<!-- #endregion -->

<!-- #region id="20a0e3bf" -->
Comme l'a montr√© l'exemple pr√©c√©dent, les deux m√©thodes sont reli√©es entre elles.
La figure suivante compare les deux m√©thodes. Le regroupement des donn√©es est une √©tape
pr√©liminaire √† la classification. Il peut se faire naturellement; un enfant apprend √† mettre
dans des groupes distincts les chats et les chiens. Le regroupement peut aussi se faire
algorithmiquement dans les cas plus difficiles, comme dans l'exemple pr√©c√©dent.

<!-- #endregion -->

<!-- #region id="b3d119d1" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/classification-vs-clustering.png"  width="500" />
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="335f69da" -->
### <a id=M√©thodes-de-regroupement-des-donn√©es>M√©thodes de regroupement des donn√©es</a>
<!-- #endregion -->

<!-- #region id="7b937087" -->
Il existe plusieurs
[m√©thodes de regroupement](https://fr.wikipedia.org/wiki/Partitionnement_de_donn√©es) de donn√©es.
Les plus connues, qui ne touchent pas √† l'apprentissage profond, sont probablement les suivantes:

- les k-moyennes (*K-Means*),
- l'algorithme esp√©rance-maximisation (m√©lange de gaussiennes),
- le regroupement hi√©rarchique (*Hierarchical Clustering*).

Elles sont toutes bas√©es sur la notion de distance entre les donn√©es $X$ dans un espace en N dimensions.
Il existe plusieurs
[fa√ßons de mesurer les distances](https://fr.wikipedia.org/wiki/Distance_%28math√©matiques%29).
La figure suivante montre les principales; la distance
euclidienne demeure la plus utilis√©e.
<!-- #endregion -->

<!-- #region id="2e1b376d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/distance-metrics.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://fr.wikipedia.org/wiki/Distance_(math√©matiques)/</font>
    </div>
</div>
<p>&nbsp;</p>

<!-- #endregion -->

<!-- #region id="6e55e38a" -->
Il faut aussi d√©terminer le nombre de groupes de donn√©es. Encore une fois, il existe plusieurs fa√ßons de le d√©terminer.
Les [m√©thodes suivantes](https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set)
sont souvent utilis√©es:


- la validation crois√©e,
- le crit√®re de la silhouette,
- les crit√®res d'information d'Akaike et bay√©sienne.
<!-- #endregion -->

<!-- #region id="a497bdc1" -->
### <a id=Exemples>Exemples</a>
<!-- #endregion -->

<!-- #region id="a0b57529" -->
**Algorithme K-Means en action**

L'animation suivante montre la m√©thode de regroupement K-Means qui est la plus intuitive
de toutes. On essaie ici de regrouper les donn√©es en quatre amas. On initialise al√©atoirement
le centre des amas, identifi√©s par des croix. Ensuite, chaque point est assign√© √† la croix la
plus proche. Une fois cette √©tape termin√©e, on calcule le centre de gravit√© des points assign√©s
√† chaque croix et on la d√©place √† cet endroit. On recommence plusieurs fois la m√™me s√©rie d'op√©rations.
Dans la figure, une couleur est associ√©e √† chaque amas. Le panneau de droite affiche une m√©trique
de qualit√© de regroupement, soit la somme des distances au carr√© entre chaque croix et les points
qui lui sont associ√©s. Au fil des it√©rations, les amas sont de mieux en mieux d√©finis et les points
de mieux en mieux assign√©s aux croix. En cons√©quence, la somme des distances diminue et finit par
√™tre plus ou moins constante; l'algorithme a alors converg√© et le regroupement est termin√©. 
<!-- #endregion -->

<!-- #region id="f9d0e463" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/k-means-in-action.gif"  width="500" />
    <div>
    <font size="0.5">Image Source: https://damminhtien.com/2018/11/11/K-Means-Clustering.html/</font>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="aad5b37d" -->
**Algorithme d'esp√©rance-maximisation en action**

**Algorithme d'esp√©rance-maximisation en action**

La figure suivante montre les r√©sultats de regroupement en utilisant l'algorithme esp√©rance-maximisation (EM),
mieux connu sous le nom de m√©lange de gaussiennes. La diff√©rence fondamentale avec la m√©thode pr√©c√©dente
est que l‚Äôalgorithme K-Means fait l'hypoth√®se que les groupes contiennent le m√™me nombre de points et ont
la m√™me distribution isotrope. L‚Äôalgorithme EM part de la solution K-Means, puis fait les hypoth√®ses suivantes;

- les distributions sont gaussiennes,
- elles peuvent √™tre anisotropes,
- elles peuvent avoir des nombres de points diff√©rents.

√Ä chaque it√©ration, la probabilit√© d'appartenance de chaque point √†
chaque amas est calcul√©e, puis on s'en sert pour calculer les nouvelles positions et distributions statistiques
des amas. Les it√©rations se poursuivent jusqu'√† convergence, comme pour la m√©thode K-Means.
<!-- #endregion -->

<!-- #region id="3956821d" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/em-in-action.gif"  width="500" />
    <div>
    <font size="0.5">Image Source: https://fr.wikipedia.org/wiki/Algorithme_esp√©rance-maximisationfont>
    </div>
</div>
<p>&nbsp;</p>
<!-- #endregion -->

<!-- #region id="24187c21" -->
Un exemple d'utilisation de la m√©thode de m√©lange de gaussiennes est pr√©sent√© en exercice √† la fin du module.

<!-- #endregion -->

<!-- #region id="40e325e4" -->
## <a id=D√©tection-danomalies>D√©tection d'anomalies</a>
<!-- #endregion -->

<!-- #region id="6e9d4487" -->
La d√©tection d'anomalies est l'identification d'√©l√©ments, d'√©v√®nements ou d'observations rares qui
soul√®vent des suspicions en diff√©rant de mani√®re significative de la majorit√© des autres donn√©es.
Pour obtenir plus d'information sur le sujet, consultez la page [Wikip√©dia](https://fr.wikipedia.org/wiki/D√©tection_d%27anomalies)
sur la d√©tection d'anomalies.

Les anomalies peuvent r√©v√©ler la pr√©sence d'une fraude bancaire, un √©v√®nement naturel, mais tr√®s rare, un
probl√®me m√©dical, etc. Ces valeurs aberrantes sont d√©tect√©es en se basant sur les r√©sultats
des techniques de regroupement. Prenons l'exemple de la fraude bancaire. Beaucoup de param√®tres $x_i$ sont
enregistr√©s lors d'une transaction bancaire; montant, type d'achat, lieu et heure de la transaction, etc.
Ces donn√©es forment un ou plusieurs regroupements dans l'espace des param√®tres $X=[x_1, x_2, \cdots, x_N]$.

La figure suivante montre un exemple 2-D de regroupement de donn√©es (m√©thode EM) o√π il y a deux amas qui
repr√©sentent la distribution normale d'observations. Les points blancs sont les donn√©es d'entra√Ænement
du mod√®le utilis√©. Les
points bleus repr√©sentent de nouvelles observations qui sont bien r√©parties selon les distributions
des deux gaussiennes. Les points jaunes sont de nouvelles observations qui ne respectent pas les
distributions statistiques. Ce sont des valeurs aberrantes; il serait trop improbable de les
observer dans la r√©alit√© si elles √©taient des observations du m√™me ph√©nom√®ne. C'est ainsi
que l'on d√©tecte les fraudes par exemple. La nature
aberrante ou non d√©pend d'un seuil de probabilit√© minimum qu'il faut d√©terminer exp√©rimentalement.

<!-- #endregion -->

<!-- #region id="fa1a5270" -->
<div align="center">
    <img src= "../images/novelty-detection.png"  width="500" />
    <div>
    <font size="0.5">Image Source: https://scikit-learn.org/stable/auto_examples/svm/plot_oneclass.html</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="5581e240" -->
## <a id=Algorithmes-de-recommandation>Algorithmes de recommandation</a>
<!-- #endregion -->

<!-- #region id="3cad1a0b" -->
Il y a une autre classe de probl√®mes o√π les √©l√©ments ne sont pas connus et parfois difficiles, voire m√™me impossibles, √† connaitre. Par exemple, lorsque l'on veut faire des recommandations √† un client en fonction de son historique d'achats. Nous n'avons pas d'√©tiquette (*labels*) indiquant si oui ou non une recommandation sera appr√©ci√©e par celui-ci.

Les algorithmes de recommandation analysent toutes les informations dont ils disposent dans les bases de donn√©es sur leurs clients afin de pr√©dire le r√©sultat le plus pertinent pour un nouveau ou un ancien client.
<!-- #endregion -->

<!-- #region id="08354719" -->
# <a id=Exemple-de-regroupement-de-donn√©es-en-apprentissage-non-supervis√©>Exemple de regroupement de donn√©es en apprentissage non supervis√©</a>
<!-- #endregion -->

<!-- #region id="9b31a7ae" -->
Nous allons montrer comment effectuer un regroupement de donn√©es √† partir la base de
donn√©es [**MNIST**](https://en.wikipedia.org/wiki/MNIST_database) qui comprend des images de chiffres 0 √† 9 de
taille $8 \text{ par } 8$. Ce  jeu de donn√©es a √©t√© utilis√©e √† plusieurs reprises dans cette formation.

On va consid√©rer √† nouveau qu'√† chaque image correspond un point dans un espace de dimension $8 \times 8=64$. Plut√¥t que d'essayer de
regrouper des points dans un espace de cette dimension, nous allons plut√¥t projeter les donn√©es en 2-D avec
l'analyse en composantes principales (ACP). Cette technique a √©t√© pr√©sent√©e dans le module sur
la r√©duction de la dimensionnalit√©.

Nous utiliserons la m√©thode de regroupement K-Means. Les images, une fois regroup√©es, permettront de
d√©limiter la zone d'influence de chaque classe de chiffre. C'est une repr√©sentation souvent utilis√©e
pour comparer entre elles diverses m√©thodes de classification.

Cette section s'inspire librement de l'[exemple](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_digits.html)
de Scikit-learn sur le regroupement des donn√©es avec la m√©thode K-Means.

<!-- #endregion -->

<!-- #region id="53d70eef" -->
## <a id=Pr√©paration-des-donn√©es>Pr√©paration des donn√©es</a>
<!-- #endregion -->



In [None]:
# Lecture du jeu de donn√©es

n_digits = 10
X, y = datasets.load_digits(return_X_y=True)



<!-- #region id="2e41aa00" -->
Afin de faciliter la classification, les donn√©es en 64-D vont √™tre normalis√©es. Puis, pour les fins de cet exemple, la dimensionnalit√© des donn√©es sera r√©duite √† 2-D avec l'ACP.

Les deux op√©rations sont effectu√©es avec le pipeline de pr√©traitement suivant:
<!-- #endregion -->



In [None]:
pipeline = Pipeline(
    [("transformation", StandardScaler()), ("reduce_dim", PCA(n_components=2))]
)



<!-- #region id="ff303633" -->
Dans cet exemple, on se sert de toutes les caract√©ristiques $X$ comme ensemble d'entra√Ænement.
<!-- #endregion -->



In [None]:
X_transf = pipeline.fit_transform(X)



<!-- #region id="6ae35250" -->
Les donn√©es 2-D vont √™tre regroup√©es en 10 groupes avec la m√©thode K-Means.
<!-- #endregion -->



In [None]:
kmeans = KMeans(init="k-means++", n_clusters=n_digits, n_init=4)
y_pred = kmeans.fit(X_transf)



<!-- #region id="df466886" -->
## <a id=Affichage-des-r√©sultats>Affichage des r√©sultats</a>
<!-- #endregion -->

<!-- #region id="8ec98533" -->
On d√©finit une grille dans l'espace des composantes principales $(CP_1, CP_2)$ o√π l'on va calculer la classe associ√©e √† chaque point. Cela va permettre de visualiser la zone d'influence de chacune.
<!-- #endregion -->



In [None]:
h = 0.02  # r√©solution spatiale dans chaque dimension

x_min, x_max = X_transf[:, 0].min() - 1, X_transf[:, 0].max() + 1
y_min, y_max = X_transf[:, 1].min() - 1, X_transf[:, 1].max() + 1

xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))



<!-- #region id="373f3d8c" -->
Pr√©diction de la classe associ√©e √† chaque position $(CP_1, CP_2)$ de la grille.
<!-- #endregion -->



In [None]:
# D√©termination de la zone d'influence de chaque classe

Z = kmeans.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)



<!-- #region id="491318ad" -->
La figure suivante pr√©sente ces informations:

- le centro√Øde de chaque classe, indiqu√© par un cercle jaune,
- la zone d'influence de chaque classe, indiqu√©e par une couleur diff√©rente,
- le symbole et la position de chaque image du jeu de donn√©es
<!-- #endregion -->



In [None]:
# Affiche la zone d'influence de chaque classe avec une couleur diff√©rente
fig, ax = plt.subplots(figsize=(10, 10))
ax.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

# Affiche le centro√Øde de chaque amas avec un cercle jaune
centroids = kmeans.cluster_centers_
ax.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="o",
    s=169,
    linewidths=3,
    color="yellow",
    edgecolors="r",
    zorder=10,
)

# Affiche le symbole de chaque image du jeu de donn√©es
for i in range(X.shape[0]):
    plt.text(
        X_transf[i, 0],
        X_transf[i, 1],
        str(y[i]),
        fontdict={"weight": "bold", "size": 9},
    )

ax.set_title("Zone d'influence de chaque classe d'image", fontsize=20)
ax.set_xlim([x_min, x_max])
ax.set_ylim([y_min, y_max])
ax.set_xlabel("Composante principale 1", fontsize=20)
ax.set_ylabel("Composante principale 2", fontsize=20)
ax.set_xticks(())
ax.set_yticks(())
plt.show()



<!-- #region id="5f751975" -->
La figure montre que les chiffres sont assez bien s√©par√©s. Il demeure toutefois un recouvrement entre les classes. Nous √©tions arriv√©s √† la m√™me conclusion au sujet de cette m√©thode dans le module sur la r√©duction de la dimensionnalit√©.
<!-- #endregion -->

<!-- #region id="cd00abef" -->
# <a id=Exercice>Exercice</a>
<!-- #endregion -->

<!-- #region id="281de8d9" -->
Refaites l'exemple pr√©c√©dent en remplissant les `# TODO`. Cette fois, refaite l'exemple en utilisant cette la m√©thode de r√©duction de dimensionnalit√©
t-SNE ([`TSNE`](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)), au lieu de l'ACP,  et utilisez la m√©thode de regroupement par
m√©lange de gaussiennes ([`GaussianMixture`](https://scikit-learn.org/stable/modules/generated/sklearn.mixture.GaussianMixture.html#sklearn.mixture.GaussianMixture)), au lieu de la m√©thode des K-Means.
<!-- #endregion -->



In [None]:
np.random.seed(seed)

# D√©finition du nouveau pipeline
pipeline = Pipeline(
    [
        ("transformation", StandardScaler()),
        ("reduce_dim", manifold.TSNE(n_components=2, init="pca", random_state=0)),
    ]
)

# Entra√Ænement du pipeline
with warnings.catch_warnings():
    warnings.simplefilter("ignore")
    X_transf = pipeline.fit_transform(X)

# Regroupement des donn√©es
gm = GaussianMixture(n_components=10, random_state=0)
gm.fit(X=X_transf.astype("double"))

# G√©n√©ration de la grille
h = 0.1  # r√©solution spatiale dans chaque dimension
x_min, x_max = X_transf[:, 0].min() - 1, X_transf[:, 0].max() + 1
y_min, y_max = X_transf[:, 1].min() - 1, X_transf[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

# Calcul de la classe associ√©e √† chaque point de la grille
Z = gm.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Affiche la zone d'influence de chaque classe avec une couleur diff√©rente
fig, ax = plt.subplots(figsize=(10, 10))
ax.imshow(
    Z,
    interpolation="nearest",
    extent=(xx.min(), xx.max(), yy.min(), yy.max()),
    cmap=plt.cm.Paired,
    aspect="auto",
    origin="lower",
)

# Affiche le centro√Øde de chaque amas avec un cercle jaune
centroids = gm.means_
ax.scatter(
    centroids[:, 0],
    centroids[:, 1],
    marker="o",
    s=169,
    linewidths=3,
    color="yellow",
    edgecolors="r",
    zorder=10,
)

# Affiche le symbole de chaque image du jeu de donn√©es
for i in range(X.shape[0]):
    plt.text(
        X_transf[i, 0],
        X_transf[i, 1],
        str(y[i]),
        fontdict={"weight": "bold", "size": 9},
    )

ax.set_title("Zone d'influence de chaque classe d'image", fontsize=20)
ax.set_xlim([x_min, x_max])
ax.set_ylim([y_min, y_max])
ax.set_xlabel("Composante 1", fontsize=20)
ax.set_ylabel("Composante 2", fontsize=20)
ax.set_xticks(())
ax.set_yticks(())
plt.show()



<!-- #region id="6eaa0c73" -->
Que remarquez-vous?
<!-- #endregion -->

<!-- #region id="63507368" -->
**R√©ponse: Les groupes de chiffres sont maintenant mieux s√©par√©s et le recouvrement entre classes est minimal. La zone d'influence de chaque type de chiffres est mieux d√©finie.**
<!-- #endregion -->

<!-- #region id="bbf02f3a" -->
# <a id=Conclusion>Conclusion</a>
<!-- #endregion -->

<!-- #region id="13b90415" -->
Si l'on tire les grandes lignes de ce que l'on a appris dans ce module, on observe les √©l√©ments ci-bas.
<!-- #endregion -->

<!-- #region id="442fc139" -->
**Apprentissage supervis√©**
<!-- #endregion -->

<!-- #region id="f136b2fc" -->
On utilise des donn√©es analys√©es par des experts humains pour entra√Ænement des syst√®mes permettant de traiter de nouvelles donn√©es tout aussi bien.

- Donn√©es disponibles: variables d'entr√©es $ùëã=[ùë•_1, ùë•_2, \cdots, ùë•_ùëÅ]$ et r√©ponse $y$ associ√©e. 
- Applications courantes:
    - r√©gression,
    - classification.
    
- Buts: construire un mod√®le permettant de pr√©dire une r√©ponse $y$ √† partir de nouvelles valeurs des variables d'entr√©es $X$.
<!-- #endregion -->

<!-- #region id="2c0f3bc4" -->
**Apprentissage non supervis√©**
<!-- #endregion -->

<!-- #region id="1797f87c" -->
On utilise des donn√©es pour entra√Ænement des syst√®mes permettant de les regrouper et de faire des associations entre les variables tout aussi bien qu'un expert humain le ferait.

- Donn√©es disponibles: variables d'entr√©es $ùëã=[ùë•_1, ùë•_2, \cdots, ùë•_ùëÅ]$, pas de r√©ponse $y$ connue! 
- Applications courantes:
    
    - regroupement de donn√©es,
    - r√©duction de la dimensionnalit√©,
    - d√©tection d'anomalies,
    - algorithmes de recommandation.
    
- Buts:
    
    - d√©couvrir des structures cach√©es dans les donn√©es,
    - faciliter l'exploration des donn√©es,
    - d√©couvrir des √©v√®nements rares, possiblement importants,
    - faire des recommandations pertinentes aux clients en fonction d'interactions pr√©c√©dentes.
<!-- #endregion -->
