# Clustering

En Data Science , nous réfléchissons souvent à la manière d'utiliser les données pour faire des prédictions sur de nouvelles de données. C'est ce qu'on appelle «l'apprentissage supervisé». Parfois, plutôt que de «faire des prédictions», nous souhaitons plutôt classer les données dans des compartiments. Ceci est appelé «apprentissage non supervisé».

Pour illustrer la différence, disons que nous sommes dans une grande chaîne de pizzas et que nous avons été chargés de créer une fonctionnalité dans le logiciel de gestion des commandes qui prédira les délais de livraison pour les clients. Pour ce faire, nous recevons un ensemble de données contenant les délais de livraison, les distances parcourues, le jour de la semaine, l'heure de la journée, le personnel disponible et le volume des ventes pour plusieurs livraisons dans le passé. À partir de ces données, nous pouvons faire des prévisions sur les délais de livraison futurs. Ceci est un bon exemple d'apprentissage supervisé.

Désormais, disons que la chaîne de pizzas souhaite envoyer des coupons ciblés aux clients. Il souhaite segmenter ses clients en 4 groupes: familles nombreuses, petites familles, célibataires et étudiants. Nous recevons des données de commande préalables (par exemple, la taille de la commande, le prix, la fréquence, etc.) et nous sommes chargés de placer chaque client dans l'un des quatre groupes. Ce serait un exemple d '«apprentissage non supervisé» puisque nous ne faisons pas de prédictions; nous catégorisons simplement les clients en groupes.


<!--
*    Affinity Propagation
*    Agglomerative Clustering
*    BIRCH
*    DBSCAN
*    K-Means
*    Mini-Batch K-Means
*    Mean Shift
*    OPTICS
*    Spectral Clustering
*    Mixture of Gaussians
-->
Nous allons voir dans ce cours l'algorithme des _K-means_ qui  est l'un des algos les plus utilisés

<br>

# K-Means Clustering 

<!--L'algorithme $K$-means divise un ensemble de $N$ échantillons $X$ en $K$ clusters disjoints $C$, chacun étant décrit par la moyenne $\mu_j$ des échantillons du cluster. Les moyens sont communément appelés les «centroïdes» de cluster; notez qu'ils ne sont pas, en général, des points de $X$, bien qu'ils vivent dans le même espace. L'algorithme $K$-means vise à choisir des centres de gravité qui minimisent l'inertie, ou somme intra-cluster du critère au carré:
$$\sum_{i=0}^n min_{\mu_j\in c}(|| x_j - \mu_i||^2)$$


**Comment fonctionne l'algorithme**

L'algorithme de clustering-means utilise un raffinement itératif pour produire un résultat final. Les entrées de l'algorithme sont le nombre de clusters $ Κ $ et l'ensemble de données. L'ensemble de données est un ensemble d'entités pour chaque point de données. Les algorithmes commencent par des estimations initiales pour les centroïdes $Κ$, qui peuvent être générés aléatoirement ou sélectionnés au hasard dans l'ensemble de données. L'algorithme effectue ensuite une itération entre deux étapes:

**Étape d'assignation des données**: chaque centroïde définit l'un des clusters. Dans cette étape, chaque point de données est affecté à son centre de gravité le plus proche, en fonction de la distance euclidienne au carré. Plus formellement, si $c_i$ est la collection de centroïdes dans l'ensemble $C$, alors chaque point de données $x$ est affecté à un cluster basé sur

$$argmin_{c_i \in c} dist(c_i,x)^2$$

où *dist(·)* est la distance euclidienne standard ( $L_2$). Soit $S_i$ l'ensemble des affectations de points de données pour chaque ième centre de gravité du cluster.

**Étape de mise à jour du centre de gravité**: dans cette étape, les centres de gravité sont recalculés. Cela se fait en prenant la moyenne de tous les points de données affectés au cluster de ce centre de gravité.
$$c_i = \frac{1}{[S_i|}\sum_{x_i \in S_i}x_i$$


L'algorithme itère entre les étapes un et deux jusqu'à ce qu'un critère d'arrêt soit satisfait (c'est-à-dire qu'aucun point de données ne change de grappes, la somme des distances est minimisée ou un certain nombre maximal d'itérations est atteint).

**Convergence et initialisation aléatoire**

Cet algorithme est garanti pour converger vers un résultat. Le résultat peut être un optimum local (c'est-à-dire pas nécessairement le meilleur résultat possible), ce qui signifie que l'évaluation de plus d'une exécution de l'algorithme avec des centroïdes de départ aléatoires peut donner un meilleur résultat.
-->

<img src = "images/kmeans.gif">

# Evaluation de performance

Il existe différentes fonctions à l'aide desquelles nous pouvons évaluer les performances des algorithmes de clustering.
Voici quelques fonctions importantes et principalement utilisées fournies par Scikit-learn pour évaluer les performances de clustering

### Adjusted Rand Index

Rand Index est une fonction qui calcule une mesure de similarité entre deux regroupements. Pour ce calcul, Rand Index considère toutes les paires d'échantillons et les paires de comptage qui sont attribuées dans les clusters similaires ou différents dans le clustering prédit et vrai. Ensuite, le score brut de Rand Index est «ajusté en fonction du hasard» dans le score de Rand Index ajusté en utilisant la formule suivante:

$$AdjustedRI = (RI-ExpectedRI)/(max(RI)-ExpectedRI)$$

Il a deux paramètres à savoir **labels_true**, qui sont des étiquettes des **ground truth** classe, et **labels_pred**, qui sont des étiquettes de clusters à évaluer.

### Silhouette Coefficient

La fonction Silhouette calculera le coefficient de silhouette moyen de tous les échantillons en utilisant la distance moyenne intra-cluster et la distance moyenne du cluster le plus proche pour chaque échantillon.
$$S = (b-a)/max(a,b)$$

Ici, **a** est la distance intra-cluster.

et **b** est la distance moyenne du groupe le plus proche.

### Matrice de contingence

Cette matrice indiquera la cardinalité d'intersection pour chaque paire de confiance de (vrai, prédit). La matrice de confusion pour les problèmes de classification est une matrice de contingence carrée.

### Fowlkes-Mallows Score

La fonction Fowlkes-Mallows mesure la similitude de deux regroupements d'un ensemble de points. Elle peut être définie comme la moyenne géométrique de la précision et du rappel par paires.

Mathématiquement

$$FMS = \frac{TP}{\sqrt{(TP+FP)(TP+FN)}}$$

Ici, **TP = True Positive** - nombre de paires de points appartenant aux mêmes clusters en vrai ainsi que les étiquettes prédites à la fois.

**FP = False Positive** - nombre de paires de points appartenant aux mêmes clusters dans les étiquettes vraies mais pas dans les étiquettes prédites.

**FN = False Negative** - nombre de paires de points appartenant aux mêmes clusters dans les étiquettes prédites mais pas dans les vraies étiquettes.

<br><br>
## Application

<br>
<br>

Voyons comment fonctionne le clustering _k-means_. Nous allons utiliser Blobby, plus exactement la fonction **make_blobs** dans la bibliothèque d'apprentissage **_sci-kit_**. Nous allons créer quatre clusters aléatoires à l'aide de **_make_blobs_**.

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

L'algorithme **k-means** recherche un nombre prédéterminé de clusters dans un ensemble de données multidimensionnel non étiqueté. Il accomplit cela en utilisant une conception simple de ce à quoi ressemble le clustering optimal:

*     Le «centre du cluster» est la moyenne arithmétique de tous les points appartenant au cluster.
*     Chaque point est plus proche de son propre centre de cluster que des autres centres de cluster.

Ces deux hypothèses sont à la base du modèle des k-means. Nous allons bientôt nous plonger dans la manière exacte dont l'algorithme atteint cette solution, mais pour l'instant, jetons un coup d'œil à un jeu de données simple et voyons le résultat k-means.

Tout d'abord, générons un jeu de données bidimensionnel contenant quatre blobs distincts. Pour souligner qu'il s'agit d'un algorithme non supervisé, nous allons laisser les étiquettes en dehors de la visualisation

In [6]:
from sklearn.datasets.samples_generator import make_blobs 
X,y_true = make_blobs(n_samples=500, centers=4,  cluster_std=0.6, random_state=0)

ModuleNotFoundError: No module named 'sklearn.datasets.samples_generator'

In [5]:
X

NameError: name 'X' is not defined

In [None]:
plt.scatter(X[:,0],X[:,1],s=50)

À l'œil nu, il est relativement facile de repérer les quatre groupes. L'algorithme **k-means** le fait automatiquement.

In [3]:
from sklearn.cluster import KMeans
km = KMeans(n_clusters=4)
km.fit(X)

NameError: name 'X' is not defined

In [4]:
y_pred = km.predict(X)

NameError: name 'X' is not defined

Visualisons les résultats en traçant les données colorées par ces étiquettes. Nous allons également tracer les centres de cluster tels que déterminés par l'estimateur **k-means**:

In [None]:
plt.scatter(X[:,0],X[:,1],s=50, c=y_pred,cmap='viridis')

## Evaluation

In [None]:
from sklearn.metrics.cluster import adjusted_rand_score
adjusted_rand_score(y_true,y_pred)