#  <center> Regroupements (clustering) </center>
---

**Source :** MASSARON L., MUELLER J.-P., Data science avec Python pour les nuls, First, 2019, p.301 et suivantes.

---

Méthode de classification : regroupement par catégorie.
Le regroupement permet de synthétiser d'énormes volumes de données. Il existe plusieurs techniques de regroupement :
- affectation de chaque exemple à un groupe unique (partitionnement) ou à plusieurs groupes (regroupement flou, fuzzy)
- choix de la règle heuristique adoptée par la technique pour décider si un exemple fait ou non partie d'un groupe
- spécification de la façon dont les techniques quantifient les différences entre les observations, ce qui revient à mesurer des distances. 

## Regroupement par k-moyennes (K-means)

Cet algorithme part du principe qu'il existe un certain nombre de groupes dans les données, groupes appelés également **clusters**. Tous les points de données d'un groupe sont distribués autour d'un point central avec lequel ils partagent des attributs fondamentaux. 

L'algorithme va chercher à trouver des groupes dans les données, en appliquant une technique heuristique visant à détecter la position des points centraux ou centroïdes.

### Algorithmes basés centroïdes

1- **Choix initial d'un nombre K de clusters**: les centroïdes K sont sélectionnés au hasard parmi les points de données ou bien choisis afin d'être très éloignés les uns des autres. Tous les autres points sont associés au centroïdes le plus proche de chacun, en évaluant des distances euclidiennes. 

2- **Formation des groupes initiaux**

3- **Répétition de l'opération de regroupement jusqu'à constater que la solution n'a plus d'effet modificateur**: vous recalculez ensuite les centroïdes en tant que moyennes de tous les points de leur groupe. Tous les points de données sont alors réassociés au groupe en fonction de la distance par rapport au nouveau centroïde.

Dans une application à k-moyennes, chaque point de données correspond à un vecteur de caractéristiques. Lorsque vous comparez la distance entre 2 points, vous procédez ainsi :

- Vous créez une liste contenant les différences entre les éléments des 2 vecteurs.

- Vous élevez au carré tous les éléments du vecteur de différences.

- Vous calculez la racine carrée des éléments additionnés.


In [1]:
# Exemple avec 2 points : A et B
import numpy as np

A=np.array([165, 55, 70])
B=np.array([185, 60, 30])

In [2]:
# calcul de la différence 
D = (A -B)
# élévation au carré
D = D**2
# racine carré
D = np.sqrt(np.sum(D))
print(D)

45.0


### Un exemple avec des images de chiffres 

In [3]:
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
pround_truth = digits.target

In [4]:
# analyse PCA
from sklearn.decomposition import PCA
from sklearn.preprocessing import scale

# simplification du jeu de données = 30 composants sur 64 variables initiales
pca = PCA(n_components=30)
Cx = pca.fit_transform(scale(X))
print('Variance expliquée %0.3f' % sum(pca.explained_variance_ratio_))

Variance expliquée 0.893


Classe `KMeans` de Sklearn :
- `n_clusters`: nombre de K de centroïdes que nous voulons trouver.
- `n_init`: nombre d'itérations de la technique à k-moyennes avec des centroïdes initiaux différents. Nous avons besoin d'un nombre d'essais suffisant, par exemple 10;

In [6]:
# KMeans
from sklearn.cluster import KMeans

# paramètrage
clustering = KMeans(n_clusters=10, n_init=10, random_state=1)
# application au jeu de données
clustering.fit(Cx)