## K-Means Clustering

Algorithme itératif en 2 étapes
1. affectation des points des données au centroïd le plus proche
2. déplacement du centroïd à la moyenne du cluster

- On place k points (centroïds) au hasard parmis les données

<img src="../img//clustering/k-means.png" width="300px">

- Chaque point du dataset est affecté au centroïd le plus proche, cela crée k clusters

<img src="../img//clustering/k-means_1.png" width="300px">

- Le centroïd est déplacé au milieu du cluster (la moyenne des points)

<img src="../img//clustering/k-means_2.png" width="300px">

Et on recommence jusqu'a ce que les centroïds convergent vers le point d'équilibre

**Probleme :**
Selon leur position initial, il est possible que les centroïds convergent vers une mauvaise position

**Solution :**
- Lancer l'algo plusieurs fois en modifiant à chaque fois la position initial des centroïds
- calculer la somme des distances entres les points et les centroïds

<img src="../img//clustering/k-means_3.png" width="500px">


Cherche la position des centres qui minimisent l'inertia
la distance entre les points d'un cluster $(x_i)$ et son centre $(\mu_j)$

<img src="../img//clustering/inertia.png" width="300px">


En gros, on cherche à minimiser la variance

N'est pas bon sur les clusters non convexes et aniosotropes
<img src="img//clustering/anisotrope.png" width="300px">

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

In [None]:
model = KMeans(n_cluster=3)
model.fit(X)
# affiche le classement des échantillons option 1
model.labels_
# affiche le classement des échantillons option 2
model.predict(X)
# Affiche les données avec une couleur par cluster
plt.scatter(X[:,0], X[:,1], c=model.predict(X))
# coordonnées des centroïds
model.cluster_centers_
# affiche les centroïds
plt.scatter(model.cluster_centers_[:,0], model.cluster_centers_[:,1], c='r')
# somme des distances entre les point et les centroids
model.inertia_
# somme des distances entre les point et les centroids (en négatif)
model.score(X)

### hyper-Paramètres
- n_clusters : nombre de clusters
- n_init=10 : nombre d'exécution (10)
- max_iter : nombre d'itération (300)
- init : type d'initialisation (k-means++)
### Méthodes :
- fit(X) : exécute l'algo
- predict(X) : centroïd le plus proche de X
- score(X) : calcul de l'inertia (négatif)
### Attributs :
- cluster_centers_ : position des centroïds
- labels_ : équivalent de predict(X_train)
- inertia_ : calcul de l'inertia (positif)

### Comment choisir le bon nombre de cluster ?

**elbow method**
évolution du coût du model en fonction du nombre de cluster
<img src="img//clustering/elbow.png" width=400>

In [None]:
inertia = []
K_range = range(1, 20)
for k in K_range:
    model = KMeans(n_cluster=k).fit(X)
    inertia.append(model.inertia_)

plt.plot(K_range, inertia)
plt.xlabel('nombre deClusters')
plt.ylabel('Cout du modele (Inertia)')

## DBSCAN
Density Based Spatial Clustering of Application With Noise

## AglomerativeClustering
Hierarchical Clustering

## SpectralClustering