# TP2: Classification non supervisée (clustering)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

## K-means

In [None]:
from sklearn.cluster import KMeans

## KMeans sur un dataset synthétique
Créez un dataset synthétique à partir de [make_blobs](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html) 300 échantillons, 4 centres, un écart type de 0.6 et une graine du générateur aléatoire (*random_state*) à 0.
Affichez le à l'aide de la fonction [scatter de matplotlib](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html).

Il est relativement facile de repérer les quatre clusters. L'algorithme [k-means de scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans) va le faire automatiquement. Utilisez-le en précisant de chercher 4 clusters dans les paramètres du KMeans.
Stockez dans une variable le resultat de la fonction [*predict*](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans.predict) qui va renvoyer l'indice du cluster à laquelle appartient chaque échantillon.

Visualisons les résultats en traçant les données en fonction de leur numéro de cluster toujours avec *scatter* (précisez 'viridis' en cmap). Nous allons également tracer en noir les centres des clusters tels que déterminés par l'estimateur k-means (attribut *cluster_centers_* de l'instance de kmeans sur laquelle vous travaillez).

## KMeans sur le jeu de données Iris
Utilisation d'un jeu de données "réel", [Iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html#sklearn.datasets.load_iris). Chargez le jeu de données dans une variable *iris* et affichez les données.

In [None]:
#affichage des données, vous permet de mieux comprendre le jeu de données (optionnel)
print(iris.feature_names)
print(iris.target)
print(iris.target_names)

Stocker les données et les cibles (*target*) dans des DataFrames panda (en précisant les noms de colonnes de données)

In [None]:
#Stocker les données en tant que DataFrame Pandas


Utiliser la fonction KMeans de sklearn sur ce jeu de données avec 3 clusters

In [None]:
#Cluster K-means


Affichez le résultat du clustering en couleur à l'aide de *[scatterplot](https://seaborn.pydata.org/generated/seaborn.scatterplot.html)* de seaborn, rouge pour le cluster 0, vert pour le 1 et bleu pour le 2. Utilisez dans un premier temps la longeur des pétales en X et la largueur des pétales en Y. Changez la forme des points en fonction du type d'iris *iris.target* et *iris.target_names*. Est-ce que tous les iris sont dans le bon groupe ?

A l'aide de *[subplot](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/subplots_demo.html)* affichez les différentes combinaisons possibles de choix de 2 axes parmis les 4 possibles pour choisir le meilleur couple.

## Qualité du kMeans

Nous avons affiché les éléments mal classifiés, nous pouvons maintenant vérifier la précision de notre classification non supervisée avec *[accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)*

Affichons la matrice de confusion *[confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)* qui va nous permettre d'évaluer la précision de la classification par classe.

## Codage de son propre kmeans
Coder votre propre kmeans et comparez les résultats de votre code avec la classification précédente.

In [None]:
#codage du k-means

In [None]:
# test sur les données synthétiques



In [None]:
# test sur iris


## Obtention du meilleur nombre de clusters
Déterminer le nombre optimal de clusters dans un ensemble de données est une question fondamentale dans le clustering par partitionnement, tel que le clustering k-means, qui nécessite que l'utilisateur spécifie le nombre de clusters k à générer. Le nombre optimal de clusters dépend de la méthode utilisée pour mesurer les similarités et des paramètres utilisés pour le partitionnement.
les méthodes directes consistent à optimiser un critère, tel que les sommes de carrés à l'intérieur d'un cluster ou la silhouette moyenne. Les méthodes correspondantes sont appelées respectivement méthodes du coude *elbow* et de la silhouette moyenne.


### Méthode *elbow*

Rappelons que l'idée de base des méthodes de partitionnement, telles que le clustering k-means, est de définir des clusters de telle sorte que l'inertie totale soit minimisée. L'inertie est calculée comme la somme des carrés des distances des échantillons à leur centre de cluster le plus proche.

La méthode Elbow considère l'inertie comme une fonction du nombre de clusters : Il faut choisir un nombre de clusters tel que l'ajout d'un autre cluster n'améliore pas beaucoup plus l'inertie total.

Le nombre optimal de clusters peut être défini comme suit :

- Effectuer le kmeans pour différentes valeurs de k. Par exemple, en faisant varier k de 1 à 10 clusters.
- Pour chaque k, calculer l'inertie totale (donnée comme un [attribut](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) de l'instance de kmeans manipulée).
- Tracez la courbe de l'inertie en fonction du nombre de clusters k.
- L'emplacement d'un point d'inflexion dans le tracé est généralement considéré comme un indicateur du nombre approprié de clusters.

Tracez cette courbe pour les iris (K de 1 à 10).

### Méthode de la [silhouette moyenne](https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html)

Pour chaque point, son coefficient de silhouette est la différence entre la distance moyenne avec les points du même groupe que lui (cohésion) et la distance moyenne avec les points des autres groupes voisins (séparation). Si cette différence est négative, le point est en moyenne plus proche du groupe voisin que du sien : il est donc mal classé. À l'inverse, si cette différence est positive, le point est en moyenne plus proche de son groupe que du groupe voisin : il est donc bien classé.

Le coefficient de silhouette proprement dit est la moyenne du coefficient de silhouette pour tous les points.
La méthode de la silhouette moyenne calcule la silhouette moyenne des observations pour différentes valeurs de k. Le nombre optimal de clusters k est celui qui maximise la silhouette moyenne sur une gamme de valeurs possibles pour k.

L'algorithme est similaire à la méthode *elbow* et peut être calculé comme suit :

- Effectuer le kmeans pour différentes valeurs de k. Par exemple, en faisant varier k de 2 à 10 clusters.
- Pour chaque k, calculer la silhouette moyenne des observations (avg.sil).
- Tracez la courbe de avg.sil en fonction du nombre de clusters k.
- L'emplacement du maximum est considéré comme le nombre approprié de clusters.

De même que précédement, appliquez cette méthode sur les iris.

## Classification Ascendante Hiérarchique (CAH)

Chargez et affichez le jeu de données `zoo`. Que contient ce dataset ?

Combien y a-t-il d'espèces différentes ? Affichez leur nom

Extrayez les features dans une matrice `numpy`, puis normalisez les données à l'aide de [StandardScaler](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html).

### CAH

Notre objectif est de créer une classification des espèces en utilisant seulement les caractéristiques de chaque animal (i.e. toutes les colonnes sauf `type` et `name`). Ces classifications se présentent souvent sous la forme d'arbres, d'où le choix de la CAH. On pourra ensuite comparer notre classification à celle donnée dans le dataset.

Nous utiliserons la classe [AgglomerativeClustering](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering) de scikit-learn. Dans un premier temps, utilisez `distance_threshold=0` pour calculer tout l'arbre. On choisira ensuite le nombre de clusters qui nous intéresse.

### Visualisation du clustering avec un dendrogramme

Utilisez la fonction `plot_dendrogram` pour représenter votre CAH. Pour les labels, utilisez ceux présents dans le dataset `zoo` pour comparer le votre classification à la classification scientifique des espèces. Essayez plusieurs valeurs de `n_clusters` et comparer les classifications. Vous pourrez utiliser la fonction `savefig` de matplotlib pour sauvegarder le dendrogramme et zoomer dans l'image.

In [None]:
from scipy.cluster.hierarchy import dendrogram


def plot_dendrogram(model, labels=None, **kwargs):
    # Create linkage matrix and then plot the dendrogram
    if labels is not None:
        assert len(labels) == len(model.children_) + 1
    # create the counts of samples under each node
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # leaf node
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack(
        [model.children_, model.distances_, counts]
    ).astype(float)

    # Plot the corresponding dendrogram
    dendrogram(linkage_matrix, labels=labels, **kwargs)

### Choix du nombre de clusters

Affichez un barplot des gains d'inertie (les hauteurs dans le dendrogramme). Ils se trouvent dans l'attribut [distances_](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html) d'`AgglomerativeClustering`.

A partir de ce graphique, déterminez un nombre raisonnable de clusters.

Calculez les métriques [Silhouette](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html) et [Davies-Bouldin](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.davies_bouldin_score.html) pour plusieurs valeurs de `n_clusters`. 

Plus d'information sur ces métriques dans le Guide de l'Utiliateur de scikit-learn:
- silhouette: https://scikit-learn.org/stable/modules/clustering.html#silhouette-coefficient
- davies-bouldin: https://scikit-learn.org/stable/modules/clustering.html#davies-bouldin-index

Choisissez un nombre de clusters à l'aide de ces métriques.

Visualisez à nouveau le dendrogramme avec le(s) nombre(s) de clusters que vous avez choisi et comparez à la classification scientifique des espèces.

### Comparaison de linkages

Refaite un clustering hiérarchique avec `linkage=single`. Affichez le dendrogramme complet et comparez avec le dendrogramme obtenu précédemment avec le linkage par défaut (`ward`).

La cellule suivante crée plusieurs jeux de données 2D. Effectuez un clustering de chacun de ces jeux de données pour les 4 linkage disponibles (voir la doc d'`AgglomerativeClustering`), avec le bon nombre de clusters (celui utilisé pour générer le jeu de données) pour se placer dans un cas favorable. N'oubliez pas de standardiser les données ! Affichez les clusterings sur une mosaïque ainsi que la "vraie" classification en colorant les points et comparez les résultats. Quelle remarque pouvez-vous faire sur la taille des clusters pour le linkage "single" ?

In [None]:
from sklearn import cluster, datasets

# Génération de plusieurs datasets
np.random.seed(0)
n_samples = 1500

noisy_circles = datasets.make_circles(n_samples=n_samples, factor=0.5, noise=0.05)
noisy_moons = datasets.make_moons(n_samples=n_samples, noise=0.05)
blobs = datasets.make_blobs(n_samples=n_samples, random_state=8)
# pas de "clusters" pour no_structure, on les met tous dans la même catégorie pour la visualisation
no_structure = np.random.rand(n_samples, 2), np.zeros(n_samples, dtype=np.uint8)

random_state = 170
X, y = datasets.make_blobs(n_samples=n_samples, random_state=random_state)
transformation = [[0.6, -0.6], [-0.4, 0.8]]
X_aniso = np.dot(X, transformation)
aniso = (X_aniso, y)

varied = datasets.make_blobs(
    n_samples=n_samples, cluster_std=[1.0, 2.5, 0.5], random_state=random_state
)



# Tous les datasets: liste de tuples (dataset, n_clusters). 
# Un dataset est un couple (X, labels) avec X: matrice de features, y: "vrai" labels (sauf pour no_structure)
data = [
    (noisy_circles, 2),
    (noisy_moons, 2),
    (varied, 3),
    (aniso, 3),
    (blobs, 3),
    (no_structure, 3),  # pas de ground truth ici, mais on va chercher 3 clusters
]

Single linkage a tendance à créer de très gros clusters et d'autres quasi vides (rich get richer), ce qu'on remarque aussi sur `zoo`.

## Comparaison de clusterings

Il existe des métriques pour comparer des clusterings entre eux. Nous allons utiliser l'ARI https://en.wikipedia.org/wiki/Rand_index.

In [None]:
from sklearn.metrics import adjusted_rand_score

Comme nous disposons des labels pour le jeu de donnée `zoo`, affichez l'ARI entre un clustering CAH et la ground truth, en faisant varier le nombre de clusters. Faites de même avec un k-means.

Comparez maintenant les deux méthodes de clustering entre elles. Les clusterings obtenus sont-ils similaires ?

Les scores sont assez élevés, les deux méthodes ont l'air de fournir des clusterings assez similaires sur ce jeu de données.

## Mini batch kmeans

Implémentez une fonction mini-batch kmeans. L'algorithme est disponible dans cet article (*Algorithm 1*) https://www.eecs.tufts.edu/~dsculley/papers/fastkmeans.pdf.

Comparer les clustering obtenus par vos deux fonctions kmeans et mini batch kmeans, pour une même initialisation. On pourra appliquer ces deux fonctions sur un échantillon de grande taille de données simulées. On pourra lancer plusieurs fois l’algorithme et dresser le boxplot de l’ARI entre les deux clusterings. Comparez aussi les temps d'exécution.