# Partitionnement de données

Ce notebook présente le partitionnement de données par l'algorithme des $k$-moyennes.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
from sklearn.datasets import load_iris, load_digits

## Données

### Iris

In [None]:
iris = load_iris()

In [None]:
def obtenir_iris():
    '''Jeu de données Iris.'''    
    X = iris.data
    y = iris.target
    return X, y

In [None]:
def montrer_iris(X, y, dimensions=[0,1]):
    '''Montre les données Iris selon les dimensions choisies.'''        
    plt.figure(figsize=(4,4))
    for label in np.unique(y):
        plt.scatter(X[y==label, dimensions[0]], X[y==label, dimensions[1]])
    plt.xlabel(iris.feature_names[dimensions[0]])
    plt.ylabel(iris.feature_names[dimensions[1]])
    plt.show()

### Chiffres

In [None]:
digits = load_digits()

In [None]:
def obtenir_chiffres():
    '''Jeu de donnees Digits.'''    
    X = digits.data
    y = digits.target
    return X, y

In [None]:
def montrer_chiffres(X, y, limit_max=10):
    '''Montre des chiffres.'''
    labels, nombres = np.unique(y, return_counts=True)
    nombre_max = min(np.max(nombres), limit_max)
    img = np.zeros((100, nombre_max*10))
    for i in range(10):
        index_label = np.where(y == i)[0][:limit_max]
        for j, echantillon in enumerate(index_label):
            img[i*10+1:i*10+9,j*10+1:j*10+9] = X[echantillon].reshape((8, 8))
    plt.imshow(img, cmap='binary')
    plt.xticks([])
    plt.yticks(5 + 10*np.arange(10), np.arange(10))

## Algorithme des k-moyennes

In [None]:
def initialiser_centres(X, n_clusters):
    '''Initialise les centres des clusters de façon aléatoire.
    Le paramètre n_clusters ne peut excéder len(X).'''
    index = np.random.choice(len(X), size=n_clusters, replace=False)
    centres = X[index]
    return centres

In [None]:
def trouver_clusters(X, centres):
    '''Trouve les clusters à partir des centres (en fonction des distances).'''
    distances = []
    for x in centres:
        distances.append(np.linalg.norm(X - x, axis=1))
    distances = np.array(distances)
    y = np.argmin(distances, axis=0)
    return y

In [None]:
def trouver_centres(X, y):
    '''Trouve les centres à partir des clusters (indiqués par les labels).'''
    centres = []
    for label in np.unique(y):
        centre = np.mean(X[y==label], axis=0)
        centres.append(centre)
    return np.array(centres)

In [None]:
def partitionner(X, n_clusters):
    '''Partitionne les données par l'algorithme des k-moyennes.'''
    centres = initialiser_centres(X, n_clusters)
    y = trouver_clusters(X, centres)
    y_prev = None
    while not np.all(y == y_prev):
        y_prev = y.copy()
        centres = trouver_centres(X, y)
        y = trouver_clusters(X, centres)
    return y

In [None]:
X, y = obtenir_iris()

In [None]:
centres = initialiser_centres(X, 3)

In [None]:
y = trouver_clusters(X, centres)

In [None]:
centres = trouver_centres(X, y)

In [None]:
y_pred = partitionner(X, 3)

In [None]:
montrer_iris(X, y_pred)

In [None]:
montrer_iris(X, y)

## Quelques idées à explorer

Sur l'algorithme des $k$-moyennes :
* Coder et tester un algorithme de partitionnement retournant la meilleure de $N$ instances indépendantes des $k$-moyennes (par exemple, $N=100$).
* Proposer, coder et tester un autre critère d'arrêt (par exemple, basé sur les positions des centres des clusters). <br> Quel en serait l'avantage ?
* Coder et tester l'algorithme des [k-moyennes++](https://fr.wikipedia.org/wiki/K-moyennes#Initialisation).

Pour Iris :
* Montrer le [diagramme de Voronoi](https://fr.wikipedia.org/wiki/Diagramme_de_Voronoï) associé aux centres des clusters (par exemple sur la forme du pétale, pour une fleur de dimensions de sépale médianes), pour différentes valeurs de $k$ (par exemple, 2, 3, 4, 5).

Pour les chiffres :
* Montrer 10 représentants de chaque cluster, pour différentes valeurs de $k$ (par exemple 4, 8, 10, 12).
* Montrer l'image du centre de chaque cluster, pour différentes valeurs de $k$.

Pour aller plus loin :
* Proposer et coder une méthode pour comparer les clusters trouvés aux vraies classes.
* Tester une forme d'[apprentissage actif](https://fr.wikipedia.org/wiki/Apprentissage_actif) consistant à ne révéler les classes que des échantillons les plus proches des centres des clusters (par exemple, 5\% des échantillons) et à classifier les autres échantillons par un algorithme des plus proches voisins.