# Structure hiérarchique

Ce notebook présente des techniques d'analyse de la structure hiérarchique de données par un algorithme agglomératif.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, cut_tree, linkage

In [None]:
from sklearn.datasets import load_iris, load_digits

## Données

### Iris

In [None]:
iris = load_iris()

In [None]:
def obtenir_iris():
    '''Jeu de donnees Iris.'''    
    X = iris.data
    y = iris.target
    return X, y

In [None]:
def montrer_iris(X, y, dimensions=[0,1]):
    '''Montre les données Iris selon les dimensions choisies.'''        
    plt.figure(figsize=(4,4))
    for label in np.unique(y):
        plt.scatter(X[y==label, dimensions[0]], X[y==label, dimensions[1]], label=iris.target_names[label])
    plt.xlabel(iris.feature_names[dimensions[0]])
    plt.ylabel(iris.feature_names[dimensions[1]])
    plt.legend()
    plt.show()

### Chiffres

In [None]:
digits = load_digits()

In [None]:
def obtenir_chiffres():
    '''Jeu de donnees Digits.'''    
    X = digits.data
    y = digits.target
    return X, y

In [None]:
def montrer_chiffres(X, y, limit_max=10):
    '''Montre des chiffres.'''
    labels, nombres = np.unique(y, return_counts=True)
    nombre_max = min(np.max(nombres), limit_max)
    img = np.zeros((100, nombre_max*10))
    for i in range(10):
        index_label = np.where(y == i)[0][:limit_max]
        for j, echantillon in enumerate(index_label):
            img[i*10+1:i*10+9,j*10+1:j*10+9] = X[echantillon].reshape((8, 8))
    plt.imshow(img, cmap='binary')
    plt.xticks([])
    plt.yticks(5 + 10*np.arange(10), np.arange(10))

## Regroupement hiérarchique

In [None]:
X, y = obtenir_iris()

In [None]:
# dendrogram
Z = linkage(X, method='ward')

In [None]:
Z.shape

In [None]:
plt.figure(figsize = (10, 5))
dendrogram(Z, no_labels=True)
plt.show()

## Coupes d'un dendrogramme

In [None]:
def trouver_coupe(Z, n_clusters):
    '''Partitionne les données en clusters par une coupe du dendrogramme.'''
    y_pred = cut_tree(Z, [n_clusters]).ravel()
    return y_pred

In [None]:
y_pred = trouver_coupe(Z, 3)

In [None]:
montrer_iris(X, y_pred)

In [None]:
montrer_iris(X, y)

## Quelques idées à explorer

Pour un jeu de données de votre choix :
* Tester les autres méthodes de regroupement (voir la documentation de ``linkage``).
* Donner la suite des centres des clusters obtenus par un parcours du dendrogramme depuis une feuille de l'arbre.

Pour Iris :
* Montrer la suite des cellules de Voronoi d'un échantillon donné (par exemple sur la forme du pétale, pour une fleur de dimensions de sépale médianes), en parcourant l'arbre de la feuille associée à la racine.

Pour les chiffres :
* Montrer la suite des images associées aux centres des clusters obtenus par un parcours du dendrogramme depuis une feuille de l'arbre.

Pour aller plus loin :

* Coder son propre algorithme de coupe d'un dendrogramme, puis donner le dendrogramme coupé, chaque feuille de ce dendrogramme correspondant à l'un des clusters trouvés.
* Proposer et tester une méthode donnant les $k$ meilleures coupes d'un dendrogramme (par exemple, celles correspondant aux plus grands écarts de hauteur).
* Coder et tester son propre algorithme agglomératif, d'abord avec une recherche exhaustive des plus proches voisins, plus par l'algorithme de la [chaîne des plus proches voisins](https://en.wikipedia.org/wiki/Nearest-neighbor_chain_algorithm). 
