# Clustering

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances_argmin
from sklearn.datasets import load_sample_image, load_digits
from sklearn.utils import shuffle
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
%matplotlib inline

## Réduction de la profondeurs de bits d'une image

Le but de cette application est de réduire le nombre de couleurs d'une image sans affecter sa qualité perçue.

On suggère les étapes suivantes :
* Convertir l'image `flower` vers un type plus adapté (`unsigned int8` vers ????)
* Utiliser l'algorithme K-means pour obtenir des clusters de couleurs à partir d'un échantillon aléatoire limité (1000 échantillons fera l'affaire).
* En déduire une méthode de compression de l'image. Comparer à une méthode de sélection aléatoire.
* Comparer au résultat obtenus avec une méthode aléatoire et K-means sur toute l'image.
* Créer une image des erreurs. Conclure.
* Pour jouer, appliquer ce processus à une image de votre choix.

On rappelle que le K-Means induit des centroides.

In [None]:
n_colors = 64
# Load flower image
flower = load_sample_image("flower.jpg")
print(f"Image Data Type : {flower.dtype}")
w, h, d = flower.shape
print(f"Image Shape : {flower.shape}")

image_array = np.reshape(flower, (w * h, d))
colors = np.unique(image_array,axis=0)
n_colors= colors.shape[0]

# Display the original image, with the number of colors found inside
plt.figure()
plt.axis("off")
plt.title(f"Original image ({n_colors} colors)")
plt.imshow(flower)
plt.show()

########### COMPLETEME K-Means
image_array_kmeans = image_array
colors = np.unique(image_array,axis=0)
n_colors_kmeans= colors.shape[0]
plt.figure()
plt.axis("off")
plt.title(f"Converted image ({n_colors_kmeans} colors) w/ K-Means " )
plt.imshow(flower)
plt.show()
########### COMPLETEME Random
image_array_kmeans = image_array
colors = np.unique(image_array,axis=0)
n_colors_kmeans= colors.shape[0]
plt.figure()
plt.axis("off")
plt.title(f"Converted image ({n_colors_kmeans} colors) w/ K-Means " )
plt.imshow(flower)
plt.show()

## Interprétation géométrique de l'ACP

In [None]:
rng = np.random.RandomState(1337)
X = np.dot(rng.rand(2, 2), rng.randn(2, 200)).T
plt.scatter(X[:, 0], X[:, 1])
plt.axis('equal')
plt.grid()

* A partir des données ci-dessus, appliquer l'ACP disponible dans le module scikit-learn sur les données `X`. 
* Montrer que les axes (components) sont orthogonaux et forment une base orthonormée. (Il suffit de montrer qu'ils sont orthogonaux et de norme 1)
*Indication :* Numpy possède une fonction pour calculer la norme.
* Visualiser le résultat de l'ACP en considérant les axes comme direction et la variance expliquée (explained_variance) comme norme du vecteur.
* Même chose sur les données `X` transformée par l'ACP, que l'on nommera `X_transform`
* Interpréter la visualisation.

In [None]:
pca = None

In [None]:
# COMPLETE ME - Vérifier que la base est orthonormée
vectors = pca.components_
# Insert calculation here

In [None]:
# COMPLETE ME - Visualiser les vecteurs
def draw_vector(v0, v1, ax=None):
    ax = ax or plt.gca()
    arrowprops=dict(arrowstyle='->',
                    linewidth=2,
                    shrinkA=0, shrinkB=0)
    ax.annotate('', v1, v0, arrowprops=arrowprops)

# On pourra utiliser la fonction draw_vector
plt.scatter(X[:, 0], X[:, 1], alpha=0.5)
for length, vector in zip(pca.explained_variance_, pca.components_):
    continue # COMPLETEME
plt.axis('equal');

In [None]:
# COMPLETE ME - Visualiser les vecteurs transformés
X_transform = None
plt.scatter(X_transform[:, 0], X_transform[:, 1], alpha=0.2)
draw_vector([0, 0], [0, 1], ax=plt)
draw_vector([0, 0], [1, 0], ax=plt)
plt.axis('equal')
plt.grid()

Votre interprétation ICI (double cliquez moi pour écrire !)

## Filtrage par ACP

### Introduction - Visualisation

On veut dans un premier temps faire une visualisation du dataset en deux dimensions.

In [None]:
# COMPLETEME - Visualisation avec ACP

digits = load_digits()
print(f"Taille du dataset : {digits.data.shape}")
projected = None
plt.scatter(projected[:, 0], projected[:, 1],
            c=digits.target, edgecolor='none', alpha=0.5,
            cmap=plt.cm.get_cmap('spectral', 10))
plt.xlabel('component 1')
plt.ylabel('component 2')
plt.colorbar();


### Réduction de l'espace de recherche avec ACP

Le but de cet exercice est de réduire l'espace de recherche de la dimension 64 à la dimension 8.
* Réduire la dimension de l'espace des données à l'aide de l'ACP
* Visualiser une image et ces composantes après ACP. Conclusion ?

*Indication :* une image peut être représentée comme $image(x)=moyenne + x_1⋅(base_1)+x_2⋅(base_2)+x_3⋅(base_3)\cdots$

In [None]:
COMPLETEME

On a choisi de manière assez arbitraire 8 composantes. On considère qu'un bon seuil est 90% de la variance expliquée.
* Montrer le graphe de la somme cumulée de la variance expliquée en fonction du nombre de composantes.
* Trouver le nombre "optimal" de composantes tels que la variance expliquée soit juste au dessus de 90%.

### Filtrage avec ACP

L'ACP peut également être utilisée comme approche de filtrage pour les données bruitées.

L'idée est la suivante : toutes les composantes dont la variance est beaucoup plus grande que l'effet du bruit devraient être relativement peu affectées par ce dernier.

Par conséquent, si vous reconstruisez les données en utilisant uniquement un sous-ensemble de composantes principales, vous devriez conserver le signal d'intérêt et rejeter le bruit.

In [None]:
def plot_digits(data):
    fig, axes = plt.subplots(4, 10, figsize=(10, 4),
                             subplot_kw={'xticks':[], 'yticks':[]},
                             gridspec_kw=dict(hspace=0.1, wspace=0.1))
    for i, ax in enumerate(axes.flat):
        ax.imshow(data[i].reshape(8, 8),
                  cmap='binary', interpolation='nearest',
                  clim=(0, 16))
plot_digits(digits.data)


np.random.seed(42)
noisy = np.random.normal(digits.data, 4)
plot_digits(noisy)

denoised = COMPLETEME
plot_digits(denoised)

## PCA et ISOMAP

Le but de cet exercice est de comparer la géométrie des sous-espaces induits ainsi que leur capacité de regroupement.

En d'autres termes :
* Appliquer l'ACP sur un jeu de données d'entrainement
* Appliquer ISOMAP sur le même jeu
* Appliquer un algorithme de clustering sur les données d'entrainement
* Visualiser les ensembles d'entrainement et de validation
* Comparer la qualité du clustering avec une métrique adaptée.

In [None]:
# Load Digits dataset
X, y = load_digits(return_X_y=True)

# Split into train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.5
)