# Exercice Clustering

Dans cet exercice, nous allons utiliser l'algorithme K-means pour classer les fleurs du dataset Iris.  Nous avons deja utilisé ce dataset lorsque nous avons etudié la classification (dans le cadre de l'apprentissage supervisé).

On commence par importer le dataset et en étudier la description. 

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris.DESCR)


Ce dataset possède des features et une colonne target, qui indique l'espère de l'iris correspondant. Nous affichons ci-dessous le nom des features et le nom des targets (même si la colonne target ne sera pas utilisée pour la construction des clusters).


In [None]:
print(iris.feature_names)
print(iris.target_names)

On crée un nouveau DataFrame comprenant les données iris et on ajoute une colonne 'species' qui indique l'espèce d'Iris. Cette colonne ne sera utilisée que pour comprendre les résultats obtenus mais en aucun cas pour construire le modèle puisqu'on est dans de l'apprentissage non supervisé.

In [None]:
import pandas as pnd
iris_df = pnd.DataFrame(iris.data, columns=iris.feature_names)
iris_df['target'] = iris.target
iris_df.info()

In [None]:
iris_df.head()

Comme le tableau inclut plusieurs *features*, nous pouvons les visualiser par paires avec matplotlib. Ici dans l'exemple, on voit les colonnes "petal length" et "sepal width".

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=[10,10])

plt.scatter(iris_df['sepal length (cm)'], iris_df['sepal width (cm)'], c=iris_df['target'])


Cependant, il y a beaucoup de combinaisons possibles. On peut afficher toute la matrice de combinaisons avec `scatter_matrix`

In [None]:
pnd.plotting.scatter_matrix(iris_df, figsize=(10,10), c=iris.target)
plt.plot()

Une autre librairie fournit un affichage un peu différent :

In [None]:
import seaborn as sns
grid = sns.pairplot(data=iris_df, vars=iris_df.columns[0:4],
     hue='target')

## Création du modèle

Maintenant qu'on a le DataFrame avec les données, on peut créer notre modèle K-Means. 

On choisit le nombre de clusters égal à 3 et on calcule le modèle sur le dataframe auquel on a supprimé la colonne target car elle n'est pas utilisée lors de l'apprentissage non supervisé.

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3, random_state=11)
kmeans.fit( iris_df.drop(['target'], axis='columns') )

In [None]:
print(kmeans.labels_)

On peut observer que certains "0" et "2" sont melangés (alors que les fleurs sont ordonnées par espèce). 

Affichons les espèces qui étaient indiquées par la colonne 'target' :

In [None]:
print(iris.target)

On peut également comparer visuellement les labels obtenus par k-means et les valeurs de 'target'.

Nous affichons d'abord les points colorés selon des labels identifiés par le modèle :

In [None]:
plt.scatter(iris_df['petal length (cm)'], iris_df['sepal width (cm)'], c=kmeans.labels_)
plt.show()

Pour comparer, nous affichons maintenant les couleurs correspondant aux labels originaux (non fournis lors de l'entraînement) :

In [None]:
plt.scatter(iris_df['petal length (cm)'], iris_df['sepal width (cm)'], c=iris_df['target'])
plt.show()

In [None]:
#librairie pour évaluation des partitions
from sklearn import metrics
import numpy as np

#utilisation de la métrique "silhouette"
#faire varier le nombre de clusters de 2 à 10
res = np.arange(9,dtype="double")
for k in np.arange(9):
    km = KMeans(n_clusters=k+2)
    km.fit( iris_df.drop(['target'], axis='columns') )
    res[k] = metrics.silhouette_score(iris_df.drop(['target'], axis='columns'),km.labels_)
print(res)

#graphique
import matplotlib.pyplot as plt
plt.title("Silhouette")
plt.xlabel("# of clusters")
plt.plot(np.arange(2,11,1),res)
plt.show()