In [1]:
#123 - Méthodes de Clustering (Python) 

In [None]:
#### Module 1 - Introduction -------------------------------------------------------------------------------------------------

La différence distinct entre l'apprentissage supervisé à l'apprentissage non-supervisé est le fait que l'apprentissage non-supervisé cherche à trouver des partitions de modèles par lui-même.

L'apprentissage non supervisé répond à différentes tâches :

* Clustering (segmentation, regroupement) 
* Règles d'association 
* Réduction de dimensions 

1 - Clustering 

Le partitionnement de données (data clustering en anglais) est une des méthodes d'analyse des données. Elle vise à diviser un ensemble de données en différents groupes homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité) que l'on définit en introduisant des mesures et classes de distance entre objets. 
 
L'objectif du clustering est de construire des classes automatiquement en fonction des instances (ou des observations) disponibles.

2 - Règles d'association

Dans le domaine du data mining la recherche des règles d'association est une méthode populaire étudiée d'une manière approfondie dont le but est de découvrir des relations ayant un intérêt pour le statisticien entre deux ou plusieurs variables stockées dans de très importantes bases de données. Cette approche consiste à analyser les relations entre les variables ou détecter des associations

3 - Réduction de dimensions

La taille des données peut être mesurée selon deux dimensions, le nombre de variables et le nombre d'exemples. 
La sélection de sous-ensemble de caractéristiques permet d'éliminer les informations non-pertinentes et redondantes selon le critère utilisé. Cette sélection/extraction permet donc de réduire la dimension de l'espace des exemples et de rendre l'ensemble des données plus représentatif du problème. 
En effet, les principaux objectifs de la réduction de dimension sont :

    *Faciliter la visualisation et la compréhension des données
    *Réduire l'espace de stockage nécessaire
    *Réduire le temps d'apprentissage et d'utilisation
    *Identifier les facteurs pertinents


In [None]:
#### Module 2 - Clustering : classification non supervisée - K-Means  ---------------------------------------------------------
# -----------------------------------------------------------------------------------------------------------------------------

# L'algorithme de K-means : est facile à mettre en œuvre, et applicable à tout type et toute taille de données. 
# Cependant, le nombre de classe doit être fixé a priori,
# et le résultat final est dépendant du tirage initial (aléatoire) des centres de classes.
# Cette méthode n'est pas efficace quand les clusters se croisent.

# A - Préparation et modélisation des données ---------------------------------------------------------------------------------

# 1 ------------------------------------------ import 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

# Lecture du fichier "ruspini.csv"
df = pd.read_csv("ruspini.csv", index_col = 'indices')

# Affichage des 5 premières lignes du dataset
df.head(5)

# 2 ------------------------------------------ Visualisation des données 
#Tracer le nuage des points ruspini et afficher le graphique

plt.figure ( figsize= (16,6))
plt.scatter ( df['x'],df['y'] )
plt.xlabel ('x')
plt.ylabel ('y')

plt.title('ruspini')

plt.show()

# 3 ------------------------------------------ Détection des valeurs aberrantes
#Tracer les deux diagrammes en boîte des deux variables explicatives : x et y

liste = [df['x'], df['y']]
plt.figure()
plt.title('Diagramme en boîte des deux variables explicatives')
plt.boxplot(liste, labels = ['x', 'y'])  # Diagramme en boîte (boxplot) de tous les variables explicatives
plt.show()




# B - Apprentissage des données -----------------------------------------------------------------------------------------------

# Le partitionnement en k-moyennes (ou k-means) est une méthode de clustering (regroupement de données) très utilisé 
# en apprentissage non supervisé. Étant donnés des points et un entier k, 
# l'algorithme vise à diviser les points en k groupes, appelés clusters, homogènes et compacts.

clf = KMeans(n_clusters = 2)  #classificateur clf qui utilise 2 centres et construit au final 2 clusters
clf.fit(df)  #exécute l'algorithme des k-moyennes sur le jeu de données data

# Centroids and labels
centroids = clf.cluster_centers_   # liste des positions des 2 centroïdes
labels = clf.labels_   # vecteur qui contient le numéro du groupe de chacune des données




# C - Visualisation des clusters ----------------------------------------------------------------------------------------------

#Visualisation des clusters et des centroïdes 

# Liste des couleurs
colors = ["g.","r."]

# Graphique du nuage de points attribués au cluster correspondant
for i in range(len(df)):
    plt.plot(df.iloc[i,0], df.iloc[i,1], colors[labels[i]], markersize = 10)#

# Graphique des centroïdes
#plt.scatter(centroids[:, 0],centroids[:, 1], marker = "o", color = "blue",s=30, linewidths = 1, zorder = 10)
plt.show()



# D - Méthode de coude ------------------------------------------------------------------------------------------------------

# permet d'obtenir le meilleur partitionnement des données
# Le choix du nombre de clusters k optimal est un arbitrage entre la compacité des clusters et leur séparation

# 1 ------------------------------------------ Initialisation d'un cluster + entraîner l'algorithme KMeans + Calcul distortion

# Importation de la fonction cdist du package scipy.spatial.distance
from scipy.spatial.distance import cdist

range_n_clusters = [2, 3, 4, 5, 6]   # Liste des nombre de clusters

distortions = []   # Initialisation de la liste de distortions

for n_clusters in range_n_clusters:    # Calcul des distortions pour les différents modèles
    
    cluster = KMeans(n_clusters = n_clusters)   # Initialisation d'un cluster ayant un pour nombre de clusters n_clusters
    
    cluster.fit(df)  # Apprentissage des données suivant le cluster construit ci-dessus
    
    # Ajout de la nouvelle distortion à la liste des données
    distortions.append(sum(np.min(cdist(df, cluster.cluster_centers_, 'euclidean'), axis=1)) / np.size(df, axis = 0))

    
# 2 ------------------------------------------ graphique des distortions en fonction du nombre de clusters
    
# Visualisation des distortions en fonction du nombre de clusters
plt.plot(range_n_clusters, distortions, 'gx-')
plt.xlabel('Nombre de Clusters K')
plt.ylabel('Distortion (WSS/TSS)')
plt.title('Méthode du coude affichant le nombre de clusters optimal')
plt.show()
    

#analyse :

#La courbe obtenue décroit fortement et change de trajectoire après k = 4. Ainsi, le nombre de clusters optimal est 4.

# 3 ------------------------------------------ reentrainer le cluster avec nbre cluster = 4*

clf = KMeans(n_clusters = 4)  #classificateur clf qui utilise 4 centres / clusters
clf.fit(df)  #exécute l'algorithme des k-moyennes sur le jeu de données data

# Centroids and labels
centroids = clf.cluster_centers_   # liste des positions des 2 centroïdes
labels = clf.labels_   # vecteur qui contient le numéro du groupe de chacune des données

# 4 ------------------------------------------ Visualisation des clusters et des centroïdes 

# Liste des coleurs
colors = ["g.","r.","c.","y."]

# Grphique du nuage de points attribués au cluster correspondant
for i in range(len(df)):
    plt.plot(df.iloc[i,0], df.iloc[i,1], colors[labels[i]], markersize = 10)

# Graphique des centroïdes
plt.scatter(centroids[:, 0],centroids[:, 1], marker = "o", color = "blue",s=30, linewidths = 1, zorder = 10)
plt.show()


In [None]:
#### Module 3 - Clustering : classification non supervisée - Classification ascendante hiérarchique ---------------------------
# -----------------------------------------------------------------------------------------------------------------------------

# La classification ascendante hiérarchique (CAH) a pour principal avantage de pouvoir visualiser le regroupement progressif 
# des données ainsi que l'augmentation de la dispersion dans un groupe produit par une agrégation, grâce au dendrogramme
# Cependant, la CAH nécessite le calcul des distances entre chaque pair d'individus, 
# et peut donc s'avérer très longue dès que le nombre d'individus est élevé (1000+).


# A - Préparation et modélisation des données ---------------------------------------------------------------------------------

# 1 ------------------------------------------ import 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering

# Lecture du fichier "anim.txt"
df = pd.read_csv("fromage.txt", sep = '\t', index_col=0)

# Affichage des 5 premières lignes du dataset
df.head()

# - 2 ------------------------------------------ Détection des valeurs aberrantes 

# Récupération des indices des colonnes 
ls_features = list(df.keys())   #df.keys() methode = df.columns attributs

# Diagramme en boîte (boxplot) de toutes les variables explicatives
plt.figure(figsize=(20, 10))
plt.title('Diagrammes en boîte correspondants aux variables explicatives')
plt.boxplot(df.values, 0, 'rD', labels = ls_features)
# ou df.boxplot(column=list(df.columns))

plt.show()

# df.values recupere les valeurs et les retourne sous forme de liste


#analyse : 
# variance observée dispersé ou concentré ou depend de la caractéristique observées
# variance est une mesure de la dispersion


# B - Apprentissage des données ----------------------------------------------------------------------------------------------

# - 1 ------------------------------------------ Classification ascendante hiérarchique
# méthode de partitionnement des données d'apprentissage non supervisé

# Initialisation du classificateur CAH pour 4 clusters
cluster = AgglomerativeClustering(n_clusters = 4)

# Apprentissage des données 
cluster.fit(df[ls_features])

# Calcul des labels du data set
labels = cluster.labels_


# - 2 ------------------------------------------ Dendrogramme

#Effectuer un regroupement hiérarchique

# Importation des packages nécessaires pour la CAH
from scipy.cluster.hierarchy import dendrogram, linkage

# Initialisaion de la figrue
plt.figure(figsize=(20, 10))

# Génération de la matrice des liens
Z = linkage(df, method = 'ward', metric = 'euclidean')

# Affichage du dendrogramme
plt.title("Dendrogramme CAH")
dendrogram(Z, labels = df.index, leaf_rotation = 90., color_threshold = 290) #regroupement hiérarchique en dendrogramme,
plt.show()


# - 3 ------------------------------------------ Evaluation du clustering

# coefficient de silhouette pour le partitionnement

from sklearn.metrics import silhouette_score   # Importation de la fonction silhouette_score du package sklearn.metrics

silhouette_score(df, labels, metric='sqeuclidean')   # Calcul du coefficient silhouette

range_n_clusters = [2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]   # Définition de la liste de n_clusters

s_scores = []  # Initialisation de la liste des coefficients de la silhouette score


# Calcul du coefficient de silhouette pour les différentes valeurs de n_clusters
for n_clusters in range_n_clusters :
    
    cluster = AgglomerativeClustering(n_clusters = n_clusters)   # Initialisation du classificateur CAH pour n_clusters

    cluster.fit(df[ls_features])    # Apprentissage des données 

    labels = cluster.labels_       # Calcul des labels du data set
    
    # Caclul du coefficient de silhouette
    s_score = silhouette_score(df, labels, metric='sqeuclidean')
    s_scores.append(s_score)


# Graphique du coefficient de silhouette en fonction du nombre de clusters
plt.plot(range_n_clusters, s_scores, 'bo-')
plt.title('Graphique du coefficient de silhouette en fonction du nombre de clusters')
plt.xlabel('Nombre de clusters')
plt.ylabel('Coefficient de silhouette')
plt.show()





In [None]:
#### Module 4 - Clustering : classification non supervisée - Mean Shift -------------------------------------------------------
# -----------------------------------------------------------------------------------------------------------------------------

# 

# A - Préparation et modélisation des données ---------------------------------------------------------------------------------

# 1 ------------------------------------------ import 
# Importation des packages nécessaires
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import MeanShift, estimate_bandwidth

# Lecture de l'image bird_small.png
img = plt.imread("bird_small.png")


# 2 ------------------------------------------ Calculer et afficher les dimensions de l'image img

# Calcul et affichage des dimensions de l'image img
dimensions = img.shape
print("dimensions de l'image bird_small.png : ", dimensions)


# 3 ------------------------------------------ Affichage de l'image bird_small.png
plt.figure()
plt.imshow(img)
plt.show()


# 4 ------------------------------------------ Redimensionner l'image img en une matrice de dimensions
X = img.reshape(img.shape[0]*img.shape[1], img.shape[2])



# B - Compression des images --------------------------------------------------------------------------------------------------

# 1 ------------------------------------------ Algorithme de Mean Shift 

# Le principe de la compression des images consiste à trouver le centroïde le plus proche à chaque pixel. 
# Pour cela, il est nécessaire d'implémenter une fonction permettant de renvoyer les indices du centroïde 
# le plus proche de chaque observation de X.

# Définition de get_clusters_centroids(X, quantile, n_samples)
def get_clusters_centroids(X, quantile, n_samples) :
    
    # Bande passante
    bandwidth = estimate_bandwidth(X, quantile = quantile, n_samples = n_samples)
    
    # Initilisation de l'objet Cluster
    cluster = MeanShift(bandwidth = bandwidth)
    
    # Apprentissage des données
    cluster.fit(X)
    
    return cluster.cluster_centers_, cluster.labels_   


# 2 ------------------------------------------ fonction findClosestCentroids 

# Définition de la fonction findClosestCentroids

def findClosestCentroids(X, centroids) :
    
    idx = []                                     # Initialisation du vecteur des indices
    
    ## "Décommentez" et complétez la ligne suivante
    
    #K =                                          # Calcul du nombre de clusters
    
    for i in range(0, np.size(X, axis=0)) :      # Parcourir tous les pixels de l'image
        
        norm_val = []                            # Initialisation du vecteur des distances du pixel i aux centroïdes 
        
        for j in range(0, K) :                   # Parcourir tous les centroïdes
            
            a = ((X[i] - centroids[j])**2).sum() 
            norm_val.append(a)                   # Stockage de la distance du pixel i au centroïde j

        ## "Décommentez" et complétez la ligne suivante            
        
        #I =                                      # Récupérer les indices du centroïde le plus proche au pixel i
        
        idx.append(I)                            # Ajout de des indices à la liste idx 
        
    return idx


# 3 ------------------------------------------ compression de l'image 

# Calcul des labels et des positions des centroïdes 
centroids, labels = get_clusters_centroids(X, 0.1, 300)

# Calcul des indices du centroïde le plus proche à chaque élément de X
idx = findClosestCentroids(X, centroids)

# compression de l'image 
X_recovered = centroids[idx]


# 4 ------------------------------------------ Afficher l'image originale et l'image reconstruite
# Redimensionnement de la matrice X
X_recovered = X_recovered.reshape(img.shape[0], img.shape[1], img.shape[2])

# Affichage de l'image originale et celle reconstruite
plt.figure()
plt.subplot(121)
plt.imshow(img)
plt.title('Image originale')
plt.subplot(122)
plt.imshow(X_recovered)
plt.title('Image reconstruite')
plt.show()


# 5 ------------------------------------------ calculer le taux de compression
# Importation des packages nécessaires
import imageio
import os

# Enregistrement de l'image reconstruite
imageio.imwrite('bird_small_recovered.png', X_recovered)

# Taille en octets de l'image originale
original_size = os.stat('bird_small.png').st_size

# Taille en octets de l'image reconstruite
recovered_size = os.stat('bird_small_recovered.png').st_size

# Caclul et affichage du ratio de compression
compression_rate = round(recovered_size/original_size*100,2)
print('Ratio de compression : ', compression_rate, '%')



# C - Amélioration de la qualité de compression -------------------------------------------------------------------------------

# 1 ------------------------------------------ Refaire la compression de l'image 'bird_small.png'

# Calcul des labels et des positions des centroïdes en utilisant quantile = 0.01
centroids2, labels2 = get_clusters_centroids(X, 0.01, 300)

# Calcul des indices du centroïde le plus proche à chaque élément de X
idx = findClosestCentroids(X, centroids2)

# compression de l'image 
X2_recovered = centroids2[idx]

# Redimensionnement de la matrice X
X2_recovered = X2_recovered.reshape(img.shape[0], img.shape[1], img.shape[2])

# Affichage de l'image originale et celle reconstruite
plt.figure(figsize = (8, 16))
plt.subplot(121)
plt.imshow(img)
plt.title('Image originale')
plt.subplot(122)
plt.imshow(X2_recovered)
plt.title('Image Reconstruite')
plt.show()


# 2 ------------------------------------------ Calculer le nouveau taux de compression   (execution longue)
# Enregistrement de l'image reconstruite
imageio.imwrite('bird_small_recovered_2.png', X2_recovered)

# Taille en octects de l'image reconstruite
recovered_2_size = os.stat('bird_small_recovered_2.png').st_size

# Caclul et affichage du ratio de compression
compression_rate_2 = round(recovered_2_size/original_size*100,2)
print('Ratio de compression : ', compression_rate_2, '%')


# 3 ------------------------------------------ Afficher l'image originale et l'image reconstruite
# Redimensionnement de la matrice X
X_recovered = X_recovered.reshape(img.shape[0], img.shape[1], img.shape[2])

# Affichage de l'image originale et celle reconstruite
plt.figure()
plt.subplot(121)
plt.imshow(img)
plt.title('Image originale')
plt.subplot(122)
plt.imshow(X_recovered)
plt.title('Image reconstruite')
plt.show()



# D - Ratio de compression, évaluation de l'algorithme ------------------------------------------------------------------------

# 1 ------------------------------------------ calculer le taux de compression

# Importation des packages nécessaires
import imageio
import os

# Enregistrement de l'image reconstruite
imageio.imwrite('bird_small_recovered.png', X_recovered)

# Taille en octets de l'image originale
original_size = os.stat('bird_small.png').st_size

# Taille en octets de l'image reconstruite
recovered_size = os.stat('bird_small_recovered.png').st_size

# Caclul et affichage du ratio de compression
compression_rate = round(recovered_size/original_size*100,2)
print('Ratio de compression : ', compression_rate, '%')



# E - Amélioration de la qualité de compression -------------------------------------------------------------------------------

# 1 ------------------------------------------ Refaire la compression de l'image 'bird_small.png' 
#en améliorant la qualité de compression

# Calcul des labels et des positions des centroïdes en utilisant quantile = 0.01
centroids2, labels2 = get_clusters_centroids(X, 0.01, 300)

# Calcul des indices du centroïde le plus proche à chaque élément de X
idx = findClosestCentroids(X, centroids2)

# compression de l'image 
X2_recovered = centroids2[idx]

# Redimensionnement de la matrice X
X2_recovered = X2_recovered.reshape(img.shape[0], img.shape[1], img.shape[2])

# Affichage de l'image originale et celle reconstruite
plt.figure(figsize = (8, 16))
plt.subplot(121)
plt.imshow(img)
plt.title('Image originale')
plt.subplot(122)
plt.imshow(X2_recovered)
plt.title('Image Reconstruite')
plt.show()


# 2 ------------------------------------------ Calculer le nouveau taux de compression

# Enregistrement de l'image reconstruite
imageio.imwrite('bird_small_recovered_2.png', X2_recovered)

# Taille en octects de l'image reconstruite
recovered_2_size = os.stat('bird_small_recovered_2.png').st_size

# Caclul et affichage du ratio de compression
compression_rate_2 = round(recovered_2_size/original_size*100,2)
print('Ratio de compression : ', compression_rate_2, '%')



Examen

Clustering avec scikit-learn¶

Les deux principales méthodes de classification non-supervisée, vues au cours de la formation, sont la classification ascendante hiérarchique (CAH) et les méthodes de centres mobiles (K-Means). Cependant elles présentent toutes deux certains avantages et inconvénients :


L'algorithme de K-means : est facile à mettre en œuvre, et applicable à tout type et toute taille de données. Cependant, le nombre de classe doit être fixé a priori, et le résultat final est dépendant du tirage initial (aléatoire) des centres de classes.


La classification ascendante hiérarchique (CAH) a pour principal avantage de pouvoir visualiser le regroupement progressif des données ainsi que l'augmentation de la dispersion dans un groupe produit par une agrégation, grâce au dendrogramme. Il n'est pas nécessaire de définir le nombre de classes à l'avance, et le dendrogramme permet de se faire une idée du nombre adéquat de classes dans lesquelles les données peuvent être regroupées. Cependant, la CAH nécessite le calcul des distances entre chaque pair d'individus, et peut donc s'avérer très longue dès que le nombre d'individus est élevé (1000+).


Une solution efficace pour bénéficier des avantages de ces deux méthodes en diminuant leurs inconvénients respectifs est le recours à la méthode de Classification Mixte.


Elle se compose de trois étapes :


Application de la méthode des K-Means pour obtenir rapidement un nombre assez élevé de classes homogènes. Une bonne pratique est de prendre un nombre de groupes = 1/10 du nombre d'individus.


Classification ascendante hiérarchique à partir des classes obtenues pour conserver le choix du nombre de classes grâce au dendrogramme.


Consolidation de la partition finale avec l'algorithme des K-Means à partir des barycentres des classes obtenus à l'étape précédente.


L'objectif du test est de mettre en application un algorithme de classification mixte à partir des packages et méthodes étudiées dans la formation.


Les données utilisées proviennent d'images de divers véhicules et contiennent des caractéristiques propres à leur silhouette. Le but de l'exercice est de réussir à classes les véhicules en plusieurs groupes, selon ces caractéristiques.


Importer les modules pandas, matplotlib.pyplot ainsi que les sous-modules KMeanset AgglomerativeClusteringde sklearn.cluster.

In [2]:
import numpy as np
import pandas as pd

from sklearn.cluster import AgglomerativeClustering
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, linkage

import matplotlib.pyplot as plt
%matplotlib inline 

Lire dans un data frame appelé sv_data, le fichier "vehicles_silhouette.csv".

In [None]:
sv_data = pd.read_csv("vehicles_silhouette.csv")


Afficher la description mathématique des différentes variables présentes dans les données

In [None]:
sv_data.info()
sv_data.describe()

Représenter visuellement et comparer la distribution des variables, à l'aide par exemple d'un boxplot.

In [None]:
plt.figure(figsize=(20, 10))
plt.title('distribution des variables')
plt.boxplot(sv_data.values, 0, 'rD', labels = list(sv_data.keys()))
plt.show()

Utiliser le sous-module MinMaxScaler de sklearn.preprocessing pour normaliser les données à l'aide de la transformation Min-Max.

In [None]:
from sklearn.preprocessing import MinMaxScaler

column=list(sv_data.columns)

column

scaler = MinMaxScaler ()
sv_data [column] = scaler.fit_transform(sv_data [column]   )

Grouper les données en reproduisant un algorithme de classification mixte , à l'aide des étapes suivantes :

    - Appliquer l'algorithme des K-Means pour regrouper les données en 50 clusters.
    - A partir des centres de gravité et labels obtenus pour chaque cluster, afficher un dendrogramme afin de choisir le nombre de clusters adéquat (>2).
    - Appliquer un algorithme de classification ascendante hiérarchique à partir des centres de gravité obtenus à l'étape 1 avec le nombre de clusters obtenu à l'étape 2.
    - Calculer les centres de gravité de chaque nouveau groupe.
    - Utiliser les centres de gravité calculés pour consolider ces clusters par l'algorithme des K-Means. (L'argument init de KMeans permet de préciser les centres de gravité à partir desquels l'algorithme démarre.)

In [None]:
#Appliquer l'algorithme des K-Means pour regrouper les données en 50 clusters.

K = 50

clf = KMeans(n_clusters = K )  
clf.fit(sv_data) 

centroids = clf.cluster_centers_  
labels = clf.labels_   



# A partir des centres de gravité et labels obtenus pour chaque cluster, 
# afficher un dendrogramme afin de choisir le nombre de clusters adéquat (>2).

plt.figure(figsize=(20, 10))

z = linkage ( centroids, method = "ward" , metric = "euclidean" )
lab = list ( set ( labels ) )


plt.title('CAH avec matérialisation des 4 classes')
dendrogram(z , labels = lab , leaf_rotation = 90., color_threshold = 0)
plt.show()




#Appliquer un algorithme de classification ascendante hiérarchique 
#à partir des centres de gravité obtenus à l'étape 1 avec le nombre de clusters obtenu à l'étape 2.


clf_ach = AgglomerativeClustering(n_clusters = 3) # instanciation
clf_ach.fit(centroids) # clustering
cah_labels = clf_ach.labels_


# Calculer les centres de gravité de chaque nouveau groupe.
sv_data["kmeans_labels"] = labels
sv_data["cah_labels"] = sv_data["kmeans_labels"].apply(lambda x : cah_labels[x])

cah_centroids = sv_data.drop("kmeans_labels", axis=1).groupby("cah_labels").mean()





# Utiliser les centres de gravité calculés pour consolider ces clusters par l'algorithme des K-Means. 
# (L'argument init de KMeans permet de préciser les centres de gravité à partir desquels l'algorithme démarre.)


kmeans_cah = KMeans(n_clusters=3, init=cah_centroids)
kmeans_cah.fit(sv_data[cah_centroids.columns])
sv_data["k_a_labels"] = kmeans_cah.labels_



Les classes des véhicules présents dans le data frame sont en réalité connus et présents dans le fichier classes_vehicles.csv. Les véhicules sont classés comme 'car', 'bus' ou 'van'.

Lire le fichier contenant les classes réelles des véhicules

À l'aide d'une matrice de confusion, expliquer votre choix de correspondance entre les classes obtenues par clustering et les classes de véhicules

In [None]:
classes = pd.read.csv("classes_vehicles.csv")

In [None]:
pd.crosstab(sv_data["k_a_labels"], classes.iloc[:,0])