In [None]:
############### INTRODUCTION  ################################

In [None]:
K-Means est une technique de clustering très populaire. Le clustering K-means est une autre 
classe d'algorithmes d'apprentissage non supervisés utilisés pour découvrir les clusters de 
données dans un ensemble de données donné.

Dans cet article, nous allons implémenter l'algorithme de clustering K-Means à partir de zéro
en utilisant le module Numpy .

Les 5 étapes de l'algorithme de clustering K-means

Étape 1. Choisissez au hasard k points de données comme centroïdes initiaux
Étape 2. Trouvez la distance (distance euclidienne pour notre objectif) entre chaque point de
données de notre ensemble d'entraînement avec les k centroïdes.
Étape 3. Attribuez maintenant chaque point de données au centroïde le plus proche en fonction
de la distance trouvée.
Étape 4. Mettez à jour l'emplacement du centroïde en prenant la moyenne des points dans 
chaque groupe de clusters.
Étape 5. Répétez les étapes 2 à 4 jusqu'à ce que nos centroïdes ne changent pas.

Nous pouvons choisir la valeur optimale de K (Number of Clusters) en utilisant des méthodes 
comme la méthode The Elbow.


In [None]:
#Implémentation de l'algorithme de clustering K-Means

In [None]:
Implémentons maintenant les étapes ci-dessus dans le code. Importez le module numpy, puis 
parcourez le reste du code ici pour comprendre comment le clustering K-Means est implémenté 
dans le code.


In [None]:
#numpy: bibliotheque python qui comporte des fonctions permettant de manipuler des matrices  
ou tableaux.
#cdist: calcule la distance entre chaque paire des deux collections d'entrées. 
ca prend en paramettre: array:  qui est un tableau d'entrée ou objet ayant les éléménts pour 
calculer la distance entre chaque paire des deux collections d'entrées.

In [None]:
#Importer les modules requis
 
import numpy as np
from scipy.spatial.distance import cdist 
 
#Fonction pour implémenter les étapes données dans la section précédente
def kmeans(x,k, no_of_iterations):
    idx = np.random.choice(len(x), k, replace=False)
    #Choisir au  hasard des centroides
    centroids = x[idx, :] # étape 1
     
    #Trouver la distance entre les centres de gravité et tous les points de données
    distances = cdist(x, centroids ,'euclidean') # étape 2
     
    #Centroide avec la distance minimale
    points = np.array([np.argmin(i) for i in distances]) # étape 3
     
    #Répéter les étapes ci-dessus pour un nombre défini d'iterations
    # étape 4
    for _ in range(no_of_iterations): 
        centroids = []
        for idx in range(k):
             #Mise a jour des centroides en prenant la moyenne du cluster auquel il appartient 
             temp_cent = x[points==idx].mean(axis=0) 
             centroids.append(temp_cent)
 
        centroids = np.vstack(centroids) # Centre de gravité mis a jour 
         
        distances = cdist(x, centroids ,'euclidean')
        points = np.array([np.argmin(i) for i in distances])
         
    return points

In [None]:
La fonction ci-dessus renvoie un tableau d'étiquettes de cluster pour chaque point de données
de notre ensemble d'apprentissage.

Test des clusters K-Means

Nous utiliserons le jeu de données digits (intégré au module sklearn) pour tester notre 
fonction. Vous pouvez vous référer à cet article pour en savoir plus sur le traçage des 
clusters K-Means.

load_digits
PCA: analyse en composante principale.
matplotlib: est une bibliotheque de python destinée a tracer et visualiser des données
sous forme de graphiques.

In [None]:
# Chargement des modules requis
 
import numpy as np
from scipy.spatial.distance import cdist 
from sklearn.datasets import load_digits
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
 
#Definir notre fonction 
def kmeans(x,k, no_of_iterations):
    idx = np.random.choice(len(x), k, replace=False)
    # Choisir au hasard des Centroides 
    centroids = x[idx, :] # étape 1
     
    #Trouver la distance entre les centroides et tous les points de données
    distances = cdist(x, centroids ,'euclidean') # étape 2
     
    #Centroide avec la distance minimale
    points = np.array([np.argmin(i) for i in distances]) # étape 3
     
    #Répéter les étapes ci-dessus pour un nombre défini d'iterations
    # étape 4
    for _ in range(no_of_iterations): 
        centroids = []
        for idx in range(k):
            # Mise a jour des centroides en prenant la moyenne du cluster auquel il appartient
            temp_cent = x[points==idx].mean(axis=0) 
            centroids.append(temp_cent)
 
        centroids = np.vstack(centroids) #Centre  de gravité mise a jour 
         
        distances = cdist(x, centroids ,'euclidean')
        points = np.array([np.argmin(i) for i in distances])
         
    return points


# Charger des données
data = load_digits().data
pca = PCA(2)
  
#Transformer les données
df = pca.fit_transform(data)
 
#Appliquer notre fonction
label = kmeans(df,10,1000)
 
#Visualiser les résultats
 
u_labels = np.unique(label)
for i in u_labels:
    plt.scatter(df[label == i , 0] , df[label == i , 1] , label = i)
plt.legend()
plt.show()




In [None]:
## Tracer des grappes de K signifie

Les résultats de sortie semblent prometteurs. Nos travaux de mise en œuvre.



In [None]:
################### CONCLUSION ###################################

In [None]:
Dans cet article, nous avons créé un algorithme de clustering K-Means à partir de zéro en 
utilisant Python. Nous avons également couvert les étapes de création de l'algorithme K-Means
et enfin testé notre implémentation sur le jeu de données Digits. Vous pouvez lire les 
aspects théoriques de l'algorithme de clustering K-means sur la page Wikipedia ici
