# 1 - Implantation de l’algorithme


## 1.1 Rappels

L’algorithme K-means est un algorithme de clustering qui permet de partitionner automatiquement des données en sous-ensembles (clusters). L’objectif
est de regrouper les données similaires au sein de sous-ensembles homogènes et
de répartir les données différentes dans des sous-ensembles distincts.

Pour un nombre de clusters K donné et à partir d’un ensemble de centres
initiaux pour les K clusters, le principe consiste à itérer les deux opérations
suivantes :
- Affecter chaque donnée au cluster dont le centre est le plus proche (étape
d’affectation)
- Mettre à jour les centres des clusters en fonction des données présentes
dans chaque cluster (étape de mise à jour des centres)

Il existe plusieurs façons de calculer les centres (ou représentants) des clusters et la proximité des données. Le plus souvent, le centre est défini comme la
moyenne des données du cluster et la distance considérée est la distance euclidienne. Nous allons procéder de cette façon dans le TP.

Le nombre de clusters K est fixé a priori et l’initialisation des centres des clusters se fait de façon aléatoire, ce qui a pour conséquence de rendre l’algorithme
non déterministe. L’initialisation a un impact important sur le partitionnement
des données obtenu.

## 1.2 Ecriture de l’algorithme

La bibliothèque NumPy sera utilisée pour manipuler les vecteurs et procéder
à des calculs vectoriels simples (addition, soustraction et multiplication).

Pour implanter l’algorithme en Python et le rendre facilement réutilisable,
nous allons nous inspirer de la bibliothèque Scikit-Learn, dans laquelle tous les
algorithmes sont implantés en tant que classes d’objets.

Vous devez écrire le code d’une classe KMeans dans un fichier que vous pourrez appeler kmeans.py. Cette classe doit comprendre les quatre méthodes suivantes :

- la méthode spéciale __init__(self, dimension, max_iter, n_clusters)
qui crée l’objet partitionneur et lui fournit les paramètres suivants :
	- dimension : dimension d des vecteurs d’entrée (nombre de caractéristiques de chaque entrée)
	- max_iter : nombre maximal d’itérations de l’algorithme
	- n_clusters : nombre K de clusters

	La méthode doit aussi créer deux listes (vides) qui seront utilisées par
l’algorithme K-means pour stocker les centres des clusters et le résultat
de clustering. Ce résultat peut s’écrire sous la forme d’une liste d’entiers
correspondant aux numéros des clusters affectés aux différents vecteurs
d’entrée.

- la méthode fit(self, X) qui réalise le clustering des données d’entrée
X, définies sous la forme d’une liste de vecteurs NumPy de dimension
dimension. Cette méthode ne retourne pas de résultat, elle correspond
à l’algorithme K-means et réalise les étapes d’affectation des données aux
clusters et de mise à jour des centres des clusters.

	Remarques :
	- Le nombre de données correspond à la taille de la liste X.
	- Pour l’initialisation, il est courant de choisir les centres des clusters
parmi les données d’entrée (la liste qui stocke les centres sera de taille
n_clusters).
	- L’affectation des données aux clusters peut se faire en ajoutant dans
la liste correspondante le numéro du cluster le plus proche de chaque
donnée (la liste qui stocke les numéros de cluster sera de même taille
que X).

- la méthode predict(self, x) qui retourne (prédit) le numéro du cluster
le plus proche d’une donnée x, qui est un vecteur NumPy de dimension
dimension.

- la méthode get_data_clusters(self) qui retourne le résultat de clustering sous la forme d’une liste d’entiers contenant le numéro de cluster
affecté à chaque donnée de la liste X.

Pour bien comprendre comment les objets de cette classe peuvent être utilisés et faire une première validation de votre code, voici un exemple de session Python (à écrire dans un autre fichier, par exemple kmeans_test.py)
qui crée une instance de la classe KMeans et utilise les méthodes fit() et
get_data_clusters() pour réaliser le partitionnement des données et obtenir le résultat.

```python
import numpy as np
from kmeans import KMeans

# creation des donnees d’entree
# liste de 10 vecteurs de dimension 2 generes aleatoirement
X = [np.random.random(2) ∗ 10 for i in range(0,10)]

# creation du partitionneur
k_means = KMeans(dimension=2,max_iter=100,n_clusters=2)

# apprentissage −> realisation du partitionnement
k_means.fit(X)

# affichage des numeros de clusters affectes aux donnees
print(k_means.get_data_clusters())

```

In [None]:
import numpy as np

class KMeans:
    def __init__(self, dimension: int, max_iter: int, n_clusters: int):
        self.dimension = dimension
        self.max_iter = max_iter
        self.n_clusters = n_clusters
        # self.centroids

    def fit(self, data):
        self.centroids = data[np.random.choice(data.shape[0], self.n_clusters, replace=False)]
        print("self.centroids", self.centroids)

        for _ in range(self.max_iter):
            # TODO
            
             # 3. Assign each point to the closest centroid
            distances = np.linalg.norm(data[:, np.newaxis] - self.centroids, axis=2)
            print("data[:, np.newaxis].shape", data[:, np.newaxis].shape)
            print("data.shape", data.shape)
            print("self.centroids.shape", self.centroids.shape)

            labels = np.argmin(distances, axis=1)
        
            # 4. Recompute centroids based on the mean of the points in each cluster
            new_centroids = np.array([data[labels == i].mean(axis=0) for i in range(self.n_clusters)])
        
            # 5. If centroids don't change, break the loop
            if np.all(self.centroids == new_centroids):
                break

            self.centroids = new_centroids
    
        # return self.centroids, labels

    def predict(self, row):
        # Calculate the distance from each new point to all centroids
        distance = np.linalg.norm(row - self.centroids)
    

        # Get the index of the closest centroid for each new point
        labels = np.argmin(distance, axis=0)
    
        return labels

    def get_data_clusters(self):
        pass

data = np.array([[1, 2], [1, 3], [1, 4], [10, 10], [10, 11], [11, 10]])

kmeans = KMeans(dimension=2,max_iter=100,n_clusters=2)
kmeans.fit(data)
kmeans.predict([12, 12])

self.centroids [[ 1  3]
 [10 11]]
data[:, np.newaxis].shape (6, 1, 2)
data.shape (6, 2)
self.centroids.shape (2, 2)
data[:, np.newaxis].shape (6, 1, 2)
data.shape (6, 2)
self.centroids.shape (2, 2)


np.int64(0)

In [40]:
import numpy as np

# creation des donnees d’entree
# liste de 10 vecteurs de dimension 2 generes aleatoirement
X = [np.random.random(2) * 10 for i in range(0,10)]

# creation du partitionneur
k_means = KMeans(dimension=2,max_iter=100,n_clusters=2)

# apprentissage −> realisation du partitionnement
k_means.fit(X)

# affichage des numeros de clusters affectes aux donnees
print(k_means.get_data_clusters())

AttributeError: 'list' object has no attribute 'shape'