# Classification non-supervisée (clustering) avec l'algorithme k-moyennes

Dans ce TP nous allons mettre en oeuvre le principe de classification non-supervisée (ou clustering) en utilisant l'algorithme des k-moyennes.

On rappelle la structure générale de l'algorithme des k-moyennes :

```
1. Initialisation aléatoire des k centroïdes de clusters
2. Faire
    2.1 Affecter chaque individu au centroïde le plus proche
    2.2 Mettre à jour les centroïdes (moyenne des individus du cluster)
   Tant que les centroïdes sont modifiés
```

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

ArgumentError: ArgumentError: Package numpy not found in current path.
- Run `import Pkg; Pkg.add("numpy")` to install the numpy package.

## A. Implémentation de l'algorithme des k-moyennes

Dans la suite on considère un tableau numpy `X` contenant les descriptions (dans $\mathbb{R}^n$) d'un ensemble d'individus, et `k` un nombre de cluster souhaité.

Écrire la définition des fonctions suivantes le plus efficacement possible.

In [1]:
df = pd.read_csv('../data/ONISR-2021.csv') 

Base.Meta.ParseError: ParseError:
# Error @ /user/3/.base/bindaivm/home/Documents/PROJET_MATHS/equipe_19/clustering/jl_notebook_cell_df34fa98e69747e1a8f8a730347b8e2f_W5sZmlsZQ==.jl:1:19
df = pd.read_csv('../data/ONISR-2021.csv') 
#                 └────────────────────┘ ── character literal contains multiple characters

In [None]:
# Initialisation aléatoire des k centroïdes de clusters
def initialisation(X, k):
    '''initialise les k centroïdes initiaux par tirage aléatoire de k individus de X
    Args:
        X (np.array) : tableau des descriptions des individus
        k (int) : nombre de clusters
    Returns:
        (np.array) : tableau des k centroïdes initiaux
    '''
    

In [None]:
# Affecter chaque individu au centroïde le plus proche
def affectation(X, centroides):
    '''affecte chaque individu au centroïde le plus proche en utilisant la distance Euclidienne
    Args:
        X (np.array) : tableau des descriptions des individus
        centroides (np.array) : tableau des centroïdes
    Returns:
        (np.array) : tableau des affectations (indices des clusters)
    '''
    ...

In [None]:
# Affectation de chaque individu au centroïde le plus proches : variante exploitant le broadcasting
def affectation(X, centroides):
    '''affecte chaque individu au centroïde le plus proche en utilisant la distance Euclidienne
    Args:
        X (np.array) : tableau des descriptions des individus
        centroides (np.arrrau) : tableau des centroïdes
    Returns:
        (np.array) : tableau des affectations (indices des clusters)
    '''
    ...

In [None]:
# Mise à jour les centroïdes (moyenne des individus du cluster)
def nouveaux_centroides(X, affectations, k):
    '''affecte chaque individu au centroïde le plus proche en utilisant la distance Euclidienne
    Args:
        X (np.array) : tableau des descriptions des individus
        affectations (np.arrray) : tableau des affectations (indices des clusters)
        k (int) : nombre de clusters
    Returns:
        (np.array) : tableau des k centroïdes initiaux
    '''
    ...

In [None]:
# algorithme des k-moyennes
def k_means(X, k, max_iter=100, tol=1e-6):
    '''algorithme des k-moyennes
    Args:
        X (np.array) : tableau des descriptions des individus
        k (int) : nombre de clusters
        max_iter (int) : nombre maximal d'itérations
        tol (float) : tolérance pour la convergence
    Returns:
        centroides (np.array) : tableau des k centroïdes finaux
        affectations (np.array) : tableau des affectations finales (indices des clusters)
    '''
    ...

# B. Utilisation de l'algorithme des k-moyennes sur un jeu de données

Récupérer le jeu de données `iris` et en extraire un tableau de données décrivrant 150 fleurs d'Iris (de trois espèces différentes) selon quatre descripteurs numériques d'apparence.

In [None]:
df = ...
X = ...

Exécuter l'algorithme des k-moyennes afin de partitionner l'ensemble des Iris en trois clusters (`k=3`). Visualisez les clusters à l'aide de projections sur chaque paire de dimension.

In [None]:
# Convertir X en DataFrame pour utiliser seaborn
X_df = pd.DataFrame(X)
X_df['cluster'] = k_means(X, 3)[1]

# Tracer la matrice de scatter plots
sns.pairplot(X_df, hue='cluster', palette='viridis')
plt.show()

Dans la suite de cette section nous allons étudier la convergence de l'algorithme en observant l'évolution de la fonction d'erreur (critère des moindres carrés).

In [None]:
# calcul du critère des moindres carrés
def moindres_carres(X, centroides, affectations):
    '''calcule le critère des moindres carrés (somme quadratique des distances de chaque individus avec son centroïde de cluster)
    Args:
        X (np.array) : tableau des descriptions des individus
        affectations (np.arrray) : tableau des affectations (indices des clusters)
        centroides (np.arrrau) : tableau des centroïdes
    Returns:
        (np.array) : critère des moindres carrés
    '''
    ...

In [None]:
# algorithme des k-moyennes avec calcul du critère des moindres carrés
def k_means(X, k, max_iter=100, tol=1e-6):
    '''algorithme des k-moyennes
    Args:
        X (np.array) : tableau des descriptions des individus
        k (int) : nombre de clusters
        max_iter (int) : nombre maximal d'itérations
        tol (float) : tolérance pour la convergence
    Returns:
        centroides (np.array) : tableau des k centroïdes finaux
        affectations (np.array) : tableau des affectations finales (indices des clusters)
    '''
    critere = []
    ...

In [None]:
error = k_means(X, 3)[2]

# Tracer la courbe de convergence
plt.plot(range(len(error)), error, marker='o', linestyle='-')

# Ajouter des labels et un titre
plt.xlabel('Itération')
plt.ylabel('Erreur')
plt.title('Optimisation du critère des moindres carrés par l\'algorithme des k-moyennes')

# Afficher le graphique
plt.show()

# C. L'algorithme des k-moyennes avec scikit-learn

Utilisez l'implémentation du [KMeans](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) de Scikit-learn sur les données `iris`.

In [None]:
from sklearn.cluster import KMeans

# Créer un modèle KMeans
kmeans = ...

# Faire tourner le modèle
...

# Obtenir les labels des clusters
labels = ...

# Obtenir les centroïdes des clusters
centroids = ...

# Obtenir le critère des moindres carrés final
error = ...
print('Moindres carrés final :', error)

# Tracer les résultats
# Convertir X en DataFrame pour utiliser seaborn
X_df = pd.DataFrame(X)
X_df['cluster'] = labels

# Tracer la matrice de scatter plots
sns.pairplot(X_df, hue='cluster', palette='viridis')
plt.show()