**420-A58-SF - Algorithmes d'apprentissage non supervisé - Hiver 2023 - Spécialisation technique en Intelligence Artificielle**<br/>
MIT License - Copyright (c) 2023 Mikaël Swawola
<br/>
![Travaux Pratiques - partitionnement-k-moyennes (implementation)](static/01-02-A1-banner.png)
<br/>
**Objectif:** cette séance de travaux pratiques a pour objectif l'implémentation sous forme de code Python de l'**algorithme des K-moyennes** et de sa mise en œuvre

In [None]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

## 1 - Lecture des données

**Exercice 1 - À l'aide de la librairie Pandas, lire le fichier de données `blobs.csv`**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
import pandas as pd
blobs = pd.read_csv('../../data/blobs.csv')

## 2 - Visualisation des données

**Exercice 2 - En utilisant un type de graphique approprié, visualiser les données. Combien de clusters semblent présents ?**

In [None]:
# Compléter cette cellule ~ de 2 à 7 lignes de code

In [None]:
blobs.info()

In [None]:
import seaborn as sns; sns.set()
import matplotlib.pyplot as plt
# Configuration de la visualisation
sns.set(style="darkgrid")
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})
plt.rcParams['figure.figsize']=(12,8)

In [None]:
_ = sns.scatterplot(x="x0", y="x1", data=blobs)
plt.xlabel('x0')
plt.ylabel('x1')

## 3 - Implémentation de l'algorithme des K-moyennes

**Exercice 3-1 - Initialiser la variable K, représentant le nombre de clusters estimé à partir de la visualisation précédente**

In [None]:
# Compléter cette cellule ~ 1 ligne de code

In [None]:
K = 3

**Exercice 3-2 - Mettre les données à l'échelle. Visualiser de nouveau les données**

In [None]:
# Compléter cette cellule ~ 3 lignes de code

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(blobs)

In [None]:
ax = sns.scatterplot(x=X[:,0], y=X[:,1])
plt.xlabel('x0')
plt.ylabel('x1')

**Exercice 3-3 - Initialiser les K centroïdes. Pour ce, vous pouvez choisir aléatoirement K observations.** 

In [None]:
# Compléter cette cellule ~ de 2 à 4 lignes de code

In [None]:
import numpy as np
np.random.seed(2023)
random_observations = np.random.choice(X.shape[0], size=K, replace=False)
centroids = X[random_observations]
centroids

**Exercice 3-4 - Sur la visualisation, afficher la position des K centroïdes initiaux**

In [None]:
# Compléter cette cellule ~ de 2 à 4 lignes de code

In [None]:
ax = sns.scatterplot(x=X[:,0], y=X[:,1])
plt.scatter(centroids[:,0], centroids[:,1], c='r', marker='x', s=120)
plt.xlabel('x0')
plt.ylabel('x1')

**Exercice 3-5 - Afin de faciliter l'implémentation ultérieure de l'algorithme des K-moyennes, calculer la distance euclidienne (L2) entre le point A (-1,-1) et chacun des K centroïdes. Trouver ensuite l'index du centroïde le plus proche**

In [None]:
# Compléter cette cellule ~ 4 lignes de code

In [None]:
A = np.array([-1,-1])
# Remarque concernant le calcul des distances
print(f'A = \n{A}')
print(f'centroids = \n{centroids}')
print(f'A-centroids = \n{centroids-A}')

In [None]:
L2 = np.sqrt(np.sum((centroids-A)**2, axis=1))
plus_proche = np.argmin(L2)

print(f'Centroïde le plus proche: {plus_proche} - {centroids[plus_proche,:]} ({np.min(L2)})')

**Exercice 3-6 - Implémenter l'algorithme des K-moyennes tel que vu en cours. Pour appel, le *pseudo code* de l'algorithme est le suivant:**
* Choix de K (fait plus haut, exercice 3-1)
* Standardisation des données (fait plus haut, exercice 3-2)
* Initialisation des K centroïdes (fait plus haut, exercice 3-3)
* Pour n_iterations: **(partie à coder !)**
    * Assignation des observations à un cluster (centroïde le plus "proche"). La distance euclidienne sera utilisée ici (exercice 3-5)
    * Déplacement des centroïdes (moyenne des observations associées à un cluster)

<details>
<summary>
    <font size="3" color="darkgreen"><b>Cliquer ici pour obtenir un indice</b></font>
</summary>
<p>
Vous devrez créer un tableau représentant le cluster associé à chaque observation
</p>

In [None]:
# Compléter cette cellule ~ de 10 à 20 lignes de code

In [None]:
max_iter = 10
c = np.zeros(shape=(X.shape[0], 1))

for i in range(1, max_iter):
    
    # Assignation à un cluster
    for j, x in enumerate(X):
        L2 = np.sqrt(np.sum((centroids-x)**2, axis=1))
        c[j] = np.argmin(L2)
    
    # Calcul des K moyennes
    for k in range(0, K):
        mask = (c == k).flatten()
        kmean = X[mask, :].mean(axis=0)
        centroids[k,:] = kmean   

**Exercice 3-7 - Afficher la position des clusters. Visualiser également les observations et leur association à un des K clusters**

<details>
<summary>
    <font size="3" color="darkgreen"><b>Cliquer ici pour obtenir un indice</b></font>
</summary>
<p>
Utiliser `hue`
</p>

In [None]:
# Compléter cette cellule ~ de 2 à 4 lignes de code

In [None]:
ax = sns.scatterplot(x=X[:,0], y=X[:,1], hue=c[:,0], palette="Paired")
plt.scatter(centroids[:,0], centroids[:,1], c='r', marker='x', s=120)
plt.xlabel('x0')
plt.ylabel('x1')

**Exercice 3-8 - Calculer la distorsion**

In [None]:
# Compléter cette cellule ~ 2 lignes de code

In [None]:
mu_c = centroids[c.ravel().astype(int),:]

In [None]:
distances = np.sum(np.sqrt(np.sum((X - mu_c)**2, axis=1)))
distorsion = np.sum(distances) / X.shape[0]
distorsion

## 4 - Intégration de l'algorithme dans une fonction

**Exercice 4 - Intégrer l'ensemble de l'algorithme des K-moyennes, incluant l'initalisation aléatoire des K centroïdes `n_init` fois, dans une fonction**
<br/>
* Cette fonction prend en argument les données, le nombre de clusters, le nombre d'itérations de l'algorithme et le nombre d'initialisations aléatoires des K centroïdes
* Les valeurs retournées sont la distorsion et les centroïdes

In [None]:
# Compléter cette cellule

In [None]:
def kmeans(data, K, max_iter=10, n_init=10):
    
    best = None
    distorsion = 1e15
    for n in range(1, n_init):
        # Intialisation des centroides
        sel = np.random.choice(data.shape[0], size=K, replace=False)
        centroids = data[sel]

        c = np.zeros(shape=(data.shape[0], 1))

        for i in range(1, max_iter):
            # Cluster assignement
            for j, x in enumerate(data):                
                L2 = np.sqrt(np.sum((centroids-x)**2, axis=1))
                c[j] = np.argmin(L2)

            # Move centroid
            for k in range(0, K):
                mask = (c == k).ravel()
                kmean = X[mask, :].mean(axis=0)
                centroids[k,:] = kmean 
            
            # Distorsion
            mu_c = centroids[c.ravel().astype(int),:]
            d = np.sum(np.sqrt(np.sum((data - mu_c)**2, axis=1))) / data.shape[0]
            if d < distorsion:
                best = centroids
                distorsion = d
    
    return distorsion, best        

In [None]:
best_disto, best_centroids = kmeans(X, K=3)

In [None]:
print(f'Distorsion:\n{best_disto}\nCentroïdes:\n{best_centroids}')

In [None]:
ax = sns.scatterplot(x=X[:,0], y=X[:,1], hue=c[:,0], palette="Paired")
plt.scatter(best_centroids[:,0], best_centroids[:,1], c='r', marker='x', s=120)
plt.xlabel('x0')
plt.ylabel('x1')

## 5 - Nombre optimal de centroïdes

**Exercice 5 - Faire varier le nombre de centroïdes K de 2 à 10 et vérifier sa valeur optimale à l'aide de la technique du "coude"**

In [None]:
# Compléter la cellule ~ 4-5 lignes de code

In [None]:
J = []
for k in range(2,10+1):
    j, _ = kmeans(X, K=k)
    J.append(j)

In [None]:
plt.plot(range(2,10+1), J)
plt.xlabel('K')
plt.ylabel('Distorsion')

## 6 - Exercices optionnels

**Exercice 6-1 - Ajouter un critère de convergence**

In [None]:
# Compléter la cellule

**Exercice 6-2 - Suppression des clusters vides**

In [None]:
# Compléter la cellule

**Fin de l'atelier 01-02-A1**