# Clustering - Partitionnement de données - *Exercices Corrigés*
*PASS 2022-2023*

## Ressources

### Sites web

- [Matplotlib](https://matplotlib.org/)
- [Scikit learn](https://scikit-learn.org/stable/index.html)
- [NumPy](https://numpy.org/)

## Les points

### Exercice TD: Dimensions des jeux de données et des points

Pour les jeux de données $\mathcal(D)_k$ suivants, donner les valeurs de $N$ et $d$.

1. $\mathcal{D}_1=\{\{1., 3., 0.8\}, \{-2.3, 23.4, 6.7\}\}$
2. $\mathcal{D}_2=\{\{1., 3.\},\{ 0.8, -2.3\},\{ 23.4, 6.7\}\}$
3. $\mathcal{D}_3=\{\{1.\},\{ 3.\},\{ 0.8\}, \{-2.3\},\{ 23.4\}, \{6.7\}\}$

### Exercice TP: Représentation de jeux de données et identification des contours des clusters

Chargez les jeux de données suivants :
- 'datasets/dataset_identification_clusters_1.json'
- 'datasets/dataset_identification_clusters_2.json'
- 'datasets/dataset_identification_clusters_3.json'
- 'datasets/dataset_identification_clusters_4.json'

Représentez les points et déterminez visuellement le nombre et les contours des clusters.

#### Préparation du jeu de données

In [3]:
import json
from sklearn.datasets import make_classification, make_blobs
import matplotlib.pyplot as plt
import numpy as np

# ------------------ Dataset 1 ------------------
random_state = 2
std = 1.2
n_samples = [500,500,500,500]
centers = [(7.5,12.5),(7.5, 7.5),(12.5,12.5),(12.5, 7.5)]
D, y = make_blobs(n_samples=n_samples, random_state=random_state, centers=centers, cluster_std= std, center_box= (0.0, 20.0))

with open('datasets/dataset_identification_clusters_1.json', 'w') as json_file:
    json.dump(D.tolist(), json_file)

# ------------------ Dataset 2 ------------------
random_state = 4
D, y = make_classification(n_samples=1000,n_features=2, n_classes=2, random_state=random_state, n_redundant=0, n_informative=2, n_clusters_per_class=1)

with open('datasets/dataset_identification_clusters_2.json', 'w') as json_file:
    json.dump(D.tolist(), json_file)

# ------------------ Dataset 3 ------------------
random_state = 5
D, y = make_classification(n_samples=1000,n_features=2, n_classes=4, random_state=random_state, n_redundant=0, n_informative=2, n_clusters_per_class=1)

with open('datasets/dataset_identification_clusters_3.json', 'w') as json_file:
    json.dump(D.tolist(), json_file)

# ------------------ Dataset 4 ------------------
random_state = 2
D, y = make_classification(n_samples=1000,n_features=2, random_state=random_state, n_redundant=0, n_informative=2, n_clusters_per_class=1)

with open('datasets/dataset_identification_clusters_4.json', 'w') as json_file:
    json.dump(D.tolist(), json_file)

### Exercice TD: Suis-je potentiellement un cluster ?
Soient :

- $c_3$ et $c_4$ sont-ils des clusters potentiels du jeu de données $\mathcal{D}_5$? 

In [5]:
D5 = [(1), (3), (9), (5)]
c3 = [(1),  (9), (5)]
c4 = [(1), (-3)]

- $c_5$ et $c_6$ ont-ils des clusters potentiels du jeu de données $\mathcal{D}_6$? 

In [6]:
D6 = [(1, 3, 9), ( 5, 8, 2), (-4, 3,  4), (10, 6, -10)]
c5 = [(5, 8, 2), (-4, 3, 4), (10, 6, 10)]
c6 = [(1, 3, 9)]

- $c_7$ et $c_8$ et Subscript[c, 4] sont-ils des clusters potentiels du jeu de données $\mathcal{D}_7$? 

In [7]:
D7 = [(1, 3, 9,  6, 9, -2), ( 5, 8, 2, -2, 4,  5), (-4, 3, 4,  8, 1, -1), (10, 6, -10, -5, -4 - 7)]
c7 = [(1, 3, 9,  6, 9, -2), (-4, 3, 4,  8, 1, -1), ( 5, 8, 2, -2, 4,  5)]
c8 = [(5, 8, 2, -2, 4,  5), ( 1, 3, 9,  6, 9, -2)]

### Exercice TP: Suis-je potentiellement un cluster ?
Le fichier `datasets/notes_ue.json` contient une liste d'étudiants et leurs notes aux UE1 et UE2. Chaque étudiant à un identifiant unique.

Un analyste nous envoie 2 fichiers `datasets/notes_ue_cl1.json` et `datasets/notes_ue_cl2.json` correspondant, dit-il, à 2 clusters intéressants qu'il a identifié. Dans chaque fichier est donné la liste des identifiants de chaque étudiant appartenant au cluster.

Vérifiez que ces 2 fichiers remplissent les critères de base pour être des clusters.

### Exercice TD: Suis-je une partition non-recouvrante?

1. Les clusters de points $\{c_{11},c_{12},c_{13}\}$ forment-t-il un clustering potentiel (une partition non-recouvrante) du jeu de données  $\mathcal{D}_1$?

In [12]:
D1  = [("x1"), ("x2"), ("x3"), ("x4"), ("x5"), ("x6"), ("x7")]
c11 = [("x1"), ("x2"), ("x7")]
c12 = [("x3"), ("x6")]
c13 = [("x4"), ("x5")]

2. Les clusters de points $\{c_{21},c_{22},c_{23},c_{24}\}$ forment-t-il un clustering potentiel (une partition non-recouvrante) du jeu de données  $\mathcal{D}_2$?

In [13]:
D2  = [("x1"), ("x2"), ("x3"), ("x4"), ("x5"), ("x6"), ("x7")]
c21 = [("x1")]
c22 = [("x2"), ("x7")]
c23 = [("x3"), ("x6")]
c24 = [("x4"), ("x5")]

3. Les clusters de points $\{c_{31},c_{32},c_{33}\}$ forment-t-il un clustering potentiel (une partition non-recouvrante) du jeu de données  $\mathcal{D}_3$?

In [14]:
D3 = [("x1"), ("x2"), ("x3"), ("x4"), ("x5"), ("x6"), ("x7")]
c31 = [("x1")]
c32 = [("x3"), ("x6"), ("x7")]
c33 = [("x4"), ("x5")]

### Exercice TD: Calcul des distances Euclidiennes et de Manhattan 

Au moyen des formules du cours, calculez :
- les distances Euclidiennes $dist_E(e_i,e_j)$,
- les distances Manhattan $dist_M(e_i,e_j)$.

1. entre les points $a =(1)$ et $b = (3)$
2. entre les points $u = (1,1)$ et $v = (2,2)$
3. entre les points $x_1 = ( 1, 2, 1)$ et $x_2 = ( 2, 5, 2)$
4. entre les points $x_1 = ( 1, 2, 1)$ et $x_3 = ( 3, 4, 2)$

Commentez les résultats...

### Exercice TP: Programmation des distances

1. Programmez une fonction calculant la distance de Minkowski de 2 points x de dimension arbitraire en fonction du paramètre d et définissez à partir de celle-ci les fonctions correspondant aux distances de Mahattan et euclidienne.

2. Vérifiez que les distances sont correctement programmée en les utilisant sur les exemples calculés à la main dans le précédent exercice.

In [84]:
#def distMinkowski(x1, x2, q):
#    res = 0
#    for a, b in zip(x1, x2):
#        res += (a - b)**q
#    return res**(1/q)

def distMinkowski(x1, x2, d):
    res = 0
    for i in range(d):
        res += (x1[i] - x2[i]) ** 2
    return res**(1/d)


def distEuclidienne(x1, x2):
    if len(x1) == 1:
        return np.abs(x1 - x2)
    else:
        return distMinkowski(x1, x2, 2)


def distManhattan(x1, x2): return distMinkowski(x1, x2, 1)

u = [1, 1]
v = [2, 2]
x1 = [1, 2, 1]
x2 = [2, 5, 2]
print(distEuclidienne(v, u))
print(distEuclidienne(x1, x2))

1.4142135623730951
3.1622776601683795


### Exercice TP: Trouver le point le plus proche

On rappelle ici le jeu de données $\mathcal{D}_7$ contenant 4 points de dimension 6 :

In [14]:
D7 = [(1, 3, 9,  6, 9, -2), ( 5, 8, 2, -2, 4,  5), (-4, 3, 4,  8, 1, -1), (10, 6, -10, -5, -4, - 7)]
res = []

for point in D7:
    mat = {}
    mat["Index"] = D7.index(point)
    mat["Voisin plus proche - Euclide"] = min([(distEuclidienne(point, x), D7.index(x)) for x in D7 if x != point])
    mat["Voisin plus proche - Manhattan"] = min([(distManhattan(point, x), D7.index(x)) for x in D7 if x != point])
    res.append(mat)

for point in res:
    print(point)

{'Index': 0, 'Voisins - Euclide': [15.0996688705415, 10.908712114635714, 27.676705006196094], 'Voisin plus proche - Euclide': (10.908712114635714, 2), 'Voisin plus proche - Manhattan': (21.0, 2)}
{'Index': 1, 'Voisins - Euclide': [15.0996688705415, 15.968719422671311, 19.748417658131498], 'Voisin plus proche - Euclide': (15.0996688705415, 0), 'Voisin plus proche - Manhattan': (35.0, 2)}
{'Index': 2, 'Voisins - Euclide': [10.908712114635714, 15.968719422671311, 25.11971337416094], 'Voisin plus proche - Euclide': (10.908712114635714, 0), 'Voisin plus proche - Manhattan': (21.0, 0)}
{'Index': 3, 'Voisins - Euclide': [27.676705006196094, 19.748417658131498, 25.11971337416094], 'Voisin plus proche - Euclide': (19.748417658131498, 1), 'Voisin plus proche - Manhattan': (42.0, 1)}


Pour chacun des points du jeu de données, déterminez quel est son plus proche voisin et son indice de position dans le jeu de données avec les distances euclidienne et de Manhattan.

### Exercice TP: Calcul de la distance de Mahanalobis

Pour chacun des 2 jeux de données suivant:
- 'datasets/dataset_mahalanobis_D.json'
- 'datasets/dataset_mahalanobis_D_aniso.json'

Calculer pour chacun des 2 jeux de données:
- la matrice de covariance $C$ sur *l'ensemble du jeu de données*,
- la matrince inverse de la matrice de covariance,
- la distance de Mahalanobis entre les 2 points d'indices 456 et 692,
- lla distance de Mahalanobis entre les 2 points d'indices 164 et 410.

Qu'observez-vous?

<span style="color:midnightblue">

<u>**Fonctions utiles :**</u>
- `from sklearn.covariance import empirical_covariance`
- `from numpy.linalg import inv`
- `from numpy import matmul`
- `from numpy import resize`

</span>

#### Préparation des jeux de données

In [45]:
import json
import numpy as np
import sklearn
from sklearn.datasets import make_classification
from sklearn.datasets import make_blobs

# ------------------ Dataset 1 ------------------
random_state = 1
std = 1.
D, y = make_blobs(n_samples=1000, random_state=random_state, centers=1, cluster_std= std, center_box= (0.0, 20.0))

def distMahalanobis(D, x1, x2):
    res = 0
    means = np.mean(D, axis=0)
    M = np.cov(D - means, rowvar=False)
    I = np.linalg.inv(M)
    res = np.matmul((x1 - x2), I)
    res = np.matmul(res, (x1 - x2))
    return np.sqrt(res)
    # for a, b in zip(x1, x2):
    #     res += (abs(a - b)) * I
    # return res**1/q

def distMaha(x1, x2, mat):
    mat = np.linalg.inv(mat)
    res = np.matmul((x1 - x2), mat)
    res = np.matmul(res, (x1 - x2))
    return np.sqrt(res)

with open('dataset_mahalanobis_D.json', 'w') as json_file:
    json.dump(D.tolist(), json_file)
    print(D[456], " ", D[692])
    print(distMahalanobis(D, D[456], D[692]))
    print(distMahalanobis(D, D[164], D[410]))

# ------------------ Dataset 2 ------------------
transformation = [[0.60834549, -0.63667341], [-0.40887718, 0.85253229]]
D_aniso = np.dot(D, transformation) + (10., 7.5)

with open('dataset_mahalanobis_D_aniso.json', 'w') as json_file:
    json.dump(D_aniso.tolist(), json_file)
    print(D_aniso[456], " ", D_aniso[692])
    print(distMahalanobis(D_aniso, D_aniso[456], D_aniso[692]))
    print(distMahalanobis(D_aniso, D_aniso[164], D_aniso[410]))



[ 5.83399944 12.29232595]   [10.50089582 16.40548188]
6.299743416248202
7.343596877826211
[ 8.52303568 14.26525247]   [ 9.68034544 14.80056189]
6.299743416248142
7.343596877826197


### Exercice TD: Calcul de la distance de Hamming

Soient les 2 points a valeures discrètes:
- $x_1=\{0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0\}$
- $x_2=\{0, 1, 0, 0, 1, 1, 0, 0, 1, 1, 0\}$

Quelle est la distance de Hamming entre ces deux points:

#### Correction

| Points                | $x_{i,1}$ | $x_{i,2}$ | $x_{i,3}$ | $x_{i,4}$ | $x_{i,5}$ |$x_{i,6}$ | $x_{i,7}$ | $x_{i,8}$ | $x_{i,9}$ | $x_{i,10}$ |$x_{i,11}$ |
|:--------------------- | - | - | ----- | ----- | ----- | - | - | ----- | - | ----- | - |
| $x_1$                 | 0 | 1 | **1** | **1** | **0** | 1 | 0 | **1** | 1 | **0** | 0 |
| $x_2$                 | 0 | 1 | **0** | **0** | **1** | 1 | 0 | **0** | 1 | **1** | 0 |
| $x_{1|j}\ne\ x_{2|j}$ | F | F | **T** | **T** | **T** | F | F | **T** | F | **T** | F |


$$dist_H(x_1, x_2) = 5$$

### Exercice TP: Programmation de la distance de Hamming

Programmer la distance de Hamming et vérifier sont fonctionnement en l'appliquant à l'exemple de l'exercice de TD précédent.

In [46]:
def distHamming(x1, x2):
    res = 0
    for a, b in zip(x1, x2):
        if a != b:
            res +=1
    return res

x1 = [1, 2, 2, 2, 1, 2, 1, 2, 1, 1]
x2 = [1, 2, 1, 1, 1, 2, 1, 2, 1, 2]
print(distHamming(x1, x2))


3


### Exercice TD: Calcul de distances inter-clusters   

Soient 2 clusters constitués des points suivants:
- $cl_1 = \{pt_1, pt_2\} = \{(1, 0, 0), (0, 2, 0)\}$
- $cl_2 = \{pt_3, pt_4\} = \{(6, 3, 1), (8, 4, 1)\}$

En utilisant *la métrique de la distance euclidienne* entre les points, calculez les distances inter-clusters dans les cas suivants:
- saut minimum [SINGLE]
- saut maximal [COMPLETE]
- Ward [WARD]

### Exercice TP : Programmation des distances inter-cluster

À partir des 2 clusters d'étudiants (représentés par leur moyennes aux U1 et UE2) donnés dans les fichiers suivants:
- 'datasets/dataset_cluster_1.json'
- 'datasets/dataset_cluster_2.json'

Calculer les distances inter-cluster avec :
- la distance des plus proches voisins [SINGLE] 
- la distance du diamètre maximal [COMPLETE]
- la distance moyenne [AVERAGE]
- la distance de Ward [WARD]

Vous pourrez utiliser comme distance inter points la distance Euclidienne précédemment définie.

#### Préparation des jeux de données 

In [54]:
import json
from sklearn.datasets import make_blobs

def centroid(c):
    return np.mean(c)


def distSINGLE(c1, c2):
    return min([distEuclidienne(x, y) for x in c1 for y in c2])

def distCOMPLETE(c1, c2):
    return max([distEuclidienne(x, y) for x in c1 for y in c2])

def distAVERAGE(c1, c2):
    n = sum([distEuclidienne(x, y) for x in c1 for y in c2])
    return n / (len(c1) * len(c2))

def distWARD(c1, c2):
    n1 = len(c1)
    n2 = len(c2)
    dist = distEuclidienne(centroid(c1), centroid(c2))
    n = (n1 * n2) / (n1 + n2)
    return np.sqrt(n) * dist

# ------------------ Cluster 1 ------------------
std = 1.2
random_state = 1
cluster_1, y = make_blobs(n_samples=50, random_state=random_state, centers=np.array([(8,10)]), cluster_std= std, center_box= (0.0, 20.0))

with open('dataset_cluster_1.json', 'w') as json_file:
    json.dump(cluster_1.tolist(), json_file)
# ------------------ Cluster 2 ------------------
random_state = 2
cluster_2, y = make_blobs(n_samples=50, random_state=random_state, centers=np.array([(15,12)]), cluster_std= std, center_box= (0.0, 20.0))

with open('dataset_cluster_2.json', 'w') as json_file:
    json.dump(cluster_2.tolist(), json_file)
    
print(distSINGLE(cluster_1, cluster_2))
print(distCOMPLETE(cluster_1, cluster_2))
print(distAVERAGE(cluster_1, cluster_2))

2.073819241208312
11.142307311857627
7.049935775900491


### Exercice TP : Calcul de l'inertie intra-cluster

Pour chacun des 3 clusters suivants, calculez l'inertie du cluster avec la distance euclidienne.

- cl1={(3), (9), (2), (1), (5)}
- cl2={(3,4), (9,2), (3,6)}
- cl3={(3,5,8,4), (3,7,10,-1), (3,6,6,3)}

### Exercice TP : Calcul de l'inertie intra-cluster

1. Définissez une fonction inertieIntraCluster calculant l'inertie intra-cluster,
2. Vérifiez votre en fonction en comparant son résultat aux calculs à la main faits dans l'exercice précédent,
3. Calculez l'inertie intra-cluster des 2 clusters d'étudiants (représentés par leur moyennes aux U1 et UE2) donnés dans les fichiers suivants:
- `datasets/dataset_cluster_1.json`
- `datasets/dataset_cluster_2.json`

In [85]:
def inertie(c):
    return sum([distEuclidienne(x, centroid(c))**2 for x in c])


c1 = [[3], [9], [2], [1], [5]]
c2 = [[3, 4], [9, 2], [3, 6]]
c3 = [[3, 5, 8, 4], [3, 7, 10, -1], [3, 6, 6, 3]]

print(inertie(c1))
print(inertie(c2))
print(inertie(c3))


[40.]
32.00000000000001
2.0


### Exercice TD : Calcul de l'inertie d'une partition

Calculez l'inertie de la partition des points de dimension 2 suivante :

$$\mathcal{C}=\{c_1, c_2, c_3\} $$

avec:

- $c_1 = \{(1,1),(1.5,0.5)\}$
- $c_2 = \{(3,-4),(4,-4),(3,-3)\}$
- $c_3 = \{(-2,5),(-3,3)\}$

### Exercice TP : Programmation et calcul de l'inertie d'une partition

1. Définissez des fonctions inertieIntraClasses,  inertieInterClasses  et inertie calculant respectivement les inerties intra-classes, inter-classes et totale d'une partition $\mathcal{C}$.
2. Vérifiez vos fonctions en comparant son résultat aux calculs à la main faits dans l'exercice précédent,
3. Calculez l'inertie totale de la partition constituée des 2 clusters définis dans les fichiers suivants :
    - `datasets/dataset_cluster_1.json`
    - `datasets/dataset_cluster_2.json`