<img src="enset.png" width="200" height="50" style="float: right; margin-left: 0px;">

<u><h1>Systèmes Décisionnels & Data-Mining</h1></u>



## Classification (K-Moyenne)

<span style="background-color: yellow;">Algorithme</span>

#### Phase d'initialisation (t = 0) :

    Choisissez initialement p référents de manière aléatoire.
    Fixez le nombre maximal d'itérations NiterNiter​.

#### Étape itérative :
    À chaque itération t, l'ensemble des référents W(t−1)W(t−1) de l'étape précédente est connu.

#### Phase d'affectation :
    Mise à jour de la fonction d'affectation χ(t)χ(t) associée à W(t−1)W(t−1). Pour chaque observation xx, on affecte le référent qui minimise la distance euclidienne ∣∣x−wr∣∣2∣∣x−wr​∣∣2, où rr est l'indice du référent choisi. La fonction d'affectation est définie comme :
           χ(x)=argminr(∣∣x−wr∣∣2)
           χ(x)=argminr​(∣∣x−wr​∣∣2)

#### Phase de minimisation :
    Calcul des nouveaux référents WtWt en appliquant l'équation suivante pour chaque cluster cc :
       > wc=∑xi∈Pc∩Axinc
       > wc​=nc​∑xi​∈Pc​∩A​xi​​

    Où PcPc​ est l'ensemble des points assignés au cluster cc selon la fonction d'affectation χχ, AA est l'ensemble des observations, et ncnc​ est le nombre d'observations dans le cluster cc.

    Répétition de l'étape itérative :
    Répétez les phases d'affectation et de minimisation jusqu'à ce que l'on atteigne t>Nitert>Niter​ itérations ou jusqu'à ce qu'une certaine condition de stabilisation soit atteinte.

>Cet algorithme itératif vise à trouver des référents représentatifs des clusters dans les données en mettant à jour alternativement les affectations des observations aux clusters et les positions des référents. Il continue à itérer jusqu'à ce qu'une condition d'arrêt soit remplie.

In [12]:
# importation des libraries
import pandas as pd
import numpy as np
import sklearn as sk
from scipy.spatial import distance
from sklearn.datasets import make_blobs

In [7]:
def cluster(data, true_labels):
    unique_labels = np.unique(true_labels)
    clusters = [[] for _ in range(len(unique_labels))]
    for i, label in enumerate(true_labels):
        clusters[label].append(data[i])
    return clusters

In [8]:
def inertie_intra_class(cluster):
    n = 0
    inertie = 0
    for cl in cluster:
        s = 0
        for x in cl:
            for y in cl:
                s += distance.euclidean(x, y)**2
        n += len(cl)
        inertie += s / (2 * len(cl))
    return inertie / n


In [9]:
def inertie_inter_class(cluster, g):
    n = 0
    inertie = 0
    for cl in cluster:
        c = np.mean(cl, axis=0)
        inertie += len(cl) * distance.euclidean(c, g)**2
        n += len(cl)
    return inertie / n

In [10]:
def inertie_totale(data):
    g = np.mean(data, axis=0)
    s = 0
    for x in data:
        s += distance.euclidean(x, g)**2
    return s / data.shape[0]

In [13]:
# Exemple d'utilisation avec des données générées aléatoirement
centers = [[0, 0], [3, 3]]
data, true_labels = make_blobs(centers=centers, n_samples=10)

In [14]:
clusters = cluster(data, true_labels)
intra = inertie_intra_class(clusters)
inter = inertie_inter_class(clusters, np.mean(data, axis=0))
total = intra + inter

In [15]:
print("Inertie Intra-Classe:", intra)
print("Inertie Inter-Classe:", inter)
print("Inertie Totale:", total)

Inertie Intra-Classe: 2.1895552902366715
Inertie Inter-Classe: 5.567562183582728
Inertie Totale: 7.7571174738194
