In [56]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np, pandas as pd, matplotlib.pyplot as plt, seaborn as sns

iris = load_iris()
X = iris.data       
y = iris.target     

df = pd.DataFrame(X, columns=iris.feature_names)

# X.shape
X.shape[0]

# Nombre de centro√Ødes
K = 4

#### 1.  On place k  (centro√Ødes) au hasard parmi les donn√©es

In [57]:
def create_centroids(X, K):
    # Nombre de centro√Øde
    k = 4
    #  k indices diff√©rents et al√©atoires parmi les lignes de X, sans r√©p√©tition.
    indices = np.random.choice(X.shape[0], k, replace=False)
    # tableau (k, 4) contenant k centro√Ødes initiaux choisis parmi les points du dataset.
    initial_centroids = X[indices]

    return initial_centroids


In [58]:
# TEST DE LA FONCTION
# initial_centroids = create_centroids(X, K)
# initial_centroids

#### 2. Chaque point du dataset est affect√© au centro√Ød le plus proche 
##### fonction `assign_to_clusters`


- `np.newaxis` ‚Üí      ajoute une dimension

- `X[:, np.newaxis]` ‚Üí  transforme X de (150, 4) en (150, 1, 4)

- `centroids.shape` ‚Üí  (k, 4)

- `X[:, np.newaxis - centroids]` ‚Üí  (150, k, 4)

- `np.linalg.norm(..., axis=2)` ‚Üí  calcule la distance euclidienne ‚Üí forme finale : (150, k)

- `np.argmin(..., axis=1)` ‚Üí  donne pour chaque ligne, l‚Äôindice du centro√Øde le plus proche

In [59]:
def assign_to_clusters(X, initial_centroids):
    # Calcul des distances entre chaque point et chaque centro√Øde
    distances = np.linalg.norm(X[:, np.newaxis] - initial_centroids, axis=2)
    
    # Affectation : indice du centro√Øde le plus proche
    cluster_labels = np.argmin(distances, axis=1)
    
    return cluster_labels    

In [60]:
# TEST DE LA FONCTION
# cluster_labels = assign_to_clusters(X, initial_centroids)
# cluster_labels

#### 3. Le centro√Ød est d√©plac√© au milieu du cluster (la moyenne des points)
##### fonction `update_centroids`

- `labels == i` s√©lectionne tous les points du cluster ùëñ

- `.mean(axis=0)` calcule la moyenne colonne par colonne

- `np.zeros((k, 4))` initialise la nouvelle matrice de centro√Ødes

In [61]:
def update_centroids(X, cluster_labels, K):
    new_centroids = np.zeros((K, X.shape[1]))
    for i in range(K):
        cluster_points = X[cluster_labels == i]
        if len(cluster_points) > 0:
            new_centroids[i] = cluster_points.mean(axis=0)
    return new_centroids

In [62]:
# TEST DE LA FONCTION
# new_centroids = update_centroids(X, cluster_labels, K)
# new_centroids

#### 4.  on recommence jusqu'√† ce que les centro√Øds convergent vers le point d'√©quilibre

In [63]:
centroids = create_centroids(X, K)

for iteration in range(10):  # ou jusqu'√† convergence
    cluster_labels = assign_to_clusters(X, centroids)
    new_centroids = update_centroids(X, cluster_labels, K)
    
    if np.allclose(new_centroids, centroids, atol=1e-4):
        print(f"Convergence √† l‚Äôit√©ration {iteration}")
        break
    
    centroids = new_centroids


Convergence √† l‚Äôit√©ration 3


In [64]:
print("Centroids finaux :\n", centroids,"\n")
print("Exemples de labels assign√©s :", cluster_labels[:10])

Centroids finaux :
 [[5.88360656 2.74098361 4.38852459 1.43442623]
 [4.81818182 3.23636364 1.43333333 0.23030303]
 [6.85384615 3.07692308 5.71538462 2.05384615]
 [5.37058824 3.8        1.51764706 0.27647059]] 

Exemples de labels assign√©s : [1 1 1 1 1 3 1 1 1 1]
