**Description**

Kmeans est une technique de Machine Learning qui est utilisée pour le regroupement des données (clustering) en groupes (clusters).

*Modèle:*

Le modèle de Kmeans est l'ensemble des centres des clusters.

*Hyperparamètre:*

Kmeans a un hyperparamètre appelé K qui représente le nombre de clusters.

*Apprentissage:*

L'algorithme d'apprentissage de Kmeans est non supervisé : il apprend avec des données non étiquetées. Cet algorithme essaie de trouver les centres des clusters optimales. 

*Prédiction:*

Une fois l'apprentissage est fini, Kmeans permet de prédire pour un point donné à quel groupe il appartient.

**Données d'apprentissage**

Soit une population ds employés qu'on veut regrouper en clusters.

Créer une matrice des données d'employés X (comme étant des points de même dimension).

              X=[1100.67 31
                 3500.98 58
                 1300.58 35
                 3100.98 55
                 1200.77 32]


In [60]:
# create a matrix X with 5 rows and 2 columns
import numpy as np
import random
from scipy.spatial.distance import euclidean

X = np.array([  [1100.67, 31], 
                [3500.98, 58], 
                [1300.58, 35], 
                [3100.98, 55], 
                [1200.77, 32]])

**Hyperparamètre**

Choisir le nombre des clusters K

In [61]:
k = 2

**Modèle**

Initialiser les centres des clusters

Choisir d'une façon aléatoire K points des données comme centres des clusters.

Notes:
- Mettre les centres intiales dans une matrice M
- Utiliser la fonction random.sample()

In [74]:
#M = np.random.choice(X[:,0], k, replace=False) # choose k rows from X randomly without replacement 

M = random.sample(X.tolist(), k) # choose k rows from X randomly without replacement

print(M)

[[1200.77, 32.0], [3500.98, 58.0]]


Other Solution

In [67]:
NL = X.shape[0]
indice_lignes = list(range(0,NL,1))
print(indice_lignes)

[0, 1, 2, 3, 4]


In [68]:
indice_sampled = random.sample(indice_lignes, k)
print(indice_sampled)

[2, 1]


**Apprentissage**

L'algorithme est comme suit :

          Pour chaque t de 0 jusqu'à T-1 faire
            Pour chaque point p des données faire
              Pour chaque centre m_i des clusters M faire
                d=distance euclidienne(p,m_i)
                Ajouter d dans distances
              label de p = argmin(distances) 
              Ajouter label à labels
            Pour chaque centre m_i des clusters faire
              c=moyenne arithmétique des points ayant label egale à i

Etape 1: Implémenter la fonction predire_label() qui prend un point p et qui retourne le label de cluster auquel p appartient.

        Pour chaque centre m_i des clusters M faire
            d=distance euclidienne(p,m_i)
            Ajouter d dans distances
        label de p = argmin(distances)

Notes:
- Utiliser M comme variable globale.
- Utiliser la fonction np.argmin()

In [76]:
def predire_label(p):
    distances = []
    for m_i in M:
        d = euclidean(p, m_i)
        distances.append(d)
    label = np.argmin(distances)
    return label
predire_label(X[1])

1

Etape 2: Définir la fonction determiner_labels() qui prend un ensemble des points X et qui retourne les labels de tous les points.

Cette fonction impélmente la partie de l'algorithme d'apprentissage suivante:

          Pour chaque point p des données faire
              Pour chaque centre m_i des clusters M faire
                d=distance euclidienne(p,m_i)
                Ajouter d dans distances
              label de p = argmin(distances) 
              Ajouter label à labels
Note:
- Un label designe l'indice de groupe auquel apparetient un point.
- Utiliser la fonction predire_label()
- Utiliser M comme variable globale.

In [64]:
def determiner_lables(M):
    labels = []
    for p in M:
        labels.append(predire_label(p))
    return labels

determiner_lables(M)

[0, 1]

Etape 3: Définir une fonction mettre_a_jour_centres() qui prend les points et leurs labels d'appartenance aux clusters.

          Pour chaque centre m_i des clusters faire
              m_i=moyenne arithmétique des points ayant label egale à i

Note:
- Utiliser np.mean()

In [66]:
def mettre_a_jour_centres():
    global M
    labels = determiner_lables(M)
    for i in range(k):
        M[i] = np.mean(X[labels==i], axis=0)
    return M

Etape 4:

Définir la fonction fit() qui implémente tout l'algorithme d'apprentissage. Elle prend l'ensemble des points X et elle met à jour M (les centres des clusters).

Notes:
- Utiliser M comme une variable globale.
- Utiliser les fonctions determiner_labels() et les fonctions mettre_a_jour()

In [None]:
#

**Prédiction**

Définir une fonction predict() qui prend une matrice des points d'employés X. Elle retourne les labels de ces points.

Note:
- Utiliser la fonction predire_label
- Utiliser M comme variable globale.

In [None]:
#

**Recap**

Nous allons définir Kmeans sous la forme d'une classe que vous appelez Kmeans.

Elle contient les fonctions suivantes:
- un constructeur dans lequel:
  - L'hyperparamètre K est considéré comme attribut d'objet. Il permet de l'initialiser.
  - Le modèle M (les centres de clusters) est initialisé aléatoirement
- la fonction fit() définie ci-dessus
- la fonction predict() définie ci-dessus

In [None]:
#