# K-Moyenne


In [118]:
import numpy as np

def kmeans(donnees, k, iteration):
    '''
    La valeur donnees est une matrice N*n
    Où N est le nombre de données
    n est la dimension de l'espace des données (le nombre de caractéristiques).
    On veut que chaque ligne de la matrice soit standardisée
    On entre aussi le nombre d'ittérations et le nombre de cluster (k) dont on a besoin
    L'algorithme renvoie une liste (L) de taille N qui à chaque point associe son cluster.
    '''
    

    N,n = np.shape(donnees)
    
    #initialisation des barycentres (c'est une matrice avec la même convention)
    B = 2*np.random.rand(k,n)-1


    
    #Liste d'attribution, L[i-ème point] = indice du barycentre associé
    L = np.empty(N)

    for count in range(iteration):
        def k_distances(point):
            '''
            Prend en argument un point et la matrice des barycentres
            Renvois un vecteur de taille k qui donne la distance (au carré) entre le point et chacun des barycentres.
            '''
            return (np.square(np.tile(point, (k,1)) - B)).sum(axis=1)
        
        #Créons une matrice N*k qui va répertorier les distances à chaque barycentre pour chaque point
        all_distances = np.apply_along_axis(k_distances, axis=1, arr=donnees)
        #La liste L d'attribution à chaque point, de l'indice du plus proche est tout simplement : 
        L = np.argmin(all_distances, axis=1)
        #Pour savoir si nos clusters sont proches des points, on va stocker la distance entre les points et leur cluster.
        D = np.min(all_distances, axis=1)
        # Changer les barycentres
        for j in range(k):
            if (L == j).sum() > 0:
                B[j] = np.mean(donnees[L == j], axis=0)

        
    return L, np.mean(D)  

                




In [32]:
point = np.array([[1,1,1],[2,2,2]])
k=2

B = np.array([[1,2,3],[2,2,2]])

np.apply_along_axis(k_distances, axis=1, arr=point)

array([[5, 3],
       [2, 0]])

In [123]:
#Test

donnees = np.array([
    [5.10492,-3.50822],
    [-3.54,1.5],
    [-2.08,1.66],
    [4.34,-2.9],
    [3.7,-1.52],
    [-8.12,-4.34],
    [-6.2,-2.88],
    [-3.18,-3.86],
    [-2.12,1.18],
    [-5.02,-3.62],
])
kmeans(donnees, 3, 50)

#Le test est concluant (voir représentation des points dans la capture)

(array([0, 2, 2, 0, 0, 1, 1, 1, 2, 1], dtype=int64), 1.8579051049866664)