In [1]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
import time

In [2]:
def KMeans(K, data):
    d = np.size(data, axis=0)
    N = np.size(data, axis=1)
    
    #Centra grup (losowe wektory z danych)
    R = np.empty([d,K])
    choices = np.random.choice(np.arange(0,N), K, replace=False)
    for i in range(K):
        R[:,i] = data[:, choices[i]]
    #Przynależnosc do grupy (na poczatku wszyscy do zero)
    C = np.zeros((1,N), dtype=np.int64)

    iteration = 0
    groupsChanged = True
    while groupsChanged:
        iteration += 1
        #Interesuje nas minimalna wartość <r,r> -2<u,r>, gdzie u to wektor z danych a r to jakies centrum
        iloczynySkalarne = -2. * np.dot(data.T, R)
        R**=2
        kwadratyDlugosciR = np.sum(R, axis=0, keepdims=True)
        iloczynySkalarne += kwadratyDlugosciR

        #Dla kazdego wektora z danych wybieramy najblizszy wektor z R i aktualizujemy grupy
        newC = np.argmin(iloczynySkalarne, axis=1)
        groupsChanged = not np.array_equal(C, newC)
        C = newC

        #Obliczamy srodki ciezkosci dla kazdej grupy
        macierzPrzynaleznosci = np.zeros((N,K))
        for i in range(N):
            macierzPrzynaleznosci[i][C[i]] = 1
        #Sumy danych w każdej z grup
        R = np.dot(data, macierzPrzynaleznosci)
        liczebnosciGrup = np.sum(macierzPrzynaleznosci, axis=0, keepdims=True)
        R /= liczebnosciGrup

    print("Iterations:", iteration)
    return (C, R)

In [None]:
def generateData(N,d,K,p,mi,sigma):
    L = [np.linalg.cholesky(sigma[i]) for i in range(len(sigma))]
    choices = np.random.choice(np.arange(0,K), N, p=p)
    data = np.random.randn(d,N)
    
    #Jeśli X ~ N(mi, sigma) oraz Y = c + B*X, 
    #to Y ~ N(c + B * mi, B*sigma*B^T)
    #Jak wezmę X ~ N(zeros, I), c = mi oraz B = L, 
    #gdzie sigma = L*L^T, to otrzymam Y ~ N(mi + L*zeros, L*I*L^T) =
    # N(mi, L*L^T) = N(mi, sigma)
    
    for i in range(N):
        data[:,i] = mi[:,choices[i]] + np.dot(L[choices[i]], data[:,i])
        
    return data

In [None]:
N = 100000
d = 1000
K = 1000
p = np.ones(K) / K
q = 10
mi = np.repeat(q*np.arange(1,K+1)[np.newaxis], d, axis=0)
sigma = [np.eye(d) for i in range(1,K+1)]

data = generateData(N,d,K,p,mi,sigma)
