El objetivo del análisis de k-promedios (k-means) es encontrar subgrupos (clusters) en un conjunto de datos. Se trata de encontrar variables latentes no observadas que dén origen a grupos de datos. Tenemos un vector de variables X y una variable latente Z no observada que produce grupos en X.


- Sea C1, C2, ..., Cn conjuntos de índices de las observaciones en cada cluster. La full joinaria de todos esos conjuntos debe ser igual a la muestra entera.
- Ck inner join Cn = NULL para todo k != n -- los clusters no deben traslaparse

Minimizar la variación intracluster: la variación intra-cluster para el cluster Ck es una func W(Ck) tal que cuantifique cuánto difieren las observaciones dentro del cluster

Entonces, el análisis de k promedios es encontrar k clusters.

min C1, C2, ..., Ck { sumatoria(k=1, k, W(Ck)) } \
Encontrar una partición de los n dattos en k clusters tal que la suma de las variaciones intra-cluster sea mínima

La suma de las distancias euclidianas cuadráticas entre cada observación xi y el centroide del cluster (su promedio) debe ser entonces mínima.

W(Ck) = sum(i for i in C[k], distancia_euclidiana(x[i] - x_testada[k])) \
donde x[i] pertenece a |R^n y es un vector de características en n dimensiones \
x testada[k] es un vector de medias (un centroide) y se saca con ( 1/len(C[k]) ) * sum(i for i in C[k], x[i]) 

W(C[k]) se suele conocer como inercia o suma de cuadrados intra-cluster

Entonces, hay que minimizar el resultado de sum(k=1, k, sum(i for i in C[k], pitagoras(x[i] - x_testada[k])^2 ))



In [1]:
# simular en r un conjunto de datos con 3 grupos en 2D normalmente distribuidos
import numpy as np
import pandas as pd
from scipy.stats import multivariate_normal

np.random.seed(123)
n = 100
mu1 = np.array([0, 0])
mu2 = np.array([3, 3])
mu3 = np.array([-3, 3])
sigma = np.array([[1, 0], [0, 1]])

x1 = multivariate_normal.rvs(mu1, sigma, size=n)
x2 = multivariate_normal.rvs(mu2, sigma, size=n)
x3 = multivariate_normal.rvs(mu3, sigma, size=n)

x = np.concatenate([x1, x2, x3])
y = np.concatenate([np.repeat(1,n), np.repeat(2,n), np.repeat(3,n)])

df = pd.DataFrame(x, columns=["x1", "x2"])
df["y"] = y
df.head()

Unnamed: 0,x1,x2,y
0,-1.085631,0.997345,1
1,0.282978,-1.506295,1
2,-0.5786,1.651437,1
3,-2.426679,-0.428913,1
4,1.265936,-0.86674,1


In [2]:
import matplotlib.pyplot as plt

red_light = "#be1b1b75"
blue_light = "#B3B3FF"
green_light = "#77f475"

def scatter_plot(x, y, fill='navy', color='red', **kwargs):
    plt.figure()
    ax = plt.gca()

    # Drawing the scatter plot
    plt.scatter(x, y, edgecolor=color, facecolor=fill, **kwargs)

    # Customizing axes appearance
    ax.tick_params(axis='x', colors='gray', length=3, labelsize='large')
    ax.tick_params(axis='y', colors='gray', length=3,
                   labelsize='large', labelrotation=90)

    # Adding grid
    plt.grid(True, color='gray')

    # Removing default axes
    plt.box(False)

In [8]:
from scipy.spatial import distance
k = 3
ck = np.random.choice(x.shape[0], k, replace=False)
centroides = x[ck, :]
centroides

dist_mat = np.zeros((x.shape[0], k))

for j in range(k):
    for i in range(x.shape[0]):
        dist_mat[i][j] = distance.euclidean(x[i, :], centroides[j, :])

dist_mat


array([[3.06958708, 2.86475965, 4.06048763],
       [4.08289963, 5.71569978, 4.95790416],
       [2.35786336, 2.59816469, 3.31921469],
       [4.94707682, 4.01628438, 5.95160814],
       [3.22374595, 5.71270664, 3.99375971],
       [3.38268602, 4.02701864, 4.37968705],
       [2.97522954, 5.68530619, 3.71096912],
       [3.4860417 , 4.43343205, 4.46400237],
       [0.54576209, 4.73071323, 0.79971881],
       [2.0581504 , 4.60884666, 2.9482136 ],
       [1.26191498, 3.70069156, 2.26599084],
       [2.8587455 , 2.77577588, 3.84455714],
       [4.17300051, 4.35433879, 5.17056038],
       [3.83757517, 5.95944916, 4.64138955],
       [3.67426063, 4.9500446 , 4.61591404],
       [5.48184535, 6.70772967, 6.35567374],
       [4.59253621, 4.3197401 , 5.59623158],
       [2.6144804 , 4.96336393, 3.47767102],
       [2.34680849, 3.70942284, 3.34700168],
       [3.27678871, 3.59993233, 4.28237944],
       [4.75834308, 5.5232389 , 5.70674202],
       [2.7150853 , 3.57311319, 3.71981708],
       [2.

In [None]:
clusters = np.argmin(dist_mat, axis=1)
clusters
# Obtenemos como resultado el cluster al que pertenece cada dato

array([1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2,
       0, 2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2,
       2, 2, 2, 0, 2, 0, 2, 0, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 0, 0, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2,
       0, 0, 2, 0, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 0,
       2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [None]:
# Ahora recalculamos los centroides
new_centroids = np.array([x[clusters == i].mean(axis=0) for i in range(k)])
new_centroids

# Repetimos

array([[ 0.51894403,  0.26330066],
       [-2.85415217,  2.89764679],
       [ 3.12636107,  3.10429177]])

In [None]:
# Graficamos los centroides nuevos sobre los anteriores encima de la gráfica de dispersión