In [None]:
# KMEANS

# KMEANS

El clustering con K-Means es bastante distinto al clustering jerarquico debido a que el número de clusters "k" necesita ser conocido a priorí antes de aplicar el modelo. Los datos se deviden en K-Grupos.

El centroide de los cluster se seguira actualizando basandose en las observaciones de los nuevos clusters generados en cada etapa del algoritmo, y al final la salida será un arreglo conteniendo el id del cluster de las observaciones.

El algoritmo es sencillo:

- Se escoge el número k (número de centroides) y se ponen en un grafico de manera aleatoria.
- El algoritmo converge cuando los datos estan agrupados en dos grupos.

$$
SS_w(C_j) = \sum\limits_{x \in C_j}{(x - c_j)^2}
$$

Tambien podemos usar la distancia intracluster:
$$
SS'_w = \sum\limits_{j=1}^{k}{\frac{SS_w(C_j)}{SS_T}}
$$

Donde

$$
SS_T = \sum\limits_{i=1}^{n}{(x_i - \overline{x})^2}
$$

Todo esto con el fin de recalcular la posición de los varicentros o centroides.

- Repetimos hasta que ni una de las observaciones sea reasignada a un cluster distinto al que pertenece, y damos por finalizado el algoritmo de K-means y se dice que se llega a una solución correcta debido a que no se puede ajustar mejor. 

La formula en el caso de un cluster, siempre es 1. Y mientras mas clusters haya, mas pequeño es el número, por lo tanto el objetivo es minimizar tanto como se pueda esta metrica, para alcanzar la convergencia. Siempre se tiene en cuenta que el numero final de clusters es "k", que es el parámetro que nosotros proveemos al modelo.

El objetivo es encontrar los varicerntros que sean capaces de minimizar la suma total de cada uno de los cuadrados internos para cada cluster.

Entonces se tienen que buscar los $C_j$ para la siguiente formula:
$$
SS_w(k) = \sum\limits^k_{j=1}{SS_w(C_j)} = \sum\limits^k_{j=1}\sum\limits_{x_i \in C_j}{(x_i - c_j)^2}
$$

Donde:
- k: Es el número de clusters.
- $x_i$: Los puntos que pertenecen al j-esimo cluster.
- $c_j$: El centroide del cluster j-esimo.



In [11]:
# Implementación de KMEANS
import numpy as np
from scipy.cluster.vq import vq
np.random.seed(42)

X = np.random.random((90)).reshape(30, 3)

# Para definir los centroides iniciales, tomamos 3 puntos aleatorios
c1 = np.random.choice((range(len(X)))) # 1er centroide
c2 = np.random.choice((range(len(X)))) # 2do centroide

# Ahora los asignamos aleatoriamente
clust_center = np.vstack((X[c1], X[c2]))

# Implementación de KMEANS
vq(X, clust_center)


(array([1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0,
        1, 0, 1, 0, 0, 0, 0, 1]),
 array([0.58424996, 0.24185582, 0.34585569, 0.82055806, 0.        ,
        0.67754617, 0.59291315, 0.63523767, 0.44353201, 0.51384831,
        0.25683366, 0.98671279, 0.73767587, 0.51013258, 0.        ,
        0.3913516 , 0.83842929, 0.97681581, 0.58881286, 0.67349922,
        0.7867056 , 0.60101049, 0.2382556 , 0.58106169, 0.45871135,
        0.57854958, 0.83552434, 0.26792655, 0.76466917, 0.64019997]))

In [12]:
from scipy.cluster.vq import kmeans
kmeans(X, clust_center)

(array([[0.4523365 , 0.20781291, 0.52340274],
        [0.48147176, 0.8445533 , 0.39662412]]),
 0.37920139550151216)

In [14]:
kmeans(X, 2)

(array([[0.48147176, 0.8445533 , 0.39662412],
        [0.4523365 , 0.20781291, 0.52340274]]),
 0.37920139550151216)