# 3. K-means

In [None]:
# Carga bibliotecas
import numpy             as np
import matplotlib.pyplot as plt

from sklearn import datasets

%matplotlib inline

In [None]:
# Genera N datos
N = 80

In [None]:
# Blobs de distinta varianza
Xblobs, Lblobs = datasets.make_blobs(n_samples=N, cluster_std=[1.0, 2.5, 0.5],
                                       random_state=170)


Dada una distribución de datos no etiquetados, el método *k-means* estima iterativamente los *k* vectores de medias que mejor representen a los datos, utilizando para ello, el criterio de la distancia euclidiana.

In [None]:
"""
 @note: solo se grafican los vectores con etiquetas Lblobs=0
 @X_m: media de X
"""
X1   = Xblobs[Lblobs==0]
X2   = Xblobs[Lblobs==1]
X1_m = X1.mean(axis=0)
X2_m = X2.mean(axis=0)

plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(X1[:,0],X1[:,1],'ok',markersize=10,alpha=.8)

plt.plot(X2[:,0],X2[:,1],'ok',markersize=10,alpha=.8)
plt.grid(True)
plt.show()

In [None]:
from sklearn.cluster import KMeans as kmeans

In [None]:
XX    = np.concatenate( [X1, X2] )

model = kmeans(2)
model.fit(XX)

centers = model.cluster_centers_

Para encontrar los centroides:
 1. Se inicializan aleatoriamente k vectores candidatos a centroides $\mu_k\in\mathbb{R}^n$
 2. Actualizar $\mu_k$: $\mu_k^{(i+1)}=\mu_k^{(i)}+\Delta f(\mu_k^{(i)})$
 3. Repetir 2 hasta convergencia, misma que siempre está garantizada

In [None]:
"""
 @note   : Muestra los centroides reales (verde) respecto a los encontrados con el método k-means (rojo)
 @XX     : Es la concatenación de los vectores de X1 y X2 para que sean vistos como un único conjunto de datos
 @centers: Centroides estimados por el método k-means
"""
plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(XX[:,0],XX[:,1],'ok',markersize=10,alpha=.8)
for x in centers:
    plt.plot(x[0],x[1],'or',markersize=15,alpha=.8)

plt.plot(X1_m[0],X1_m[1],'og',markersize=10,alpha=.8)
plt.plot(X2_m[0],X2_m[1],'og',markersize=10,alpha=.8)
plt.grid(True)
plt.show()

Para encontrar la pertenencia se calcula la distancia euclidiana $e_{i,j}$ entre los vectores $x_i$ y los centroides $\mu_j$ encontrados por el método k-means. El vector $x_i$ pertenece al cluster $C\in k$
$$C(x_i) = argmin\left\{ e_{i,j} \right\}$$

In [None]:
"""
 @note: la función predict realiza el proceso anteriormente descrito
"""
LL = model.predict(XX)

In [None]:
"""
 @note: grafica los clusters estimados por el método k-means
"""
plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(XX[LL==0,0],XX[LL==0,1],'og',markersize=10,alpha=.8)
plt.plot(XX[LL==1,0],XX[LL==1,1],'or',markersize=10,alpha=.8)
plt.grid(True)
plt.show()

In [None]:
"""
 @note: grafica los clusters reales y los estimados.
 Donde existen puntos de dos colores significa que se han agrupado correctamente
 @note: dado que la inicialización de los centroides es aleatoria, hay que comentar/descomentar
 X1, X2 de forma adecuada para que se muestre correctamente la comparación
"""
plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(XX[LL==0,0],XX[LL==0,1],'ok',markersize=10,alpha=.8)
#plt.plot(X1[:    ,0],X1[    :,1],'or',markersize=5,alpha=.8)
plt.plot(X2[:    ,0],X2[    :,1],'or',markersize=5,alpha=.8)
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(5,5))
plt.axes().set_aspect('equal', 'datalim')
plt.plot(XX[LL==1,0],XX[LL==1,1],'ok',markersize=10,alpha=.8)
plt.plot(X1[:    ,0],X1[    :,1],'or',markersize=5,alpha=.8)
#plt.plot(X2[:    ,0],X2[    :,1],'or',markersize=5,alpha=.8)
plt.grid(True)
plt.show()

### Ejercicios para Colaboratory

Utilice k-means para estimar los clusters para los siguientes conjuntos de datos:
 - Lunas
 - Circulos concéntricos

### Tarea para la Raspberry Pi
 1. Utilice k-means para encontrar de forma no supervisada los tres conglomerados correspondientes a los tres tipos de Iris. Como sugerencia, utilice únicamente la proyección $\mathbb{R}^2$ que mejor separe los datos (base su decisión en los *scatter plots*). Evalúe el desempeño del *clustering*
 2. Utilice k-means para encontrar los conglomerados de datos que agrupen los vectores que representen a personas que están de pie y personas que están sentadas. Evalúe su desempeño.