# Implementación de K-means en NumPy

## Objetivos
* Generación de datasets para clusterización sintéticos
* Implementación de K-means en NumPy paso a paso

## Datasets Sintéticos - Clustering

El objetivo de éste apartado es generar datos sintéticos sobre los cuales poder ensayar modelos de machine learning de clusterización. En éste caso, vamos a generar datos sintéticos clusterizados A/B en 4 dimensiones.

1. Conformar una matriz con los centroides como fila. Utilizar como ejemplo los centroides:
$C_1 = [1, 0, 0, 0]$ y $C_2 = [0, 1, 0, 0]$

In [1]:
# INSERTAR CÓDIGO AQUÍ
import numpy as np
centroides = np.array([[1, 0, 0, 0], [0, 1, 0, 0]])
print(centroides)
ncent, dim = np.shape(centroides)

[[1 0 0 0]
 [0 1 0 0]]


2. Alejar los centroides entre sí mediante la multiplicación por una constante. Esa constante se suele llamar overlap y podemos variarla para ver el rendimiento de nuestros algoritmos de clusterización. Mientras más chica, más difícil será clusterizar.

In [2]:
# INSERTAR CÓDIGO AQUÍ
cte = 5
centroides = cte*centroides

3. Crear $\frac{n}{2}$ muestras de cada centroide. Hint: usar np.repeat.

In [3]:
# INSERTAR CÓDIGO AQUÍ
n = 10
arr_centroides = np.repeat(centroides, n/2, axis=0)
print(arr_centroides)

[[5 0 0 0]
 [5 0 0 0]
 [5 0 0 0]
 [5 0 0 0]
 [5 0 0 0]
 [0 5 0 0]
 [0 5 0 0]
 [0 5 0 0]
 [0 5 0 0]
 [0 5 0 0]]


4. Sumar ruido a cada muestra usando un vector aleatorio normal i.i.d. con media 0 y desvío 1. Hint: usar np.random.normal

In [4]:
# INSERTAR CÓDIGO AQUÍ
ruido = 0.01
arr_centroides1 = arr_centroides + ruido*np.random.normal(loc=0.0, scale=1.0, size=np.shape(arr_centroides))
print(arr_centroides1)

[[ 4.99364492e+00 -2.34350840e-02 -2.85805880e-03 -1.26293838e-02]
 [ 5.00441523e+00  2.90661518e-03 -1.91933459e-03 -1.85803398e-02]
 [ 5.01347075e+00 -1.02441871e-02 -1.56320936e-02  1.88157138e-03]
 [ 5.00962421e+00 -3.37525172e-04 -3.66894004e-03  9.08189859e-03]
 [ 5.00073480e+00  2.33670401e-02  5.60859714e-04  1.17055011e-02]
 [ 2.63702405e-02  5.00221362e+00  4.58776168e-03 -1.45690521e-02]
 [-3.02853646e-02  5.01584875e+00 -2.18253469e-02  6.13198324e-03]
 [ 9.86842771e-03  5.01760358e+00  1.10200032e-02 -6.97387556e-03]
 [ 7.38820843e-03  5.01090713e+00 -6.78926993e-03 -2.74535616e-03]
 [ 9.57793983e-04  4.99730877e+00 -7.09046167e-03 -1.15772011e-02]]


5. Armar un array de longitud n que tenga los labels de nuestro dataset (para cada muestra indicar si pertenece al cluster del centroide 1 o 2). Hint: usar np.repeat.

In [5]:
# INSERTAR CÓDIGO AQUÍ
pass # No entiendo que hay que hacer en este punto


6. Consolidar los pasos anteriores en una función o clase build_cluster.

In [6]:
# INSERTAR CÓDIGO AQUÍ
class Build_Cluster():
  def __init__(self):
    pass # No sé como implementar esta clase


---

## Implementación de K-means

1. Dada una nube de puntos $X \in \mathbb{R}^{NxD}$ y centroides $C \in \mathbb{R}^{KxD} $, armar una función que permita obtener la distancia entre cada vector de $X$ y cada uno de los centroides, utilizando operaciones vectorizadas y broadcasting en NumPy. Utilizar como valores de referencia:

$X=\begin{bmatrix}1 & 2 & 3\\4 & 5 & 6\\7 & 8 & 9\end{bmatrix}$ , $C=\begin{bmatrix}1 & 0 & 0\\0 & 1 & 1\end{bmatrix}$ 

Guiarse con el esquema de broadcasting inferior. Comparar los resultados obtenidos con la función cdist de SciPy.

![Clase%201%20-%20K-means%201.png](attachment:Clase%201%20-%20K-means%201.png)

In [7]:
# INSERTAR CÓDIGO AQUÍ
import scipy.spatial.distance
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) 
C = np.array([[1, 0, 0], [0, 1, 1]])
dist_scipy = scipy.spatial.distance.cdist(X, C)
print(dist_scipy)
#print(np.sqrt(np.sum((X[0,]-C[0,])**2)))
#print(np.sqrt(np.sum((X[0,]-C[1,])**2)))

def distancia(x,y):
    """
    Funcion distancia().
    
    Calcula la distancia de un punto X a un punto Y utilizando operaciones
    vectorizadas y broadcasting.
    """
    import numpy as np
    ny, dim = np.shape(y)
    XX = np.tile(x,(ny, 1, 1)) #Repite el array X "ny" veces
    CC = np.reshape(y, (ny, 1, dim)) #Reordena el array y para poder broadcastear con XX
    dist = np.sqrt(np.sum((XX-CC)**2, 2)) #Calculo vectorizado de la distancia
    idx = np.argmin(dist, axis=0) #Devuele los indices que corresponden a la distancia mas cercana
    return dist, idx

dist, id = distancia(X,C)
print(np.divide(dist_scipy, dist.T))
print(id)

[[ 3.60555128  2.44948974]
 [ 8.36660027  7.54983444]
 [13.45362405 12.72792206]]
[[1. 1.]
 [1. 1.]
 [1. 1.]]
[1 1 1]


2. Obtener para cada fila de $X$, el índice de la fila de $C$ con distancia euclídea más pequeña. Es decir, decir para cada fila de $X$ indicar a qué cluster pertenece en C. Hint: utilizar np.argmin.


In [8]:
# INSERTAR CÓDIGO AQUÍ
idx = np.argmin(dist, axis=0)
print(idx)

[1 1 1]


3. Implementar la función def k_means(X, n) de manera tal que al finalizar, devuelva la posición de los centroides y un array que indique a qué cluster pertenece cada fila de X. Seguir los siguientes pasos:

    * El usuario indica la cantidad de clusters a crear $k$.
    * Se seleccionan $k$ elementos aleatorios de $X$ como posiciones iniciales del los centroides $C$. Hint: usar np.random.
    * Se calcula la distancia entre todos los puntos en $X$ y todos los centroides en $C$. Usar función del ejercicio 1.
    * Para cada punto de $X$ se selecciona el centroide más cercano de $C$. Usar función del ejercicio 2.
    * Recalcular los centroides $C$ a partir de la media de las filas de $X$ que pertenecen a cada centroide. Verificar que axis se va a utilizar en np.mean. Se puede usar un for para iterar sobre la cantidad de clusters $k$.
    * Iterar entre el tercer y quinto punto una cantidad fija de veces MAX_ITER o hasta que la posición de los centroides no cambie entre iteración e iteración fijada una cierta tolerancia.



In [9]:
# INSERTAR CÓDIGO AQUÍ
def k_means(x, n):
    """
    Funcion k_means().
    
    Implementacion propia del método k-means.
    """
    nx, dim = np.shape(x)
    rnd_idx = np.random.choice(np.arange(nx), size=n, replace=False)
    c0 = x[rnd_idx,]
    cent = np.copy(c0)
    max_iter = 20
    for i in range(max_iter):
        dist, idx = distancia(x, cent)
        cent = np.zeros([n, dim])
        for j in range(n):
            cent[j,] = np.mean(x[idx==j,], axis=0)
        
    return c0, cent, idx


In [10]:
# Prueba de la funcion implementada
x = np.random.rand(20,2)
n = 3
c0, cent, idx = k_means(x, n)
print(cent)

## Prueba utilizando Kmeans de sklearn, empleando el mismo conjunto inicial de centroides que en la función programada
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=n, init=c0).fit(x)
print(kmeans.cluster_centers_)


[[0.81563273 0.51191778]
 [0.31881823 0.22730012]
 [0.38991356 0.664958  ]]
[[0.81563273 0.51191778]
 [0.31881823 0.22730012]
 [0.38991356 0.664958  ]]


  self._check_params(X)
