## K-means como ejemplo de aprendizaje no supervisado

K-means es un ejemplo de algoritmos de aprendizaje no supervisado.

En este tipo de algoritmos los puntos no tienen una etiqueta inicial de pertenencia a clases, es decir, no tenemos forma de comparar los resultados de los algoritmos con datos reales.

Con estos algoritmos podemos encontrar patrones o prototipos (centros de los grupos) que ayuden a entender la estructura de los datos.

Viendo los puntos a simple vista podríamos observar comportamientos o grupos (siempre y cuando estén en una dimensión visualizable por nosotros), pero cuando la dimensión de los puntos es mayor a 3 esto se vuelve más difícil.

A este algoritmo le debemos especificar la cantidad de grupos que queremos formar.

## Algoritmo

- Tenemos que elegir un número k (número de grupos que queremos encontrar)
- Elegimos k centros aleatorios (del conjunto de puntos)
- Ciclo:
	- Asignamos cada punto al grupo del centro más cercano
	- Calculamos el nuevo centro como la media de cada grupo
- Iterar hasta que la posición de los centros no cambien (por ahora no usaremos un criterio de este tipo, solo iteraremos 10 veces)

In [77]:
import numpy as np
import matplotlib.pyplot as plt
import random as rn
import imageio
import os

In [78]:
def distance(p,ps):
    return np.sum((ps-p)**2,axis=1)

In [79]:
def graf_pt(data):
    plt.scatter(data.T[0],data.T[1])
    plt.xlim((-1.5,1.5))
    plt.ylim((-1.5,1.5))


In [80]:
def scatter_clusters(clusters, centroids): 
    fig, ax= plt.subplots(figsize=(8,5), dpi=150)
    for i in range(len(clusters)):
        ax.scatter(clusters[i].T[0],clusters[i].T[1])
    ax.scatter(centroids.T[0], centroids.T[1], color="k")
    ax.set_xlim((-1.5,1.5))
    ax.set_ylim((-1.5,1.5))
    

In [81]:
def kmeans(data,k):
    centroids = data[rn.sample(range(len(data)),k)]
    
    filenames = []
    for j in range(10):
        # compute distances to centroids
        dists = np.array([distance(centroids[i],data) for i in range(k)])
        
        # list of clusters
        clusters = [np.zeros(len(data[0])) for i in range(k)]
        for i in range(len(data)):
            clusters[int(np.argmin(dists.T[i]))] = np.vstack([clusters[int(np.argmin(dists.T[i]))],data[i]])
        clusters = [clusters[i][1:] for i in range(k)]
        
        # plot the clusters and save the figures
        scatter_clusters(clusters,centroids)
        plt.text(-1.45,1.35,f"Iteration: {j+1}")
        filename = f'{j}.png'
        filenames.append(filename)
        plt.savefig(filename)
        plt.close()
        
        # compute new centroids
        centroids = np.array([clusters[i].mean(axis=0) for i in range(k)])
    
    # build gif
    with imageio.get_writer('k-means.gif', mode='I') as writer:
        for filename in filenames:
            image = imageio.imread(filename)
            for i in range(4):
                writer.append_data(image)
    # Remove files
    for filename in set(filenames):
        os.remove(filename)


In [82]:
# options
n_true_clusters = 5
dim = 2
data = np.concatenate([np.random.normal(np.random.random(dim)*2-1,np.random.random(2)*0.2+0.1,[np.random.randint(50,100),dim]) for i in range(n_true_clusters)])

k_clusters = 5
kmeans(data,k_clusters)


  image = imageio.imread(filename)


![](k-means.gif)