## Análisis no supervisado: Clustering

Imaginemos que tenemos un conjunto de datos, que queremos segmentar en distintas clases, pero ningun dato tiene etiqueta.

¿Cómo logramos esto? Esá pregunta se resuelve con Clustering. Las aplicaciones varían  desde segmentación de cartera de clientes hasta análisis de imagenes médicas, por ejemplo segmentando diferentes tejidos en un escaneo *PET*. 

### Pasos previos:
En general, para poder clusterizar un conjunto, necesitamos definir una métrica entre los datos, la elección va a inducir los clusters por lo que es importante escojer una adecuadamente.

#### Ejemplos:
considere lo siguiente:

In [49]:
import numpy as np
import pandas as pd

In [50]:
Autos=['Mazda','Mercedes','BMW','Fiat','Ford','Citroen']
Colores=['Rojo','Azul','Azul','Blanco','Negro','Gris']
Encoding={auto:i for i,auto in enumerate(set(Colores))}
df=pd.DataFrame({'Auto':Autos,'Color':Colores})
df['codigo']=df.Color.apply(lambda x :Encoding[x])
df

Unnamed: 0,Auto,Color,codigo
0,Mazda,Rojo,0
1,Mercedes,Azul,1
2,BMW,Azul,1
3,Fiat,Blanco,2
4,Ford,Negro,3
5,Citroen,Gris,4


Podriamos usar la distancia usual en los número naturales y clusterizar por el codigo del color, pero el problema es que la enumeración anterior es arbitraria, no hay razón para que Rojo y Azul estén mas cercanos que Azul y Negro.
La solución a este problema se llama *One Hot Encoding* (OHE).
### OHE: crash course:
OHE trata de codificar variables categoricas en algún $\mathbb{R}^n$ donde la métrica usual no de preferencias arbitrarías, para esto se siguen los siguientes pasos:

1. Contar cuantas categorías existen (n).
2. Definir un vector de n ceros.
3. Por cada dato, cambiar el bit *i*-esimo si el dato pertenece a la categoría *i*.

Listo!

Veamos como funciona, tenemos cinco categorías, así que cada color va a estar codificado en un vector de $\mathbb{R}^5$:

In [62]:
def encode(x,diccionario): ### embellezca acá
    vector=np.zeros(len(diccionario))
    vector[diccionario[x]]=1
    return vector
data=df.Color.apply(lambda x: encode(x,Encoding)).values ###embellezca acá
Data=[]
for datum in data:
    Data.append(datum)
Data=np.array(Data)
for color,valor in Encoding.items():
    df[color]=Data[:,valor]
df

Unnamed: 0,Auto,Color,codigo,Rojo,Azul,Gris,Negro,Blanco
0,Mazda,Rojo,0,1.0,0.0,0.0,0.0,0.0
1,Mercedes,Azul,1,0.0,1.0,0.0,0.0,0.0
2,BMW,Azul,1,0.0,1.0,0.0,0.0,0.0
3,Fiat,Blanco,2,0.0,0.0,0.0,0.0,1.0
4,Ford,Negro,3,0.0,0.0,0.0,1.0,0.0
5,Citroen,Gris,4,0.0,0.0,1.0,0.0,0.0


Y ahora clusterizamos usando como *features* las columnas Rojo,Azul,Gris,Negro,Blanco.

Pero aun hay más, ¿Qué pasa si queremos clusterizar nuestros clientes segun sus compras? Podemos usar la misma técnica para convertir una tabla de transacciones como la siguiente

In [63]:
Nombres=['Alonso','Francisco','Harald','Esteban']
Compras=[['Semillas','Salame','Pan','Queso','Avena'],['Fideos','Pizza','Pan'],
         ['Queso','Pan','Jamon'],['Tacos','Pollo','Queso','Fideos']]
df_compras=pd.DataFrame({'Nombre':Nombres,'compra':Compras})
df_compras

Unnamed: 0,Nombre,compra
0,Alonso,"[Semillas, Salame, Pan, Queso, Avena]"
1,Francisco,"[Fideos, Pizza, Pan]"
2,Harald,"[Queso, Pan, Jamon]"
3,Esteban,"[Tacos, Pollo, Queso, Fideos]"


En algo que podamos clusterizar facilmente

In [66]:
compras=set(df_compras.compra.values.sum())
dictio={item:i for i,item in enumerate(compras)}
def encode_compras(x,diccionario): ### embellezca acá
    vector=np.zeros(len(diccionario))
    for i in x:
        vector[diccionario[i]]=1
    return vector
data=df_compras.compra.apply(lambda x: encode_compras(x,dictio)).values ###embellezca acá
Data=[]
for datum in data:
    Data.append(datum)
Data=np.array(Data)
for comida,valor in dictio.items():
    df_compras[comida]=Data[:,valor]
df_compras

Unnamed: 0,Nombre,compra,Fideos,Tacos,Pan,Avena,Pizza,Semillas,Salame,Jamon,Queso,Pollo
0,Alonso,"[Semillas, Salame, Pan, Queso, Avena]",0.0,0.0,1.0,1.0,0.0,1.0,1.0,0.0,1.0,0.0
1,Francisco,"[Fideos, Pizza, Pan]",1.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
2,Harald,"[Queso, Pan, Jamon]",0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0
3,Esteban,"[Tacos, Pollo, Queso, Fideos]",1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,1.0


### Técnicas de Clustering:
El método más sencillo para clusterizar *dataset* es K-means, el cual es facil de implementar y obtiene clusters suficientemente buenos para un primer intento. Este algoritmo, solo necesita dos cosas para funcionar:

1. Una métrica en el espacio donde estan los datos.
2. La cantidad de clusters a formar.

#### K-means en pocas palabras:

1. Setear cantidad de clusters (de aqui viene la K en K-means).
2. Elegir K centroides iniciales (existen distintas maneras de escoger).
3. Asociar cada observación al centroide más cercano.
4. Re-calcular los centroides una vez que todos las observaciones pertenezcan a un cluster
5. Repetir pasos 3 y 4 hasta que los centroides dejen de moverse o se alcance un límite de iteraciones.


<center>
Ilustración del algoritmo de K-Means
    
<img src='imgs/kmeans.gif' width=65% >
</center>
