# Aprendizaje no supervisado

# Por qué? Cuándo?

Cuando necesitamos que un modelo encuentre **estructura** en datos que **no están etiquetados (no tienen columnas "de salida")**.

La estructura a encontrar puede ser:

- Agrupamiento de los datos (**clustering**).
- Detección de **datos anómalos**.
- Asociación de items (**association rules**)

Por lo general, hablamos de problemas donde los **humanos no pueden hacerlo** por si mismos, la data es demasiado grande (ej: encontrar agrupaciones de genes).

Pero para **interpretar** los resultados, hace falta un humano.

![](files/images/ml_process.svg)

# Función resultante

En aprendizaje **supervisado**, era claro que el resultado era una función que sabía predecir o clasificar.

En aprendizaje **no supervisado**, no es tan claro. 

- Para clustering la salida puede ser simplemente la data agrupada. Puede o no dar una función que permita seguir agrupando.
- Para detección de anomalías, la salida suele ser simplemente las anomalías detectadas. Puede o no dar una función que permita seguir detectando anomalías en nueva data.
- Para reglas de asociación, la salida son las reglas encontradas.

# Clustering

Tenemos un montón de **puntos**.

Buscamos una forma de **agrupar esos puntos**.

![](files/images/unsupervised_learning_1.svg)

![](files/images/unsupervised_learning_2.svg)

Los algoritmos no nos van a decir **por qué** esas cosas se agrupan, solo nos van a decir "esto es parecido a esto, y diferente a esto otro".

Un experto del dominio luego puede intentar interpretar los grupos.

# Clustering: K-means

Es un algoritmo muy sencillo de clustering, que permite **agrupar** los datos en **K grupos**, siendo K un valor definido por nosotros.

Lo logra buscando **centroides** que minimicen la distancia entre ellos y los ejemplos de entrenamiento.

![](files/images/kmeans_step1.svg)

![](files/images/kmeans_step2.svg)

Qué valores elegimos?

- random entre rangos de los valores de nuestras features
- random sacando K ejemplos de nuestra data
- Algún método más inteligente?... (k-means++)

![](files/images/kmeans_step3.svg)

![](files/images/kmeans_step4.svg)

![](files/images/kmeans_step5.svg)

![](files/images/kmeans_step6.svg)

Resultado:

- La data está agrupada!
- Y tenemos los centroides para clasificar (determinar grupo) nueva data

# Clustering: problemas de K-means

Problema 1: Qué valor **K** usamos??

![](files/images/kmeans_k_small.svg)

![](files/images/kmeans_k_big.svg)

Solución: podemos **iterar** y tratar de encontrar el mejor valor!

... y cuál es el **"mejor"**?

El que tenga centroides con **menor distancia promedio** a los puntos de su grupo.  (ver **silhouette_score** en sklearn)

También en algunos casos, el **problema mismo** nos puede ayudar a decidir el valor para K. (ej: cuántos tipos de remeras podemos fabricar y seguir siendo rentables)

Problema 2: máximos locales

![](files/images/kmeans_local_max.svg)

Solución: podemos iterar (muchas veces con el mismo K), y quedarnos con la **mejor** solución.

**Mejor** = mismo criterio que antes!

Problema 3: sets que no pueden clusterizarse con centroides

![](files/images/kmeans_bad_set.svg)

Solución: no hay :(

Tenemos que usar algún **otro algoritmo**.

Problema 4: todos los puntos terminan en un cluster 

![](files/images/kmeans.png)

Solución: no hay :(

Tenemos que usar algún **otro algoritmo**.

Problema 5: no todas las vacas son esfericas

![](files/images/kmeans.png)

Solución: no hay :(

Tenemos que usar algún **otro algoritmo**.

Ejemplo con ScikitLearn:

```python
>>> from sklearn.cluster import KMeans
>>> X = np.array([[1, 2], [1, 4], [1, 0],
...               [4, 2], [4, 4], [4, 0]])
>>> kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
>>> kmeans.labels_
array([0, 0, 0, 1, 1, 1], dtype=int32)
>>> kmeans.predict([[0, 0], [4, 4]])
array([0, 1], dtype=int32)
>>> kmeans.cluster_centers_
array([[ 1.,  2.],
       [ 4.,  2.]])
```

# Clustering: otros algoritmos

![](files/images/cluster_comparison.png)

# Clustering: Hierarchical clustering

Es una técnica bastante simple que va generando clusters agrupando o dividiendo clusters:

* Aglomerativo: cada instancia arranca en su cluster y en cada iteración se unen los dos clusters mas cercanos
* Divisivos: todas las instancias estan inicialmente en un cluster y luego se van dividiendo

La forma más común de ver la salida de un cluster jerárquico es un **dendrograma**


![](files/images/dendrogram.png)

[más info...](https://towardsdatascience.com/understanding-the-concept-of-hierarchical-clustering-technique-c6e8243758ec)

# Clustering: DBScan

<div><img src="./images/dbscan.png" width="40%" style="float: left; margin: 10px;" align="middle"></div>


<div><img src="./images/dbscan_working.gif" width="50%" style="float: right; margin: 10px;" align="middle"></div>


* Ventajas: Encuentra areas densas y elimina outliers
* Desventajas: Elegir los parametros es dificil si hay mas de 2 dimensiones

<div><img src="./images/dbscan_result.png" width="50%" style="float: left; margin: 10px;" align="middle"></div>
