# Introducción al Aprendizaje No Supervisado

Hasta ahora, tan sólo hemos explorado algoritmos y técnicas de Aprendizaje Automático supervisado para desarrollar modelos en los que los datos tenían etiquetas previamente conocidas. En otras palabras, nuestros datos tenían algunas variables objetivo con valores específicos que utilizamos para entrenar nuestros modelos.

Sin embargo, cuando se trata de problemas del mundo real, la mayoría de las veces, los datos no vienen con etiquetas predefinidas, así que vamos a querer desarrollar modelos de aprendizaje automático que puedan clasificar correctamente estos datos, encontrando por sí mismos algunos puntos en común en las características, que se utilizarán para predecir las clases sobre nuevos datos.

---

## Proceso de Análisis del Aprendizaje no Supervisado

El proceso general que seguiremos al desarrollar un modelo de aprendizaje no supervisado se puede resumir en el siguiente cuadro:

![img](https://miro.medium.com/max/700/1*CLVgw3l1yDmtGVs8FMgyRw.png)

Las principales aplicaciones de aprendizaje no supervisado son:

* Segmentación de conjuntos de datos por atributos compartidos.
* Detección de anomalías que no encajan en ningún grupo.
* Simplificación de datasets agregando variables con atributos similares.

En resumen, el objetivo principal es estudiar la estructura intrínseca (y comúnmente oculta) de los datos.

---

Estas técnicas se pueden condensar en dos tipos principales de problemas que el aprendizaje no supervisado trata de resolver. Estos son los problemas:

* Agrupación
* Reducción de la dimensionalidad

# Clustering

En términos básicos, el objetivo de la agrupación es encontrar diferentes grupos dentro de los elementos de los datos. Para ello, los algoritmos de agrupamiento encuentran la estructura en los datos de manera que los elementos del mismo clúster (o grupo) sean más similares entre sí que con los de clústeres diferentes.

De una manera visual: Imagina que tenemos un conjunto de datos de películas y queremos clasificarlas. Tenemos las siguientes reseñas de películas:

![img](https://miro.medium.com/proxy/1*UrTFgcUrxq5C-wOUFvxCkQ.png)

---


El modelo de aprendizaje automático podrá inferir que hay dos clases diferentes sin saber nada más de los datos.

Estos algoritmos de aprendizaje no supervisados tienen una gama increíblemente amplia de aplicaciones y son muy útiles para resolver problemas del mundo real como la detección de anomalías, la recomendación de sistemas, la agrupación de documentos o la búsqueda de clientes con intereses comunes basados en sus compras.

Algunos de los algoritmos de agrupación más comunes, y los que se explorarán a lo largo del artículo, son:

* K-Medias
* Clusterización Jerárquica
* Density Based Scan Clustering (DBSCAN)
* Modelo de Agrupamiento Gaussiano

## Agrupación K-Meedias

Los algoritmos de K-Medias son extremadamente fáciles de implementar y muy eficientes desde el punto de vista computacional. Estas son las principales razones que explican por qué son tan populares. Pero no son muy buenos para identificar clases cuando se trata de grupos que no tienen una forma de distribución esférica.

El algoritmo K-Means tiene como objetivo encontrar y agrupar en clases los puntos de datos que tienen una alta similitud entre ellos. En los términos del algoritmo, esta similitud se entiende como lo opuesto de la distancia entre puntos de datos. Cuanto más cerca estén los puntos de datos, más similares y con más probabilidades de pertenecer al mismo clúster serán.

---

#### Conceptos clave

* Distancia Cuadrada Euclidiana

La distancia más comúnmente utilizada en K-Means es la distancia cuadrada de Euclides. Un ejemplo de esta distancia entre dos puntos x e y en el espacio m-dimensional es:
![img](https://miro.medium.com/proxy/1*svzWIVVO4k0tSu14pzSuFA.png)

Aquí, j es la dimensión j (o columna de características) de los puntos de muestra x e y.

* Inercia de los Clústeres

La inercia del cluster es el nombre dado a la Suma de Errores Cuadrados dentro del contexto del clustering, y se representa de la siguiente manera:
![img](https://miro.medium.com/proxy/1*jO8AEM1Ttkc46ea7bIEl0Q.png)

---

Donde $μ(j)$ es el centroide del cluster $j$, y $w(i,j)$ es 1 si la muestra $x(i)$ está en el cluster $j$ y 0 en caso contrario.

K-Means puede ser entendido como un algoritmo que intentará minimizar el factor de inercia del cluster.

### Pasos del Algoritmo

1. Primero, necesitamos elegir k, el número de clusters que queremos que nos encuentren.
2. Luego, el algoritmo seleccionará aleatoriamente los centroides de cada grupo.
3. Se asignará cada punto de datos al centroide más cercano (utilizando la distancia euclídea).
4. Se calculará la inercia del conglomerado.
5. Los nuevos centroides se calcularán como la media de los puntos que pertenecen al centroide del paso anterior. En otras palabras, calculando el error cuadrático mínimo de los puntos de datos al centro de cada cluster, moviendo el centro hacia ese punto.
6. Volver al paso 3.

### Hiperparámetros de K-Means

* Número de grupos: El número de clusters y centros de generación.
* Máximas iteraciones: del algoritmo para una sola ejecución.
* Número inicial: El número de veces que el algoritmo se ejecutará con diferentes semillas de centroide. El resultado final será el mejor rendimiento del número definido de corridas consecutivas, en términos de inercia.

### Los Retos de K-Medias

* El resultado de cualquier set de entrenamiento fijo no siempre será el mismo, porque los centroides iniciales se fijan al azar y eso influirá en todo el proceso del algoritmo.
* Como ya se ha dicho, debido a la naturaleza de la distancia euclídea, no es un algoritmo adecuado cuando se trata de clusters que adoptan formas no esféricas.

### Puntos a Tener en Cuenta al Aplicar K-Means

Las características deben medirse en la misma escala, por lo que puede ser necesario realizar la estandarización de la escala z-score o la escala max-min. Cuando se trate de datos categóricos, utilizaremos la función get dummies.

El Análisis Exploratorio de Datos (EDA) es muy útil para tener una visión general de los datos y determinar si K-Medias es el algoritmo más apropiado. Y el método de minibatch es muy útil cuando hay un gran número de columnas, sin embargo, es menos preciso.

### ¿Cómo elegir el número K correcto?

La elección del número correcto de clusters es uno de los puntos clave del algoritmo K-Means. Para encontrar este número hay algunos métodos:

* Conocimiento del campo
* Decisión de negocios
* Método del codo

Al estar alineado con la motivación y la naturaleza de la ciencia de datos, el método del codo es la opción preferida, ya que se basa en un método analítico respaldado con datos, para tomar una decisión.

### Método del codo

El método del codo se utiliza para determinar el número correcto de grupos en un dataset. Funciona trazando los valores ascendentes de K frente al error total obtenido al usar esa K.
![img](https://miro.medium.com/max/453/1*9115ruKQGOa4qa4xGZzL_A.png)

El objetivo es encontrar la k adecuada para que en cada cluster no aumente significativamente la varianza

![img](https://miro.medium.com/proxy/1*86R1OByRi6JoLq1JPAUnpQ.png)

### Limitaciones de K-Medias

Aunque K-Medias es un gran algoritmo de agrupación, es más útil cuando sabemos de antemano el número exacto de grupos y cuando estamos tratando con distribuciones esféricas.

La siguiente imagen muestra lo que obtendríamos si utilizáramos la agrupación de medios K en cada conjunto de datos, incluso si conociéramos de antemano el número exacto de grupos:

![img](https://miro.medium.com/proxy/1*ykyaNxEi1QhICv8gbdI8aw.png)

---
---
---

## Agrupación Jerárquica

La agrupación jerárquica es una alternativa a los algoritmos de agrupación basados en prototipos. La principal ventaja de la agrupación jerárquica es que no necesitamos especificar el número de agrupaciones, la encontrará por sí misma. Además, permite el trazado de dendogramas. Los dendogramas son visualizaciones de una agrupación jerárquica binaria.

![img](https://miro.medium.com/proxy/1*GDuQNu0Ioz0cuUgwnvCPGg.png)

Las observaciones que se fusionan en la parte inferior son similares, mientras que las que están en la parte superior son muy diferentes. Con los dendogramas, las conclusiones se hacen basándose en la ubicación del eje vertical y no en el horizontal.


### Tipos de Agrupación Jerárquica

Existen dos enfoques para este tipo de agrupación: Aglomerantio y divisivo.

* Divisivo: este método comienza por englobar todos los puntos de datos en un solo grupo. Luego, dividirá el grupo iterativamente en otros mas pequeños hasta que cada uno de ellos contenga sólo una muestra.
* Aglomerativo: este método comienza con cada muestra siendo un grupo diferente y luego fusionándolas por las que están más cerca unas de otras hasta que sólo haya un grupo.

### Acoplamientos Único y Completo

Estos son los algoritmos más comunes utilizados para la agrupación jerárquica aglomerativa.
![img](https://miro.medium.com/max/358/1*mVj9fkikBpGyJ0xME46uMg.png)

---

* Acoplamiento Simple

Al ser un algoritmo aglomerativo, el enlace simple comienza asumiendo que cada punto de la muestra es un conglomerado. Luego, calcula las distancias entre los miembros más similares para cada par de cúmulos y fusiona los dos cúmulos para los cuales la distancia entre los miembros más similares es la más pequeña.

![img](https://miro.medium.com/proxy/1*HUOYokgnLlokcYvT2C4stg.png)

* Acoplamiento Completo

Aunque es similar a su hermano (single linkage) su filosofía es exactamente la opuesta, compara los puntos de datos más diferentes de un par de grupos para realizar la fusión.

---

#### Ventajas de la Agrupación Jerárquica

    Las representaciones jerárquicas resultantes pueden ser muy informativas.
    Los dendogramas proporcionan una forma interesante e informativa de visualización.
    Son especialmente potentes cuando el conjunto de datos contiene relaciones jerárquicas reales.

#### Desventajas de la Agrupación Jerárquica

    Son muy sensibles a los valores atípicos y, en su presencia, el rendimiento del modelo disminuye significativamente.
    Son muy exigentes, desde el punto de vista informático y computacional.

---
---
---

## Agrupación Espacial de Aplicaciones Basadas en la Densidad con Ruido (DBSCAN)

La Agrupación Espacial Basada en Densidad de Aplicaciones con Ruido, o DBSCAN (Density-Based Spatial Clustering of Applications with Noise), es otro algoritmo de agrupación especialmente útil para identificar correctamente el ruido en los datos.

---

### Criterios de Asignación de DBSCAN

Se basa en un número de puntos con un radio especificado ε y hay una etiqueta especial asignada a cada punto de datos. El proceso de asignación de esta etiqueta es el siguiente:

    Es un número especificado (MinPts) de puntos vecinos. Se asignará un punto central si existe este número de puntos de los MinPts que caen en el radio ε
    Un punto fronterizo caerá en el radio de ε de un punto central, pero tendrá menos vecinos que el número de MinPts.
    Todos los demás puntos serán puntos de ruido.

### Algoritmo DBSCAN

El algoritmo sigue la lógica:

* Identificar un punto central y hacer un grupo para cada uno, o para cada grupo conectado de puntos centrales (si es que establecen que el criterio es el punto central).
* Identificar y asignar puntos fronterizos a sus respectivos puntos centrales.

La siguiente figura resume muy bien este proceso y la notación comentada.
DBSCAN vs. K-Means Clustering
![img](https://miro.medium.com/proxy/1*USv6WLj3A-9De9D7am2iZQ.png)

---
![img](https://miro.medium.com/proxy/1*x48iVUvrWtYY31WEsVLdeQ.png)

### Ventajas de DBDSCAN

    No es necesario especificar el número de grupos.
    Existe una gran flexibilidad en las formas y tamaños que pueden adoptar los grupos.
    Es muy útil para identificar y tratar con datos de ruido y valores atípicos.

### Desventajas de DBSCAN

    Se enfrenta a dificultades a la hora de tratar los puntos de encuentro que son alcanzables por dos grupos.
    No encuentra bien racimos de densidades variables.

---
---
---

## Modelos de Mezcla Gaussiana (MMG)

Los Modelos de Mezcla Gaussiana son modelos probabilísticos que asumen que todas las muestras son generadas a partir de una mezcla de un número de finita de distribución gaussiana con parámetros desconocidos.

Pertenece al grupo de algoritmos de agrupamiento blando en el que cada punto de datos pertenecerá a cada grupo existente en el conjunto de datos, pero con diferentes niveles de pertenencia a cada grupo. Esta membresía se asigna como la probabilidad de pertenecer a un determinado grupo, que oscila entre 0 y 1.

Por ejemplo, el punto resaltado pertenecerá a los grupos A y B simultáneamente, pero con mayor pertenencia al grupo A, debido a su cercanía.

![img](https://miro.medium.com/proxy/1*jCGgXVlHGE3cXVncW3xdtw.png)

GMM es uno de los métodos de agrupación más avanzados que estudiaremos en esta serie, asume que cada grupo sigue una distribución probabilística que puede ser Gaussiana o Normal. Es una generalización de la agrupación de K-Means que incluye información sobre la estructura de covarianza de los datos así como los centros de los gaussianos latentes.

![img](https://miro.medium.com/proxy/1*1QDCWZS0AUZ-51VKG8INiQ.png)

### Distribución de MMG en una dimensión

El MMG buscará distribuciones gaussianas en el conjunto de datos y las mezclará.
![img](https://miro.medium.com/proxy/1*uc63ZNYZaVcW75QOcJyAtQ.png)

### MMG en dos dimensiones

Cuando se tienen distribuciones multivariantes como la siguiente, el centro medio sería µ + σ, para cada eje de la distribución del conjunto de datos.

![img](https://miro.medium.com/proxy/1*wkTgfCOdSS06ia6KJDAENw.png)


### Algoritmo del MMG

Es un algoritmo de maximización de expectativas cuyo proceso podría resumirse de la siguiente manera:

    Inicializar las distribuciones de K Gaussian. Lo hace con los valores µ (media) y σ (desviación estándar). Se pueden tomar del conjunto de datos (método ingenuo) o aplicando K-Medias.
    Grupo ‘blando’ de datos: es la fase de’Expectativa’ en la que todos los puntos de datos se asignarán a cada grupo con su respectivo nivel de membresía.
    Reestimar a los gaussianos: es la fase de ‘Maximización’ en la que se comprueban las expectativas y se utilizan para calcular nuevos parámetros para los gaussianos: nuevos µ y σ.
    Evaluar la probabilidad de registro de los datos para verificar la convergencia. Cuanto mayor sea la similitud con el registro, más probable es que la mezcla del modelo que creamos se ajuste a nuestro conjunto de datos. Por lo tanto, esta es la función de maximizar.
    Repetir desde el paso 2 hasta la convergencia.
    
---

### Ventajas del MMG

    Es un método de agrupación en grupos blandos, que asigna etiquetas de pertenencia a varios grupos. Esta característica lo convierte en el algoritmo más rápido para aprender modelos de mezclas.
    Existe una gran flexibilidad en el número y la forma de los grupos.

### Desventajas del MMG

    Es muy sensible a los valores iniciales que condicionarán en gran medida su rendimiento.
    El MMG puede converger a un mínimo local, lo que constituiría una solución no óptima.
    Al tener puntos insuficientes por mezcla, el algoritmo diverge y encuentra soluciones con infinitas probabilidades a menos que regularicemos artificialmente las covarianzas entre los puntos de datos.

---
---
---

## Validación de Agrupación

La validación de agrupación es el proceso de evaluación objetiva y cuantitativa del resultado de un grupo. Haremos esta validación aplicando índices de validación de grupos. Hay tres categorías principales:

### Índices Externos

Se trata de métodos de puntuación que utilizamos si se etiquetan los datos originales, lo que no es el caso más frecuente en este tipo de problemas. Emparejaremos una estructura de grupo con la información conocida de antemano.

![img](https://miro.medium.com/proxy/1*MMtZnLHmzEYmF5K7zfMbHA.png)

El índice más utilizado es el índice de rand ajustado.

* Índice de Rand Ajustado $(ARI) €[-1,1]$

Para entenderlo, primero debemos definir sus componentes:

![img](https://miro.medium.com/proxy/1*n5GidEL8cG-zzhyXQNWqCQ.png)

$a$ es el número de puntos que están en el mismo cluster tanto en C como en K

$b$ es el número de puntos que se encuentran en los diferentes clusters tanto en C como en K.

$n$ = es el número total de muestras

![img](https://miro.medium.com/proxy/1*tSJ0NX7ZHwqpsRVhQrSebA.png)

El ARI puede obtener valores que van de -1 a 1. Cuanto más alto sea el valor, mejor se ajusta a los datos originales.

### Índices de Validación Interna

En el aprendizaje no supervisado, trabajaremos con datos no etiquetados y es entonces cuando los índices internos son más útiles.

Uno de los índices más comunes es el Coeficiente de Silueta.

* Coeficiente de silueta:

Hay un Coeficiente de Silueta para cada punto de datos.

![img](https://miro.medium.com/proxy/1*qydd2In0-dD7jo8yXfGVuQ.png)

## Conclusión

Hemos hecho una primera introducción al aprendizaje no supervisado y a los principales algoritmos de clustering.

Posteriormente repasaremos una implementación que servirá como ejemplo para construir un modelo K-means y revisaremos y pondremos en práctica los conceptos explicados.