# Sprint 18 - Modelos No Supervisados (Ejercicios)

En esta práctica vamos a exponer acerca del funcionamiento que tiene uno de los algoritmos más conocidos para realizar tareas de agrupamiento y que se denomina **K-Means**. Vale indicar que este algoritmo es uno de varios existentes en el ámbito del aprendizaje computacional de tipo **no supervisado**, donde el interés radica en detectar patrones específicos a través de variables explicativas (atributos). 

Con este propósito se cuenta con el dataset simulado **clusters**, el cual contiene las siguientes columnas:

* X: primer atributo con una distribución estadística particular.
* Y: segundo atributo con una distribución distinta de X.
* C: grupo conocido y al cual pertenece cada registro.

En este sentido, si bien se conoce *a priori* cuál es el grupo (cluster) al que cada registro pertenece, el objetivo será enseñar a la computadora para que por si sola sea capaz de agrupar de manera satisfactoria las observaciones del dataset, esto es, queremos que aprenda a detectar este patrón concreto en nuestros datos.

## Entendimiento de los datos

Importa las librerías **pandas**, **numpy**, **matplotlib** así como la función `MinMaxScaler` de **Scikit-Learn**.

Carga los datos y explora su contenido.

Visualiza los datos mediante un gráfico de dispersión en el que las variables X y Y se encuentren en los ejes, y el color de los puntos sea el grupo (columna C) al que pertenecen.

## Preparación de datos

Renombra las columnas conforme los siguientes criterios:

* X: v1
* Y: v2
* C: cluster

Separa el dataset en atributos y variable objetivo.

Utilizando la función `MinMaxScaler`, normaliza los atributos a fin de evitar que el algoritmo a implementar se sesge por las magnitudes de las variables.

## Creación de modelo con algoritmo K-Means

El algoritmo **K-Means** busca agrupar los atributos $X$ dado un número pre-definido de clústers $k$. Vamos a implementarlo paso a paso para luego contrastar los resultados alcanzados con los grupos (clusters) reales.

### Ejercicio 1

Primero, define la variable `k` con el número de grupos que queremos crear, esto es, 4.

A continuación selecciona de forma aleatoria $k$ observaciones aleatorias del conjunto de datos $X$. Utiliza el método `sample` con el argumento `random_state = 123` para que sean replicables tus cálculos, y guarda el resultado en la variable `centros`.

Estima para cada observación de $X$ la distancia que mantiene con cada uno de los centros. Para esto considera que la distancia $d$ se obtiene aplicando la siguiente fórmula:

$$ d = \sqrt{(v_1 - v_1^c)^2 + (v_2 - v_2^c)^2} $$

donde $v_1^c$ y $v_2^c$ son los valores de cada atributo correspondientes a un centro $c$.

Guarda el resultado en un dataframe llamado `distancias` que debería tener el mismo número de filas que $X$ y 4 columnas (una por cada distancia calculada a cada centro). Las columnas de este dataframe deben llamarse d1, d2, d3 y d4. 

Utilizando el método `apply` y la función a continuación asigna el grupo al cual corresponde inicialmente cada observación.

```py
def fun_grupo (row):
    if row["d1"] == min(row):
        return 1
    elif row["d2"] == min(row):
        return 2
    elif row["d3"] == min(row):
        return 3
    else:
        return 4
```

Nota que cada grupo inicial será definido por la distancia mínima a alguno de los centros aleatorios escogidos.

Crea nuevamente un gráfico de dispersión con los grupos iniciales encontrados para cada dato.

### Ejercicio 2

Como era de esperarse los grupos iniciales no parecen estar correctos. No te preocupes porque el algoritmo **K-Means** aún no termina.

Vuelve a calcular nuevos centros solamente que ahora determínalos como los 4 puntos promedio de los grupos iniciales. Reemplaza la variable `centros` por este nuevo resultado.

Nuevamente calcula la distancia a estos nuevos centros y extrae grupos nuevos en base al criterio de distancia mínima ya expuestos.

Nuevamente visualiza en un gráfico de dispersión cómo queda el agrupamiento generado por el algoritmo.

Estamos mejorando pero aún no logramos obtener los clusters deseados. Para finalizar esta parte, recalcula los centros en base a los nuevos grupos.

### Ejercicio 3

Ya te habrás dado cuenta que este es un proceso iterativo que tiende a mejorar con cada recálculo de los centros y las distancias. Entonces, utiliza un bucle for de 25 ciclos para repetirlo.

Visualiza con el gráfico de dispersión el agrupamiento alcanzado luego de estas 25 iteraciones.

Luego de todo este trabajo, el agrupamiento aún no es el deseado. No hace falta que lo hagas pero incluso si repetimos el bucle durante más ciclos, no lograremos grandes cambios. La razón de este problema radica en uno de los primeros pasos: la selección inicial de centros aleatorios.

Intenta descubrir porqué este punto en nuestro proceso puede estar siendo problemático.

### Ejercicio 4

Una variante al algoritmo **K-Means** corrige el problema antes descrito y se llama **K-Means++**. Veamos cómo este segundo procedimiento define los centros iniciales.

Escoge una observación cualquiera del conjunto $X$ y guárdala en `centros`. Puedes volver a aplicar `random_state = 123` por replicabilidad.

Calcula la distancia de todas las observaciones respecto a este centro. Puedes reutilizar tu código anterior con unas ligeras modificaciones por lo que deberías generar un dataframe `distancias` nuevamente (solo que ahora con una columna).

Selecciona los 10 casos con la mayor distancia y guarda sus índices en `c2`.

Utilizando estos índices, extrae el nuevo centro desde $X$ como el valor promedio de los atributos correspondientes y adiciónalo en `centros`.

Vuelve a recalcular las distancias de las observaciones con respecto a estos centros en un dataframe `distancias`.

Calcula en una nueva columna el producto de las dos distancias obtenidas para cada registro.

Selecciona los 10 casos con la mayor "distancia producto" y guarda sus índices en `c3`.

Utilizando estos índices extrae el nuevo centro desde $X$ como el promedio de los atributos correspondientes e incorpóralo como una fila adicional en `centros`.

Ya debes tener una noción de qué estamos haciendo aquí. Utiliza el mismo procedimiento para obtener el último centro inicial.

### Ejercicio 5

Ya tenemos los nuevos centros iniciales. Vuelve a ejecutar el bucle for del ejercicio 3 para ver si se mejora la agrupación resultante. 

Visualiza los resultados con el gráfico de dispersión correspondiente.

El resultado es significativamente mejor. La computadora ha aprendido a agrupar solamente observando los atributos con este algoritmo.

### Ejercicio 6

Ahora que ya conocemos cómo funciona este algoritmo, veamos su implementación directamente con **Scikit-Learn**. Importa para esto la función `KMeans` del módulo `cluster`. 

Crea y entrena un modelo con este algoritmo. Incluye el parámetro `n_clusters` con la cantidad de grupos deseados, esto es, 4.

Genera predicciones a partir de las observaciones del conjunto $X$.

Visualiza los resultados alcanzados con el gráfico de dispersión correspondiente.