# Sprint 18 - Modelos No Supervisados (Sesiones)

**Versión para estudiantes**

En este caso vamos a dar una introducción a los **modelos no supervisados**. Si recuerdas, este tipo de aprendizaje computacional busca identificar patrones distintivos en los datos a partir de la información extraída de los atributos, y sin contar con una variable objetivo de la cual aprender. Por consiguiente, puede aplicarse en distintos ámbitos entre los que destacan:

* Transformación de variables
* Sistemas de recomendación
* Perfilamiento
* Detección de anomalías

Vale mencionar que al respecto de la primera aplicación, debes saber que algoritmos que ya conoces como el *PCA* pertenecen justamente a esta familia del aprendizaje no supervisado. Su propósito es transformar dimensionalmente atributos generando en conseucneica patrones que conservan las propiedades fundamentales de los datos.

Así también, empresas como Amazon o Netflix utilizan el comportamiento de consumo de sus usuarios como insumos para este tipo de modelos, y ofrecer a partir de allí sugerencias de productos, series o películas que "te pueden interesar".

Volviendo a nuestro caso, vamos a implementar uno de los muchos algoritmos existentes para desarrollar un perfilamiento y detectar anomalías conocido como **DBSCAN (Density-Based Spatial Clustering of Applications with Noise)**. 

## Entendimiento del contexto

Una local de venta minorista de artículos de vestimenta en un centro comercial desea generar un análisis de sus clientes. Dicho análisis busca cumplir con dos objetivos:

* En primer lugar desea caracterizar demográficamente a sus distintos tipos de *buyer personas* a fin de generar campañas de marketing más acertivas de acuerdo a sus distintos mercados meta.
* Adicionalmente, desea ser capaz de identificar si entre sus clientes del último año existen algunos casos atípicos que requieran un enfoque más "personal y directo".

Visto esto, le ha contratado a usted para que le asista con sus conocimientos en análisis y ciencia de datos.

Vale mencionar que para poder conocer mejor a los buyer persona siempre conviene estudiar las variables que representan acciones, comportamientos y preferencias, pues esto representa mejora a un individuo. En concreto y a modo de ejemplo, tiene más valor en la construcción de estos grupos los gustos de una persona antes que su edad. 

## Entendimiento de los datos

Importa las librerías con las que trabajarás. Además de las que usualmente utilizas, carga lo siguiente:

* **Seaborn** que es una librería gráfica complementaria a **matplotlib**.
* La función **MinMaxScaler** y el módulo **metrics** de **Skikit-Learn**.
* La función **DBSCAN** del módulo **sklearn.cluster**. 

El local ha compartido con usted la información contenida en el archivo `mall_customers` el cual cuenta con información de 200 clientes en el último año, y consta de las siguientes columnas:

* **Genre**: El genero del cliente (Male, Female).
* **Age**: La edad del cliente.
* **Annual Income (k$)**: El ingreso monetario reportado por cada cliente en una encuesta que realizó el local previamente.
* **Spending Score (1-100)**: Una calificación propia del local que califica entre 1 y 100 a cada cliente de acuerdo a su nivel de consumo de sus productos.

Carga este dataset y explora su contenido para generar a partir de allí un objetivo técnico, un detalle de los algoritmos y métricas a utilizar, y un plan de acción para preparación e ingeniería de datos.

**OBJETIVO TÉCNICO**

< Aquí tu respuesta >

**MÉTODO Y MÉTRICAS DE RENDIMIENTO**

< Aquí tu respuesta >

**PLAN DE ACCIÓN PARA PREPARACIÓN E INGENIERÍA DE DATOS**

< Aquí tu respuesta >

## Preparación de datos

Ejecuta tu plan de acción en lo referente a la preparación de los datos.

## Ingeniería de atributos

Lleva a cabo tu plan de acción en los refernte a ingeniería de datos.

## Creación de modelo base

A diferencia de otros algoritmos de tipo no supervisado, el DBSCAN permite la ejecución de dos tareas simultánes: 

* Agrupar o *clusterizar* datos
* Detectar valores atípicos o anómalos.

En cuanto a la primera tarea, el agrupamiento lo realiza basándose en la distribución original de los datos y aplicando los siguientes criterios:

* Todos los datos que cuenten con un número suficiente de vecinos cercanos se denominan **puntos nucleares** y son candidatos a ser el centro de un cluster.
* Si dos o más **puntos nucleares** comparten una misma vecindad, se dice que están **denso - conectados**, y pueden unirse junto con todos sus vecinos para conformar un mismo cluster.
* Si un punto no pertenece a ninguna vecindad, se lo denomina un **punto aislado** y puede considerarse una anomalía.

![](dbscan.PNG)

En la gráfica anterior, nótese que los datos $n_i$ corresponden a puntos nucleares, y que de ellos $n_1$ no se encuentra denso - conectado a los demás, mientras que $n_2, n_3, n_4$ sí lo están entre ellos. Por tanto, se crean dos clusters distintos: el primero comprendido por $n_1$ y sus vecinos, y un segundo comprendido por los demás punto nucleares y sus vecinos.

Adicionalmente, nótese que existen dos datos que no pertenecen a ninguna vecindad, estos se consideran como anomalías.

De lo anterior, se desprende que este algoritmo requiere de dos hiperparámetros:

* **epsilon** que corresponde al umbral de distancia de cada punto de datos para considerar a otros puntos como sus vecinos. 
* **k** que corresponde al número mínimo de vecinos de cada punto para considerarlo como "nuclear".

Utiliza la función **DBSCAN** para definir y entrenar un modelo basado en este algoritmo y como punto de partida utiliza los argumentos `eps = 0.1` y `min_samples = 5` (estos son los hiperparámetros antes mencionados). 

Extrae los clusters identificados por el modelo para los datos con los que entrenó mediante el atributo `labels_`.

Incorpora estos resultados en el dataset que contiene toda la información de clientes y guarda esto en un nuevo dataframe.

Comprendamos los resultados alcanzados. El valor de **-1** en algunos registros evidencia que de acuerdo a este modelo estos son atípicos. Por su parte, el resto de clusters se representan por números mayores o iguales a 0, por lo que bajo este modelo base, existen 3 grupos de clientes.

Visualiza estos resultados mediante un gráfico de dispersión en el que los colores de los puntos den cuenta del cluster al que pertenece cada dato.

El modelo no parece estar agrupando de manera tan adecuada, aunque es capaz de identificar anomalías de forma relativamente adecuada. 

Confirma esta afirmación mediante el cálculo de la **Silueta**.

Esta métrica puede tomar valores entre -1 y 1, donde -1 especifica un agrupamiento de mala calidad, y 1 a aquel de buena calidad. Si gustas investigar más sobre cómo obtenerla te sugiero revisar el siguiente artículo:

https://en.wikipedia.org/wiki/Silhouette_(clustering)

## Creación de modelo optimizado

Como vimos el algoritmo **DBSCAN** cuenta con dos hiperparámetros que pueden modificarse para mejorar el rendimiento del modelo. Por tanto, encuentra los valores de épsilon y k que maximizan la métrica de Silueta. 

Implementa estos valores para crear un modelo de agrupamiento y detección de anomalías óptimo.

El resultado alcanzado es bastante mejor en términos de asertividad generándose 6 tipologías de clientes distintas y un 5% de registros anómalos.

## Implementación de modelo 

Para concluir traduce estos resultados para responder a la problemática de negocios planteada. En primer lugar genera una descripción de las características demográficas (género y edad) distintivas de los grupos de clientes encontrados.

Finalmente, detalla aquellos casos que son anómalos para el registro del local.