#**Laboratorio #2: ¡Colocando en práctica algunos modelos de aprendizaje supervisado**!

##**Acerca del proyecto**
Hoy en día todos los comercios ofrecen sistemas de afiliaciones para sus clientes, esto con el fin de brindarles descuentos y mejorar su experiencia de compra por medio de la aplicación de distintas estrategias de marketing. Ahora bien, supongamos que eres propietario de un supermercado muy reconocido, y a lo largo de los años, has podido recolectar algunos datos básicos sobre tus clientes, tales como su número de identificación, edad, sexo, ingresos anuales y **puntuación de gasto** (un número asignado a partir del comportamiento del cliente y sus datos de compra).

Tu objetivo será encontrar aquellos clientes que podrían llegar a ser fieles a tu negocio, es decir que pueden alcanzar una **puntuación o valor de gasto altos**. Por ello, ten en cuenta que estas serán las **variables target** durante todo este proyecto, y toda la información que encuentres será util para que tu equipo de marketing tenga una idea de la situación del mercado, y posteriormente planifique estrategias que atraigan a estos clientes.

Nota: el valor de gasto será una variable que calcularás más adelante, por eso no la encontrarás en la tabla que sigue.

##**Sobre el dataset**
###**Mall_Customers.csv**
Se trata de una colección de 812 registros de clientes y 5 columnas que contienen la siguiente información demográfica:

| Columna | Descripción |
|--------|-------------|
| `CustomerID` | número entero que identifica a un cliente |
| `Gender` | variable categórica que indica el sexo del cliente (male/female)|
| `Age` | número entero que indica la edad del cliente|
| `Annual Income (k$)` | número entero que indica los ingresos del cliente en miles de dólares |
| `Spending Score (1-100)` | número entero del 1 al 100, donde los valores más altos indican un mayor comportamiento de gasto. |



![](https://www.aimtechnologies.co/wp-content/uploads/2023/09/customer-segmentation-social.png)

#**¡Manos a la obra!**

## **Importa las librerías necesarias**

In [None]:
# Escribe el código necesario para importar pandas, matplotlib (pyplot en específico), numpy y seaborn. Además, agrega los alias de pd, plt, np y sb, respectivamente.


## **Carga el dataset**
Crea un DataFrame llamado `costumers_df`, a partir del archivo CSV llamado `"Mall_Costumers.csv"`. Ten en cuenta el ambiente en donde estes trabajando este notebook (Google Colab o Jupyter).

In [None]:
# Escribe aquí el código necesario


##**Vista preliminar del dataset**

In [None]:
# Averigua el tamaño del dataset.


In [None]:
# Revisa los tipos de datos y la cantidad de valores no nulos para cada columna.


In [None]:
# Visualiza las primeras cinco filas del data frame.


In [None]:
# Visualiza las últimas cinco filas del data frame.


## **Limpieza del dataset**
Propone una limpieza que incluya los siguientes pasos:
* Eliminación de datos repetidos
* Identificación de valores perdidos
* Lidiar con valores perdidos
* Corregir formato de datos

###**Eliminar datos repetidos**

In [None]:
#Trabaja SIEMPRE sobre una copia profunda del dataset original, llamala df_copy


In [None]:
# Determina el número de filas duplicadas del dataframe y elimínalas si es necesario.



In [None]:
#Verifica la eliminación de las filas duplicadas (si es necesario)


###**Identificar valores perdidos**
* ***Convertir "?" a NaN:*** para que pandas reconozca la existencia de valores perdidos que tienen el símbolo "?" dentro del *data frame*, es necesario marcarlos como tal. En este caso, el marcador predeterminado que utiliza Python es **NaN (Not a Number)**.

In [None]:
# Escribe el código necesario para cumplir lo anterior.
# Visualiza las últimas filas del dataframe para ver los cambios


* ***Evaluar la cantidad de datos perdidos:*** una vez convertidos los datos perdidos a los valores predeterminados de Python, pasamos a utilizar funciones integradas de Python que nos permiten identificar estos datos

In [None]:
# Suma la cantidad de valores faltantes o nulos por cada variable del dataframe


###**Lidiar con valores perdidos**
Cuando tenemos un *dataset* con valores perdidos, podemos tomar las siguientes decisiones:

* Eliminar datos:
 *   Eliminar toda la(s) fila(s)
 *   Eliminar toda la columna

* Reemplazar datos:
 *   Reemplazar por la media (o promedio)
 *   Reemplazar por la frecuencia
 *   Reemplazar en función de otras funciones

Colocar en práctica al menos 2 de los anteriores métodos y **justifica** porque decidiste utilizarlos.

In [None]:
#Lidiar con valores faltantes de la columna Age


In [None]:
#Verifa los cambios realizados a la columna Age


In [None]:
#Lidiar con valores faltantes de la columna Annual Income (k$)


In [None]:
#Verifa los cambios realizados a la columna Annual Income (k$)


In [None]:
#Lidiar con valores faltantes de la columna Spending Score (1-100)


In [None]:
#Verifa los cambios realizados a la columna Spending Score (1-100)


In [None]:
#Verifica todos los cambios realizados imprimiendo las ultimas 100 filas del dataset


**Muy bien⚡🤖!**  Ahora, tenemos un *dataset* sin valores perdidos.

###**Corregir formato de datos**
El último paso en la limpieza de datos es verificar y asegurarse de que todos los datos estén en el formato correcto (*int*, *float*, *text* u otro). Ejecuta los pasos necesarios para cumplir con esta tarea y guíate con la tabla que contiene las descripciones de las variables al principio de este notebook.

In [None]:
# Escribe el código necesario para cumplir lo anterior.


In [None]:
# Revisa los tipos de datos de cada variable después de la conversión


**Excelente 😎🌻!**  Ahora, ya tenemos el conjunto de datos limpio, sin valores perdidos y con todos los datos en su formato adecuado.

##**Binary Encoding**
 Esta estrategia consiste en representar cada categoría como una secuencia binaria única. En lugar de crear una columna separada para cada categoría, como en el one-hot encoding, la codificación binaria asigna un número entero único a cada categoría y luego representa este número en su forma binaria. Investiga como usar un labelEncoder de la librería de Scikit-Learn para cambiar la variable Gender.

In [None]:
# Escribe el código necesario para cumplir lo anterior.
# Haz todo el proceso en la misma columna, no crees una nueva.
#0 -> Female
#1 -> Male


##**Estandarización de los datos**

In [None]:
#Convierte los valores de la columna de Annual Income (k$) a miles
#Asegúrate que después de la operación, la columna quede con el tipo de dato adecuado


In [None]:
#Imprime las primeras filas del dataset para ver los cambios


##**Encontrando el valor del gasto de los clientes en el año 2023**
Junto a tu equipo de finanzas han encontrado que el valor aproximado que gastaron tus clientes durante el 2023, puede calcularse a partir de sus ingresos anuales y puntaje de gasto, por lo que a continuación harás las operaciones necesarias para encontrarlo.

In [None]:
# Calcula la mitad de cada valor de Spending Score (1-100) y guárdalos en una variable llamada mid_score


In [None]:
# Calcula el producto entre Annual Income (k$) y el porcentaje que representa mid_score,
# Luego asigna estos valores a una nueva columna llamada Spending Value (2023)


In [None]:
# Imprime las primeras filas del DataFrame para verificar los resultados


##**Análisis de outliers**

In [None]:
# Genera un gráfico de caja (boxplot) para cada columna en el data frame df_copy
# Si encuentras outliers, elimínalos solo si representan un porcentaje menor o igual al 4%


##**Análisis de correlación de las variables**

In [None]:
# Utiliza la biblioteca Seaborn para crear un mapa de calor (heatmap) o matriz de correlación de las variables del dataset.


In [None]:
#Ahora grafica la correlación que tiene cada una de ellas contra la variable Spending Score(1-100) y organízalas de mayor a menor.


## **Agrupación por intervalos de la variable target**
Cuando los valores de una variable son muchos, conviene agrupar los datos en intervalos o clases para así realizar un mejor análisis e interpretación de ellos.

In [None]:
#Genera 5 intervalos para agrupar la variable Spending Score (1-100)
#Guárdalos en una nueva columna que se llame Spending Score_encoded
#Verifica que la nueva columna sea de tipo int

#0-> 0-20
#1-> 20-40
#2-> 40-60
#3-> 60-80
#4-> 80-100

In [None]:
#Genera 5 intervalos para agrupar la variable Age
#Guárdalos en una nueva columna que se llame Age_encoded
#Verifica que la nueva columna sea de tipo int

#0-> 18-28
#1-> 28-38
#2-> 38-48
#3-> 48-58
#4-> 58-70

## **Análisis Univariado**
Incluye:
+ Medidas de tendencia central: media, mediana, moda.
+ Medidas de dispersión: rango, variance, valor máximo y mínimo, cuartiles (incluyendo rango intercuartil) y desviación estándar.

También se pueden se pueden usar gráficos como:
+ Histogramas.
+ Gráficos de barras.
+ Gráficos circulares.

In [None]:
# Obtén algunas estadísticas básicas de tendencia central para cada una de las variables del dataset


In [None]:
#Realiza un gráfico tipo pastel con pandas para ver como esta la distribución de la variable Age_encoded


In [None]:
#Realiza un gráfico tipo pastel con pandas para ver como esta la distribución de la variable target
#Usa la variable Spending Score_encoded para ello.


In [None]:
#Genera un histograma para cada una de las variables numéricas, esto con el fin de ver la dispersión de los datos


##**Ahora si, ¡ya puedes modelar!**

**Contexto general**

Aunque tu supermercado ha estado operando en un área establecida durante un tiempo, recientemente ha habido un cambio significativo en tu entorno comercial: se ha construido una nueva urbanización cerca de tu ubicación.

Este desarrollo urbano ha traído consigo una afluencia de nuevos residentes, lo que significa que tu supermercado está experimentando un aumento en el tráfico de clientes.

Para esta fase deberás **elegir cuál de los siguientes algoritmos aplicar dependiendo de cada caso**:
* **Regresión lineal -->** cuando la apliques debes probar la **simple** y la **multiple**, escalando siempre los datos. Además, realiza el proceso de validación normal y compáralo con K-fold cross validation.
* **KNN -->** antes de aplicarlo calcula el baseline y escala los datos después de realizar su respectiva partición.
* **SVM -->** antes de aplicarlo calcula el baseline, escala los datos después de realizar su respectiva partición, y usa GridSearchCV para encontrar la mejor combinación de hiperparámetros.
* **Decision Tree -->** antes de aplicarlo calcula el baseline, escala los datos después de realizar su respectiva partición, y usa GridSearchCV para encontrar la mejor combinación de hiperparámetros.

👉 Además, deberás realizar un **informe de laboratorio (con extensión máx de 4 pág.)** que condense lo siguiente:

* Interpretación de cada una de las gráficas generadas hasta el momento (fase de análisis).
* Justificación de la elección de los algoritmos implementados en cada caso, para ello, ten en cuenta la teoría y características principales de los mismos.
* Explicación de las métricas de evaluación arrojadas para cada algoritmo y qué combinación de parámetros o pasos hiciste para obtener el mejor modelo posible.
* ¿Mejoraron el/los modelos del caso #1 con la aplicación del k-fold cross validation o no hubo una diferencia significativa?
* Investiga para qué calcular el valor de baseline y que significa, ¿cómo fue la precisión de los modelos KNN, SVM y decision tree con respecto a dicho valor?
* ¿Cuál fue el impacto del GridSearchCV en los algoritmos KNN, SVM y decision tree?, ¿Si impacto el uso de esta herramienta en sus desempeños?

👀 NOTA: por favor sé concreto y no incluyas screenshot de bloques de código en tu informe, lo importante son las imágenes de las gráficas obtenidas. Coloca tu nombre y código en el encabezado, no hay necesidad de portada 😀.


###**Caso #1**:
Supongamos que estamos a mitad del año 2023, y como propietario de tu negocio estas entusiasmado por conocer cuál será el valor aproximado de gasto que tus nuevos clientes alcanzarán al final del mismo, esto basándote en los datos de tus clientes actuales. Esta predicción será fundamental para ayudarte a tomar decisiones de negocio relacionadas con inventario, colaboradores y proveedores.

Para ello, deberás eligir el mejor algoritmo que se adapte a esta situación. Es importante que compares e interpretes las métricas arrojadas tanto para el dataset de entrenamiento, como el de test (usa la partición 80-20). Adicionalmente, especifica si este es un problema de clasificación o regresión, y por qué.

####**Probando X modelo**

#####**Creación del modelo**

#####**Evaluación del modelo: training dataset**

#####**Evaluación del modelo: test dataset**

#####**Usando K-fold cross validation**

####**Probando X modelo**

#####**Creación del modelo**

#####**Evaluación del modelo: training dataset**

#####**Evaluación del modelo: test dataset**

#####**Usando K-fold cross validation**

###**Caso #2**:
Supongamos que por el momento tienes acceso a datos como la edad, ingreso anual y género de los nuevos clientes, pero aún no dispones de su puntaje de gasto, ya que este se define a medida que pasa el tiempo. Sin embargo, se te ocurre que puedes abordar esta situación usando los datos de aquellos clientes antiguos (porque ya tienen un puntaje de gasto asignado). La idea entonces es que eligas un algoritmo que te permita hacer predicciones basadas en características similares de clientes existentes.

Es importante que compares e interpretes las métricas arrojadas tanto para el dataset de entrenamiento, como el de test (usa la partición 80-20). Usa la variable de puntaje de gasto codificada. Adicionalmente, especifica si este es un problema de clasificación o regresión, y por qué.

####**Probando X modelo**

#####**Calculando el baseline**

#####**Creando el modelo**

#####**Evaluación del modelo: training dataset**

#####**Evaluación del modelo: test dataset**

###**Caso #3:**
Tu supermercado está considerando realizar un gran pedido de productos para el cuidado personal, pero no estás seguro si deberías enfocarte en productos diseñados para un género específico o si deberías ofrecer una variedad equilibrada para ambos géneros. Para tomar esta decisión de manera más informada, deseas predecir el género de tus nuevos clientes. Esta información te ayudará a determinar qué tipo de productos de cuidado personal podrían ser más populares entre tus clientes potenciales. Lo ideal sería usar un algoritmo que te permita encontrar un hiperplano que pueda separar efectivamente los datos de clientes en diferentes grupos basados en sus características, lo que te permitirá identificar patrones en el comportamiento de compra y tomar decisiones estratégicas sobre qué tipo de productos ofrecer.

Es importante que compares e interpretes las métricas arrojadas tanto para el dataset de entrenamiento, como el de test (usa la partición 80-20). Adicionalmente, especifica si este es un problema de clasificación o regresión, y por qué.

####**Probando X modelo**

#####**Calculando el baseline**

#####**Creando el modelo**

#####**Evaluando el modelo: training dataset**

#####**Evaluando el modelo: test dataset**

#####**Usando GridSearchCV para encontrar los mejores hiperparámetros**

###**Caso #4**
Tu supermercado está buscando formas de mejorar su estrategia de marketing y la experiencia del cliente, por lo que deseas explorar la relación entre la edad de tus clientes y su comportamiento de compra. Para abordar esta pregunta, puedes optar por una técnica que permita clasificar a tus clientes en grupos basados en su edad y analizar cómo estas segmentaciones se correlacionan con diferentes patrones de compra. La idea es que apliques un algoritmo que tenga la capacidad para estructurar los datos de manera jerárquica y facilite la comprensión de las relaciones entre las diferentes variables.

Es importante que compares e interpretes las métricas arrojadas tanto para el dataset de entrenamiento, como el de test (usa la partición 80-20). Usa la variable edad codificada. Adicionalmente, especifica si este es un problema de clasificación o regresión, y por qué.

####**Probando X modelo**

#####**Calculando el baseline**

#####**Creando el modelo**

#####**Evaluando el modelo: training dataset**

#####**Evaluando el modelo: test dataset**

#####**Usando GridSearchCV para encontrar los mejores hiperparámetros**