<img src="./Archivos/miad4.png" width=800x>

# Visualización

En este taller implementarás métodos de las librerías `ipywidgets` y `plotly`, para integrarlos en procesos de visualización de datos.

## Habilidades en práctica

Al realizar este taller podrás revisar tu progreso para:

**1.** Crear diferentes tipos de visualizaciones en `plotly` y personalizarlas de manera amigable. <br />
**2.** Utilizar `ipywidgets` para explorar datos de forma interactiva. <br />
**3.** Crear visualizaciones interactivas en `plotly` con `ipywidgets`.

## Instrucciones

En cada uno de los siguientes ejercicios deberás escribir el código solicitado estrictamente en las celdas indicadas para ello, teniendo en cuenta las siguientes recomendaciones:

* No crear, eliminar o modificar celdas de este Notebook (salvo lo que se te indique).

Esta es una actividad calificada y, por lo tanto, debe ser resuelta individualmente.

## Ejercicios

En la siguente celda encuentras declarados los paquetes necesarios para el desarollo de este taller.

In [17]:
# Esta celda no es modificable.
import plotly.graph_objects as go
import ipywidgets as widgets
import pandas as pd
from ipywidgets import interactive
import numpy as np
from scipy import stats
from google.colab import output

## Estadísticas bancarias

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'BankChurners.csv'. Utiliza esta información para dar respuesta a los ejercicios 1 y 2.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
|  CLIENTNUM  | Número de cliente|
|  Attrition_Flag | Si la cuenta del cliente se encuentra activa |
|  Customer_Age  | Edad del cliente|
|  Gender  | Género de cliente|
|  Dependent_count  | Número de personas a cargo|
|  Education_Level | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
|  Income_Category  | Categoría de ingresos anuales del titular de la cuenta|
|  Card_Category  |  Tipo de tarjeta (Azul, Plata, Oro, Platino)|
|  Months_on_book  | Periodo de relación con el banco|
|  Total_Relationship_Count  | Número total de productos del cliente|
|  Months_Inactive_12_mon | Número de meses de inactividad en los últimos 12 meses|
|  Contacts_Count_12_mon  | Número de contactos en los últimos 12 meses|
|  Credit_Limit  | Límite de crédito de la tarjeta de crédito|
|  Total_Revolving_Bal | Saldo rotativo total de la tarjeta de crédito|
|  Avg_Open_To_Buy  | Línea de crédito abierta (media de los últimos 12 meses)|
|  Total_Amt_Chng_Q4_Q1  | Cambio en el monto de transacciones (cuarto trimestre a primer trimestre) |
|  Total_Trans_Amt  | Monto total de las transacciones (últimos 12 meses)|
|  Total_Trans_Ct  | Recuento total de transacciones (últimos 12 meses)|
|  Total_Ct_Chng_Q4_Q1  | Cambio en el número de transacciones (cuarto trimestre a primer trimestre) |
|  Avg_Utilization_Ratio  | Ratio de utilización media de la tarjeta|

In [3]:
# Esta celda no es modificable.

df = pd.read_csv('BankChurners.csv')
df.head(2)

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,5,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,6,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105


### Ejercicio 1
Utiliza `plotly` para realizar un  diagramas de torta sobre el estado conyugal de los clientes (resaltando el más predominante).

In [5]:
# YOUR CODE HERE

etiquetas = df.groupby('Marital_Status')['Customer_Age'].count().index
valores = df.groupby('Marital_Status')['Customer_Age'].count().values

fig = go.Figure(data = [go.Pie(labels = etiquetas,
                               values = valores,
                               pull=[0, 0.1, 0, 0])])
fig.update_layout(title_text = "Estado Conyugal Clientes")
fig.show()

### Ejercicio 2
Utiliza `plotly` para realizar un gráfico que permita verificar si el cambio en el monto de transacciones (cuarto trimestre a primer trimestre) se ajusta a una distribución normal.

In [8]:
df.columns

Index(['CLIENTNUM', 'Attrition_Flag', 'Customer_Age', 'Gender',
       'Dependent_count', 'Education_Level', 'Marital_Status',
       'Income_Category', 'Card_Category', 'Months_on_book',
       'Total_Relationship_Count', 'Months_Inactive_12_mon',
       'Contacts_Count_12_mon', 'Credit_Limit', 'Total_Revolving_Bal',
       'Avg_Open_To_Buy', 'Total_Amt_Chng_Q4_Q1', 'Total_Trans_Amt',
       'Total_Trans_Ct', 'Total_Ct_Chng_Q4_Q1', 'Avg_Utilization_Ratio'],
      dtype='object')

In [9]:
# YOUR CODE HERE
# Ajuste de una distribución normal
qq = stats.probplot(df["Total_Amt_Chng_Q4_Q1"], dist = 'norm') 
# Cuantil max y min de la distribución normal
x = np.array([qq[0][0][0], qq[0][0][-1]]) 

fig = go.Figure(data = go.Scatter(x = qq[0][0], # Cuantiles teóricos
                                  y = qq[0][1], # Valores de muestra ordenados
                                  mode = 'markers',
                                  marker_size = 4))

# Dist normal
fig.add_scatter(x = x,
                # Normal ajustada a los mínimos cuadrados
                y = qq[1][0] * x + qq[1][1],
                mode = 'lines',
                line_width = 2,
                line_color = "orange")

fig.update_layout(title_text = "Probabilidad: Total_Amt_Chng_Q4_Q1 vs. Dist. Normal",
                 xaxis_title = "Cuantil teórico",
                 yaxis_title = "Valores ordenados")
fig.layout.update(showlegend = False)
fig.show()




**Conclusión:**
Obsevamos que los datos no se ajustan a una distribución normal con un sesgo hacia la derecha 

## Base de datos de mercadeo

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'marketing_data.csv'. Utiliza esta información para dar respuesta a los ejercicios 3, 4 y 5.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
| ID | Identificador único del cliente |
| Year_Birth | Año de nacimiento del cliente |
| Education | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
| Income | Ingresos anuales del hogar del cliente |
| Kidhome | Número de niños en el hogar|
| Teenhome | Número de adolescentes en el hogar|
| Dt_Customer | Fecha de inscripción del cliente en la empresa |
| Recency | Número de días desde la última compra del cliente |
| MntWines | Gastos en vino durante los dos últimos años |
| MntFruits | Gastos en frutas durante los dos últimos años |
| MntMeatProducts | Gastos en productos cárnicos durante los dos últimos años |
| MntFishProducts | Gastos en pescado durante los dos últimos años |
| MntSweetProducts | Gastos en dulces durante los dos últimos años |
| MntGoldProds | Gastos en oro durante los dos últimos años |
| NumDealsPurchases | Número de compras realizadas con un descuento |
| NumWebPurchases| Número de compras realizadas a través del sitio web de la empresa |
| NumCatalogPurchases | Número de compras realizadas por catálogo |
| NumStorePurchases | Número de compras realizadas directamente en las tiendas |
| NumWebVisitsMonth | Número de visitas al sitio web de la empresa en el último mes |
| AcceptedCmp1 | 1 si el cliente aceptó la oferta en la primera campaña, 0 en caso contrario |
| Response | 1 si el cliente aceptó la oferta en la última campaña, 0 en caso contrario |
| Complain | 1 si el cliente se ha quejado en los últimos 2 años, 0 en caso contrario |
| Country | País de ubicación del cliente |


In [11]:
mercadeo = pd.read_csv('marketing_data.csv')
mercadeo.head(2)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,104,379,111,189,218,1,4,4,6,1,0,0,0,0,0,1,0,SP
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,5,64,7,0,37,1,7,3,7,5,0,0,0,0,1,1,0,CA


### Ejercicio 3
Utiliza `plotly` para realizar un gráfico de dispersión que permita visualizar la relación que existe entre las variables 'Year_Birth' y 'MntWines'.

In [12]:
# YOUR CODE HERE
fig = go.Figure(data = go.Scatter(x = mercadeo["Year_Birth"], # Valores de muestra
                                 y = mercadeo["MntWines"] , # Cuantiles empíricos
                                 mode = 'markers',
                                 marker_size = 4))
fig.update_layout(xaxis_title = "Year_Birth",
                  yaxis_title = "MntWines")
fig.show()

### Ejercicio 4
Utiliza `ipywidgets` para filtrar las observaciones de la base de datos de acuerdo con los siguentes criterios:
1. Nivel máximo de escolaridad alcanzado.
2. Número de niños en el hogar.
3. Número de adolescentes en el hogar.

In [14]:
mercadeo.head(3)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,104,379,111,189,218,1,4,4,6,1,0,0,0,0,0,1,0,SP
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,5,64,7,0,37,1,7,3,7,5,0,0,0,0,1,1,0,CA
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,11,59,15,2,30,1,3,2,5,2,0,0,0,0,0,0,0,US


In [15]:
def filtrar(Criterio_de_educacion, Criterio_de_Kidhome, Criterio_de_Teenhome):
    # opción que Filtra el dataframe acorde a maximo de escolaridad numero niños en el hogar y numero de adolecentes 
    if all(criterio == "Todos" for criterio in (Criterio_de_educacion, Criterio_de_Kidhome, Criterio_de_Teenhome)) is False:
        display(mercadeo[(mercadeo["Education"] == Criterio_de_educacion if Criterio_de_educacion != "Todos" else True) &
                         (mercadeo["Kidhome"] == Criterio_de_Kidhome if Criterio_de_Kidhome != "Todos" else True) &
                         (mercadeo["Teenhome"] == Criterio_de_Teenhome if Criterio_de_Teenhome != "Todos" else True)])           
    else:
        display(mercadeo)

# lista de opciones de una categoría
def nuevas_categorias(columna):
    opciones_categoria = mercadeo[columna].unique().tolist()
    opciones_categoria.sort()
    opciones_categoria.insert(0, "Todos")
    return opciones_categoria

    
interactive_plot = interactive(
                                filtrar, #Filtrar y mostrar el dataframe
                                Criterio_de_educacion = nuevas_categorias("Education"), # Dropdown para criterio Education
                                Criterio_de_Kidhome = nuevas_categorias("Kidhome"), # Dropdown para criterio Kidhome
                                Criterio_de_Teenhome = nuevas_categorias("Teenhome") # Dropdown para criterio Teenhome
                              )

display(interactive_plot)

interactive(children=(Dropdown(description='Criterio_de_educacion', options=('Todos', '2n Cycle', 'Basic', 'Gr…

### Ejercicio 5
Utiliza `ipywidgets` y `plotly` para generar un gráfico con controles que:
1. Cuente con un control para seleccionar una de las variable de Gastos frente a los ingresos.
1. Genere un gráfico de dispersión
2. Genere un diagrama de caja.

In [28]:
from google.colab import output
output.enable_custom_widget_manager()

In [None]:
# Lista Despegable 
gastos = widgets.Dropdown(
                        description = 'Variable de gastoss:',
                        options = ["MntWines", "MntFruits", "MntMeatProducts",
                                   "MntFishProducts", "MntSweetProducts", "MntGoldProds"],
                        style = {'description_width': 'initial'}       # Mostrar el nombre completo.
                       )

# Gráfico de dispersión
fig_scatter = go.FigureWidget(
    data = go.Scatter(mode = 'markers', y = mercadeo["Income"]),
    layout = go.Layout(
        xaxis_title = 'gastos',
        yaxis_title = 'Income',
        title_text = 'Gastos {} vs. Ingreso'.format(gastos.value)))

# Gráfico de caja
fig_box = go.FigureWidget(
    data = go.Box(y = mercadeo["Income"], name = "Ingreso"),
    layout = go.Layout(
        title = 'Gráfico de caja: Ingreso')
)

# Filtro datos escogidos
def filtro():
    filtrar = mercadeo[[gastos.value, "Income"]]
    # Cambiar los datos de X para el diagrama de dispersión según el tipo de gastos elegido
    fig_scatter.data[0].x = filtrar[gastos.value]
    fig_scatter.update_layout(title_text = 'Dispersión gastos {} vs. Ingreso'.format(gastos.value))

# Filtrar por medio de lista despegable
def respuesta(cambios):
    filtro()

# Cambio de opción lista despegable
gastos.observe(respuesta, names = 'value')

# visualización
parte_superior = widgets.HBox([gastos]) # Orden horizontal lista despegable
parte_inferior = widgets.HBox([fig_scatter, fig_box]) # Orden horizontal gráficos
visualizacion = widgets.VBox([parte_superior, parte_inferior]) # Orden vertical de ambos elementos

display(visualizacion)

## Referencias
 
Daoud, J (2020). Marketing Analytics. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/jackdaoud/marketing-data

Goyal, S (2020). Credit Card customers. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/sakshigoyal7/credit-card-customers

## Créditos

**Autor(es):** Juan David Reyes Jaimes, Diego Alejandro Cely Gómez

**Fecha última actualización:** 17/09/2021