<img src="./Archivos/miad4.png" width=800x>

# Visualización

En este taller implementarás métodos de las librerías `ipywidgets` y `plotly`, para integrarlos en procesos de visualización de datos.

## Habilidades en práctica

Al realizar este taller podrás revisar tu progreso para:

**1.** Crear diferentes tipos de visualizaciones en `plotly` y personalizarlas de manera amigable. <br />
**2.** Utilizar `ipywidgets` para explorar datos de forma interactiva. <br />
**3.** Crear visualizaciones interactivas en `plotly` con `ipywidgets`.

## Instrucciones

En cada uno de los siguientes ejercicios deberás escribir el código solicitado estrictamente en las celdas indicadas para ello, teniendo en cuenta las siguientes recomendaciones:

* No crear, eliminar o modificar celdas de este Notebook (salvo lo que se te indique).

Esta es una actividad calificada y, por lo tanto, debe ser resuelta individualmente.

## Ejercicios

En la siguente celda encuentras declarados los paquetes necesarios para el desarollo de este taller.

In [2]:
# Esta celda no es modificable.
import plotly.graph_objects as go
import ipywidgets as widgets
import pandas as pd
from ipywidgets import interactive

## Estadísticas bancarias

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'BankChurners.csv'. Utiliza esta información para dar respuesta a los ejercicios 1 y 2.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
|  CLIENTNUM  | Número de cliente|
|  Attrition_Flag | Si la cuenta del cliente se encuentra activa |
|  Customer_Age  | Edad del cliente|
|  Gender  | Género de cliente|
|  Dependent_count  | Número de personas a cargo|
|  Education_Level | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
|  Income_Category  | Categoría de ingresos anuales del titular de la cuenta|
|  Card_Category  |  Tipo de tarjeta (Azul, Plata, Oro, Platino)|
|  Months_on_book  | Periodo de relación con el banco|
|  Total_Relationship_Count  | Número total de productos del cliente|
|  Months_Inactive_12_mon | Número de meses de inactividad en los últimos 12 meses|
|  Contacts_Count_12_mon  | Número de contactos en los últimos 12 meses|
|  Credit_Limit  | Límite de crédito de la tarjeta de crédito|
|  Total_Revolving_Bal | Saldo rotativo total de la tarjeta de crédito|
|  Avg_Open_To_Buy  | Línea de crédito abierta (media de los últimos 12 meses)|
|  Total_Amt_Chng_Q4_Q1  | Cambio en el monto de transacciones (cuarto trimestre a primer trimestre) |
|  Total_Trans_Amt  | Monto total de las transacciones (últimos 12 meses)|
|  Total_Trans_Ct  | Recuento total de transacciones (últimos 12 meses)|
|  Total_Ct_Chng_Q4_Q1  | Cambio en el número de transacciones (cuarto trimestre a primer trimestre) |
|  Avg_Utilization_Ratio  | Ratio de utilización media de la tarjeta|

In [4]:
# Esta celda no es modificable.

df = pd.read_csv('Archivos/BankChurners.csv')
df.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


### Ejercicio 1
Utiliza `plotly` para realizar un  diagramas de torta sobre el estado conyugal de los clientes (resaltando el más predominante).

In [16]:
# YOUR CODE HERE

df_grouped = df.groupby(['Marital_Status']).aggregate({'CLIENTNUM':'count'})

labels = list(df_grouped.index)
values = df_grouped.CLIENTNUM.tolist()

fig = go.Figure(data=[go.Pie(labels=labels, values=values, pull=[0,0.1,0,0])])
fig.show()

### Ejercicio 2
Utiliza `plotly` para realizar un gráfico que permita verificar si el cambio en el monto de transacciones (cuarto trimestre a primer trimestre) se ajusta a una distribución normal.

In [35]:
# YOUR CODE HERE
import numpy as np
import scipy.stats as sps

num_divisions = df['Total_Amt_Chng_Q4_Q1'].shape[0]+1
quantiles = np.arange(1,df['Total_Amt_Chng_Q4_Q1'].shape[0])/num_divisions

qq_x_data = sps.norm.ppf(quantiles)
qq_y_data = np.sort(df['Total_Amt_Chng_Q4_Q1'].tolist())

# guide line data
line_x0 = sps.norm.ppf(0.25)
line_x1 = sps.norm.ppf(0.75)
line_y0 = np.quantile(df['Total_Amt_Chng_Q4_Q1'].tolist(), 0.25)
line_y1 = np.quantile(df['Total_Amt_Chng_Q4_Q1'].tolist(), 0.75)

slope = (line_y1-line_y0)/(line_x1-line_x0)
line_intercept = line_y1 - (slope*line_x1)
x_range_line = np.arange(-3,3,0.001)
y_values_line = (slope*x_range_line) + line_intercept

fig = go.Figure()
fig.add_trace(go.Scatter(x=qq_x_data,
                         y=qq_y_data,
                         mode='markers',
                         marker={'color':'blue'},
                         name='qq data'))
fig.add_trace(go.Scatter(x=x_range_line,
                         y=y_values_line,
                         mode='lines',
                         marker={'color':'red'},
                         name='guide line'))
fig['layout'].update(title='Quantiles',
                     xaxis={
                         'title': 'Theoritical Quantities',
                         'zeroline': True
                     },
                     yaxis={
                         'title': 'Sample Quantities'
                     },
                     showlegend=True,
                    )
fig.show()

La distribución muestra un sesgo positivo por lo tanto no se puede considerar normal

## Base de datos de mercadeo

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'marketing_data.csv'. Utiliza esta información para dar respuesta a los ejercicios 3, 4 y 5.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
| ID | Identificador único del cliente |
| Year_Birth | Año de nacimiento del cliente |
| Education | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
| Income | Ingresos anuales del hogar del cliente |
| Kidhome | Número de niños en el hogar|
| Teenhome | Número de adolescentes en el hogar|
| Dt_Customer | Fecha de inscripción del cliente en la empresa |
| Recency | Número de días desde la última compra del cliente |
| MntWines | Gastos en vino durante los dos últimos años |
| MntFruits | Gastos en frutas durante los dos últimos años |
| MntMeatProducts | Gastos en productos cárnicos durante los dos últimos años |
| MntFishProducts | Gastos en pescado durante los dos últimos años |
| MntSweetProducts | Gastos en dulces durante los dos últimos años |
| MntGoldProds | Gastos en oro durante los dos últimos años |
| NumDealsPurchases | Número de compras realizadas con un descuento |
| NumWebPurchases| Número de compras realizadas a través del sitio web de la empresa |
| NumCatalogPurchases | Número de compras realizadas por catálogo |
| NumStorePurchases | Número de compras realizadas directamente en las tiendas |
| NumWebVisitsMonth | Número de visitas al sitio web de la empresa en el último mes |
| AcceptedCmp1 | 1 si el cliente aceptó la oferta en la primera campaña, 0 en caso contrario |
| Response | 1 si el cliente aceptó la oferta en la última campaña, 0 en caso contrario |
| Complain | 1 si el cliente se ha quejado en los últimos 2 años, 0 en caso contrario |
| Country | País de ubicación del cliente |


In [36]:
mercadeo = pd.read_csv('Archivos/marketing_data.csv')
mercadeo.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,6,1,0,0,0,0,0,1,0,SP
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,5,0,0,0,0,1,1,0,CA
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,5,2,0,0,0,0,0,0,0,US
3,1386,1967,Graduation,Together,32474.0,1,1,5/11/2014,0,10,...,2,7,0,0,0,0,0,0,0,AUS
4,5371,1989,Graduation,Single,21474.0,1,0,4/8/2014,0,6,...,2,7,1,0,0,0,0,1,0,SP


### Ejercicio 3
Utiliza `plotly` para realizar un gráfico de dispersión que permita visualizar la relación que existe entre las variables 'Year_Birth' y 'MntWines'.

In [66]:
# YOUR CODE HERE
fig = go.Figure(data=go.Scatter(x=mercadeo['Year_Birth'], y=mercadeo['MntWines'], mode='markers'))

In [67]:
# YOUR CODE HERE
fig.show()

### Ejercicio 4
Utiliza `ipywidgets` para filtrar las observaciones de la base de datos de acuerdo con los siguentes criterios:
1. Nivel máximo de escolaridad alcanzado.
2. Número de niños en el hogar.
3. Número de adolescentes en el hogar.

In [76]:
# YOUR CODE HERE

def valores_filtro_columna(columna):
    columna = columna.astype(str)       # Convertimos en str los valores de la columna que entra por parámetro.
    valores = columna.unique().tolist() # Guardamos una lista con los valores únicos de la columna que entra por parámetro.
    valores = sorted(valores)           # Organizamos la lista de valores únicos de manera ascedente.
    valores.insert(0, "Todos")          # Agregamos el elemento "Todos" en la primera posición de la lista.
    return valores


def filtrar(Education, Kidhome, Teenhome):
    # Guardamos las columnas de interés en un nuevo DataFrame.
    DF = mercadeo
    
    # Los siguientes cuatro casos ajustan los registros a mostrar de acuerdo con la selección del usuario.
    if  Education == "Todos" and Kidhome== "Todos" and Teenhome== "Todos":
        display(DF)
    elif  Education != "Todos" and Kidhome== "Todos" and Teenhome== "Todos":
        display(DF.loc[DF['Education']==Education])
    elif  Education != "Todos" and Kidhome!= "Todos" and Teenhome== "Todos":
        display(DF.loc[np.logical_and(DF['Education']==Education, DF['Kidhome']==int(Kidhome))])
    elif  Education != "Todos" and Kidhome== "Todos" and Teenhome!= "Todos":
        display(DF.loc[np.logical_and(DF['Education']==Education, DF['Teenhome']==int(Teenhome))])
    elif  Education == "Todos" and Kidhome!= "Todos" and Teenhome== "Todos":
        display(DF.loc[DF['Kidhome']==int(Kidhome)])
    elif  Education == "Todos" and Kidhome!= "Todos" and Teenhome!= "Todos":
        display(DF.loc[np.logical_and(DF['Kidhome']==int(Kidhome), DF['Teenhome']==int(Teenhome))])
    elif  Education == "Todos" and Kidhome== "Todos" and Teenhome!= "Todos":
        display(DF.loc[DF['Teenhome']==int(Teenhome)])
    else:
        display(DF.loc[ np.logical_and(np.logical_and(DF['Education']==Education, DF['Kidhome']==int(Kidhome)),
                                       DF['Teenhome']==int(Teenhome))
                                       
                      ])
   
interactive_plot = interactive(filtrar, 
                               Education = valores_filtro_columna(mercadeo["Education"]),
                               Kidhome = valores_filtro_columna(mercadeo["Kidhome"]),
                               Teenhome = valores_filtro_columna(mercadeo["Teenhome"])
                              )

display(interactive_plot)

interactive(children=(Dropdown(description='Education', options=('Todos', '2n Cycle', 'Basic', 'Graduation', '…

### Ejercicio 5
Utiliza `ipywidgets` y `plotly` para generar un gráfico con controles que:
1. Cuente con un control para seleccionar una de las variable de Gastos frente a los ingresos.
1. Genere un gráfico de dispersión
2. Genere un diagrama de caja.

In [110]:
# YOUR CODE HERE

col_y = 'MntWines'

gastos = widgets.Dropdown(description = "Gastos:",
                        options = ["MntWines","MntFruits","MntMeatProducts","MntFishProducts","MntSweetProducts","MntGoldProds"],
                        style = {'description_width': 'initial'})

fig1 = go.FigureWidget(data = go.Scatter(y = mercadeo["Income"], x=mercadeo[col_y], mode = "markers",marker_color = "palegreen"),
                       layout = go.Layout(title = " Diagrama de Dispersión Ingresos Vs. Gastos",
                                            xaxis_title = "Gastos en...",
                                            yaxis_title = "Ingresos anuales del hogar del cliente"))

fig2 = go.FigureWidget(data = go.Box(y = mercadeo["Income"], x=mercadeo[col_y], marker_color = "crimson"),  
                       layout = go.Layout(title = "Diagrama de Caja Ingresos Vs. Gastos",
                                            xaxis_title = "Gastos en...",
                                            yaxis_title = "Ingresos anuales del hogar del cliente",))


def filtrar():
    fig1.data[0].x = mercadeo[col_y]
    fig2.data[0].y = mercadeo[col_y]
    
def respuesta(change):
    filtrar()

gastos.observe(respuesta, names = 'value')

filtrar()

parte_superior = widgets.HBox([gastos])

visualizacion = widgets.VBox([parte_superior, fig1, fig2]) 

display(visualizacion)

VBox(children=(HBox(children=(Dropdown(description='Tipo de gastos:', options=('MntWines', 'MntFruits', 'MntMe…

## Referencias
 
Daoud, J (2020). Marketing Analytics. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/jackdaoud/marketing-data

Goyal, S (2020). Credit Card customers. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/sakshigoyal7/credit-card-customers

## Créditos

**Autor(es):** Juan David Reyes Jaimes, Diego Alejandro Cely Gómez

**Fecha última actualización:** 17/09/2021