<img src="./Archivos/miad4.png" width=800x>

# Visualización

En este taller implementarás métodos de las librerías `ipywidgets` y `plotly`, para integrarlos en procesos de visualización de datos.

## Habilidades en práctica

Al realizar este taller podrás revisar tu progreso para:

**1.** Crear diferentes tipos de visualizaciones en `plotly` y personalizarlas de manera amigable. <br />
**2.** Utilizar `ipywidgets` para explorar datos de forma interactiva. <br />
**3.** Crear visualizaciones interactivas en `plotly` con `ipywidgets`.

## Instrucciones

En cada uno de los siguientes ejercicios deberás escribir el código solicitado estrictamente en las celdas indicadas para ello, teniendo en cuenta las siguientes recomendaciones:

* No crear, eliminar o modificar celdas de este Notebook (salvo lo que se te indique).

Esta es una actividad calificada y, por lo tanto, debe ser resuelta individualmente.

## Ejercicios

En la siguente celda encuentras declarados los paquetes necesarios para el desarollo de este taller.

In [1]:
# Esta celda no es modificable.
import plotly.graph_objects as go
import ipywidgets as widgets
import pandas as pd
from ipywidgets import interactive

## Estadísticas bancarias

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'BankChurners.csv'. Utiliza esta información para dar respuesta a los ejercicios 1 y 2.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
|  CLIENTNUM  | Número de cliente|
|  Attrition_Flag | Si la cuenta del cliente se encuentra activa |
|  Customer_Age  | Edad del cliente|
|  Gender  | Género de cliente|
|  Dependent_count  | Número de personas a cargo|
|  Education_Level | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
|  Income_Category  | Categoría de ingresos anuales del titular de la cuenta|
|  Card_Category  |  Tipo de tarjeta (Azul, Plata, Oro, Platino)|
|  Months_on_book  | Periodo de relación con el banco|
|  Total_Relationship_Count  | Número total de productos del cliente|
|  Months_Inactive_12_mon | Número de meses de inactividad en los últimos 12 meses|
|  Contacts_Count_12_mon  | Número de contactos en los últimos 12 meses|
|  Credit_Limit  | Límite de crédito de la tarjeta de crédito|
|  Total_Revolving_Bal | Saldo rotativo total de la tarjeta de crédito|
|  Avg_Open_To_Buy  | Línea de crédito abierta (media de los últimos 12 meses)|
|  Total_Amt_Chng_Q4_Q1  | Cambio en el monto de transacciones (cuarto trimestre a primer trimestre) |
|  Total_Trans_Amt  | Monto total de las transacciones (últimos 12 meses)|
|  Total_Trans_Ct  | Recuento total de transacciones (últimos 12 meses)|
|  Total_Ct_Chng_Q4_Q1  | Cambio en el número de transacciones (cuarto trimestre a primer trimestre) |
|  Avg_Utilization_Ratio  | Ratio de utilización media de la tarjeta|

In [4]:
# Esta celda no es modificable.

df = pd.read_csv('Archivos/BankChurners.csv')
df.head()

Unnamed: 0,CLIENTNUM,Attrition_Flag,Customer_Age,Gender,Dependent_count,Education_Level,Marital_Status,Income_Category,Card_Category,Months_on_book,...,Months_Inactive_12_mon,Contacts_Count_12_mon,Credit_Limit,Total_Revolving_Bal,Avg_Open_To_Buy,Total_Amt_Chng_Q4_Q1,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio
0,768805383,Existing Customer,45,M,3,High School,Married,$60K - $80K,Blue,39,...,1,3,12691.0,777,11914.0,1.335,1144,42,1.625,0.061
1,818770008,Existing Customer,49,F,5,Graduate,Single,Less than $40K,Blue,44,...,1,2,8256.0,864,7392.0,1.541,1291,33,3.714,0.105
2,713982108,Existing Customer,51,M,3,Graduate,Married,$80K - $120K,Blue,36,...,1,0,3418.0,0,3418.0,2.594,1887,20,2.333,0.0
3,769911858,Existing Customer,40,F,4,High School,Unknown,Less than $40K,Blue,34,...,4,1,3313.0,2517,796.0,1.405,1171,20,2.333,0.76
4,709106358,Existing Customer,40,M,3,Uneducated,Married,$60K - $80K,Blue,21,...,1,0,4716.0,0,4716.0,2.175,816,28,2.5,0.0


### Ejercicio 1
Utiliza `plotly` para realizar un  diagramas de torta sobre el estado conyugal de los clientes (resaltando el más predominante).

In [92]:
values = df["Marital_Status"].value_counts()

max_value = values[values == values.max()]
max_label = max_value.index

focus = pd.Series((0 for i in range(len(values))), index=values.keys())
focus[max_label] = 0.2

fig = go.Figure(data=[go.Pie(labels=values.keys(), values=values, pull=focus)])
fig.update_layout(title="Estado conyugal")
fig.update_traces(hoverinfo='label', textinfo='value+percent', textfont_size=12)
fig.show()

### Ejercicio 2
Utiliza `plotly` para realizar un gráfico que permita verificar si el cambio en el monto de transacciones (cuarto trimestre a primer trimestre) se ajusta a una distribución normal.

In [94]:
import numpy as np
np.random.seed(1)
mean, std = df["Total_Ct_Chng_Q4_Q1"].mean(),df["Total_Ct_Chng_Q4_Q1"].std()
data = np.random.normal(mean, std, 1000)

fig = go.Figure()
fig.add_trace(go.Histogram(x=df["Total_Ct_Chng_Q4_Q1"],histnorm = 'probability', name="Cambio monto transacciones"))
fig.add_trace(go.Histogram(x=data,histnorm = 'probability', name="aprox.normal"))

fig.update_layout(title="Ajuste monto de transacciones vs distribución Normal")
fig.update_layout(barmode='stack')
fig.update_traces(opacity=0.75)
fig.show()

## Base de datos de mercadeo

A continuación, encuentras la descripción de las variables contenidas en la base de datos 'marketing_data.csv'. Utiliza esta información para dar respuesta a los ejercicios 3, 4 y 5.

| <center>Variable<center> | <center>Descripción<center> | 
| :--- | :--- | 
| ID | Identificador único del cliente |
| Year_Birth | Año de nacimiento del cliente |
| Education | Nivel máximo de escolaridad alcanzado|
| Marital_Status | Estado conyugal |
| Income | Ingresos anuales del hogar del cliente |
| Kidhome | Número de niños en el hogar|
| Teenhome | Número de adolescentes en el hogar|
| Dt_Customer | Fecha de inscripción del cliente en la empresa |
| Recency | Número de días desde la última compra del cliente |
| MntWines | Gastos en vino durante los dos últimos años |
| MntFruits | Gastos en frutas durante los dos últimos años |
| MntMeatProducts | Gastos en productos cárnicos durante los dos últimos años |
| MntFishProducts | Gastos en pescado durante los dos últimos años |
| MntSweetProducts | Gastos en dulces durante los dos últimos años |
| MntGoldProds | Gastos en oro durante los dos últimos años |
| NumDealsPurchases | Número de compras realizadas con un descuento |
| NumWebPurchases| Número de compras realizadas a través del sitio web de la empresa |
| NumCatalogPurchases | Número de compras realizadas por catálogo |
| NumStorePurchases | Número de compras realizadas directamente en las tiendas |
| NumWebVisitsMonth | Número de visitas al sitio web de la empresa en el último mes |
| AcceptedCmp1 | 1 si el cliente aceptó la oferta en la primera campaña, 0 en caso contrario |
| Response | 1 si el cliente aceptó la oferta en la última campaña, 0 en caso contrario |
| Complain | 1 si el cliente se ha quejado en los últimos 2 años, 0 en caso contrario |
| Country | País de ubicación del cliente |


In [86]:
mercadeo = pd.read_csv('Archivos/marketing_data.csv')
mercadeo.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
0,1826,1970,Graduation,Divorced,84835.0,0,0,6/16/2014,0,189,...,6,1,0,0,0,0,0,1,0,SP
1,1,1961,Graduation,Single,57091.0,0,0,6/15/2014,0,464,...,7,5,0,0,0,0,1,1,0,CA
2,10476,1958,Graduation,Married,67267.0,0,1,5/13/2014,0,134,...,5,2,0,0,0,0,0,0,0,US
3,1386,1967,Graduation,Together,32474.0,1,1,5/11/2014,0,10,...,2,7,0,0,0,0,0,0,0,AUS
4,5371,1989,Graduation,Single,21474.0,1,0,4/8/2014,0,6,...,2,7,1,0,0,0,0,1,0,SP


### Ejercicio 3
Utiliza `plotly` para realizar un gráfico de dispersión que permita visualizar la relación que existe entre las variables 'Year_Birth' y 'MntWines'.

In [87]:
x = mercadeo['Year_Birth']
y = mercadeo['MntWines']

In [95]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=y,
                    mode='markers',
                    name='Scatter'))

fig.update_layout(title='Año nacimiento vs gasto en vino ultimos 2 años')

fig.show()

### Ejercicio 4
Utiliza `ipywidgets` para filtrar las observaciones de la base de datos de acuerdo con los siguentes criterios:
1. Nivel máximo de escolaridad alcanzado.
2. Número de niños en el hogar.
3. Número de adolescentes en el hogar.

In [131]:
def unique_values_filter(col):
    col = col.astype(str)
    val = col.unique().tolist() 
    val = sorted(val)           
    val.insert(0, "All")         
    return val

def filter_byuser(Education, Kid_Home, Teen_Home):
    if Education != "All":
        display(mercadeo[(mercadeo["Education"] == Education) & (mercadeo["Kidhome"] == Kid_Home)
                   & (mercadeo["Teenhome"] == Teen_Home)])
    else:
        display(mercadeo[(mercadeo["Kidhome"] == Kid_Home) & (mercadeo["Teenhome"] == Teen_Home)])


interactive_plot = interactive(
                                filter_byuser, 
                                Education = unique_values_filter(mercadeo["Education"]),
                                Kid_Home = widgets.IntSlider(min = 0, max = 2, step = 1),
                                Teen_Home = widgets.IntSlider(min = 0, max = 2, step = 1)
                              )

display(interactive_plot)

interactive(children=(Dropdown(description='Education', options=('All', '2n Cycle', 'Basic', 'Graduation', 'Ma…

### Ejercicio 5
Utiliza `ipywidgets` y `plotly` para generar un gráfico con controles que:
1. Cuente con un control para seleccionar una de las variable de Gastos frente a los ingresos.
1. Genere un gráfico de dispersión
2. Genere un diagrama de caja.

In [157]:
expense = widgets.Dropdown(
                        description = '',
                        options = sorted(mercadeo.iloc[:,9:15].columns),
                        style = {'description_width': 'initial'}
                       )

fig = go.FigureWidget(
                        data = go.Scatter(name = 'Ingreso',
                                          mode='markers'),  
    
                        layout = go.Layout(
                                            title = 'Expenses vs Income',
                                            yaxis_title = 'Income in USD',
                                          )
                     )

def filtrar():
    fig.data[0].x = mercadeo[expense.value] # Establecemos los datos en el eje x.
    fig.data[0].y = mercadeo['Income']
    fig.update_layout(xaxis_title = 'Expense ' + expense.value + 'in USD')

def respuesta(change):
    filtrar()
    
expense.observe(respuesta, names = 'value')

filtrar()

parte_superior = widgets.HBox([widgets.Label('Tipo de gasto:'), expense])

visualizacion = widgets.VBox(
              [parte_superior,
              fig]
            )

display(visualizacion)

VBox(children=(HBox(children=(Label(value='Tipo de gasto:'), Dropdown(options=('MntFishProducts', 'MntFruits',…

## Referencias
 
Daoud, J (2020). Marketing Analytics. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/jackdaoud/marketing-data

Goyal, S (2020). Credit Card customers. Recuperado el 11 de febrero de 2021 de: https://www.kaggle.com/sakshigoyal7/credit-card-customers

## Créditos

**Autor(es):** Juan David Reyes Jaimes, Diego Alejandro Cely Gómez

**Fecha última actualización:** 17/09/2021