# **Examen final de Desarrollo de Aplicaciones para la Visualización de Datos**

Nombre:

Apellidos:

Tiempo: *2 horas y 30 minutos*

## **Contexto del ejercicio**

Un banco portugues desea entender en más detalle las campañas de marketing directo que ha realizado en los últimos meses a más de 40 mil clientes. Las campañas de marketing se basaron en llamadas telefónicas. Muchas veces era necesario más de un contacto con un mismo cliente, para saber si el producto (depósito bancario) sería ('sí') o no ('no') contratado.

El objetivo del análisis es buscar patrones para entender mejor que tipo de perfil tienen los clientes que han contratado el depósito para buscar en su base de datos otros clientes parecidos para aumentar la respuesta y el ROI de futuras campañas de marketing directo intentando vender el mismo depósito. Por lo tanto, se pide:

1.  Realizar un análisis descriptivo de los datos con al menos, 6 visualizaciones diferentes. (3 Puntos) (*)

2.  Montar un dashboard con al menos, 4 visualizaciones diferentes, que incluyan 2 componentes interactivas y 1 callback (5 Puntos) (*)

3. Concluir todo este análisis haciendo recomendaciones para la mejora de futuras campañas de contacto directo a partir de los resultados obtenidos de los análisis realizados con los datos. (2 Puntos)

Para realizar este análisis se provee de un juego de datos con las siguientes variables:

- age	- Edad (numérica)
- job - Ocupación (categórica)
- marital - Estado civil (categórica)
- education - Nivel educativo (categórica)
- default - ¿Tiene algún prestamo en default? (binaria)
- balance - Balance medio anual en euros (numérica)
- housing - ¿Tiene una hipoteca? (binaria)
- loan -  ¿Tiene un prestamo personal? (binaria)
- contact - Tipo de contacto (categórica)
- day_of_week - Último día de la semana que fue contactado (fecha)
- month - Último mes que fue contactado (fecha)
- duration - Duración de la última vez que fue contactado en segundos (entera)
- campaign - Número de veces que fue contactado (numérica)
- pdays - Número de días que pasaron después de que el cliente fue contactado por última vez desde una campaña anterior (numérica; -1 significa que el cliente no fue contactado previamente)
- previous - Número de contactos realizados durante esta campaña y para este cliente (numérica, incluye el último contacto)
- poutcome - Resultado de la campaña de marketing anterior (categórica; 'failure','nonexistent','success')
- y - El cliente ha contratado el depósito (binaria, yes, no)

Recuerda, si tuvieras que programar una función, comenta los argumentos de entrada y salida. **Explica el orden que estás siguiendo a la hora de elegir las visualizaciones y comenta las conclusiones que vas sacando.**


**(*) IMPORTANTE**: Puedes elegir realizar un modelo de clasificación y realizar visualizaciones en torno a ese modelo en los primeros dos apartados. Esta parte no es obligatoria. El objetivo de la clasificación sería predecir si el cliente se suscribirá a un depósito bancario (variable y).








### **Librerías necesarias**

In [41]:
import pandas as pd
import plotly.express as px
from plotly.subplots import make_subplots



## a veces hay que importar esto cuando no se plotean las gráficas (me ha pasado en el examen :)
import plotly.io as pio
pio.renderers.default = 'notebook'

### **Análisis descriptivos**

In [2]:
df = pd.read_csv('bank-full.csv', sep =';')
df

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,51,technician,married,tertiary,no,825,no,no,cellular,17,nov,977,3,-1,0,unknown,yes
45207,71,retired,divorced,primary,no,1729,no,no,cellular,17,nov,456,2,-1,0,unknown,yes
45208,72,retired,married,secondary,no,5715,no,no,cellular,17,nov,1127,5,184,3,success,yes
45209,57,blue-collar,married,secondary,no,668,no,no,telephone,17,nov,508,4,-1,0,unknown,no


In [3]:
print("These are the types of the variables:")
print(df.dtypes)

print("\n These are the NAs in the Datasets")
print(df.isna().sum())

print("\n This a preview of the Dataset")
print(df.head(10))

print("\n Here we describe the variables of the dataset")
print(df.describe())
## target
print("\n Here we count the distribution of the target variable")
print(df["y"].value_counts())

These are the types of the variables:
age           int64
job          object
marital      object
education    object
default      object
balance       int64
housing      object
loan         object
contact      object
day           int64
month        object
duration      int64
campaign      int64
pdays         int64
previous      int64
poutcome     object
y            object
dtype: object

 These are the NAs in the Datasets
age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
y            0
dtype: int64

 This a preview of the Dataset
   age           job   marital  education default  balance housing loan  \
0   58    management   married   tertiary      no     2143     yes   no   
1   44    technician    single  secondary      no       29     yes   no   
2   33  entrepreneur   married  secondary      

In [4]:
df["y"] = df["y"].map(lambda x: 0 if x == 'no' else 1)
df["y"]

0        0
1        0
2        0
3        0
4        0
        ..
45206    1
45207    1
45208    1
45209    0
45210    0
Name: y, Length: 45211, dtype: int64

In [79]:
df['y'].describe()

11.698480458295547

In [5]:
df_by_job = pd.DataFrame(df.groupby('job')['y'].mean()).reset_index()

df_by_job

Unnamed: 0,job,y
0,admin.,0.122027
1,blue-collar,0.07275
2,entrepreneur,0.082717
3,housemaid,0.087903
4,management,0.137556
5,retired,0.227915
6,self-employed,0.118429
7,services,0.08883
8,student,0.28678
9,technician,0.11057


In [49]:
df_by_job_sorted = df_by_job.sort_values(by='y', ascending=False)


fig_1= px.bar(df_by_job_sorted, x='job', y='y', color ='job',
                 labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "job": "Trabajo del cliente"
                 },
                title="Eficacia de la campaña por tipo de Trabajo")
fig_1.show()

In [7]:
df_by_marital = pd.DataFrame(df.groupby('marital')['y'].mean()).reset_index()

df_by_marital

Unnamed: 0,marital,y
0,divorced,0.119455
1,married,0.101235
2,single,0.149492


In [51]:
df_by_marital_sorted = df_by_marital.sort_values(by='y', ascending=False)


fig_2 = px.bar(df_by_marital_sorted, x='marital', y='y', color ='marital',                 
               labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "marital": "Estado civil del cliente"
                 },
                title="Eficacia de la campaña por estado civil")
fig_2.show()

In [8]:
df_by_edu = pd.DataFrame(df.groupby('education')['y'].mean()).reset_index()

df_by_edu

Unnamed: 0,education,y
0,primary,0.086265
1,secondary,0.105594
2,tertiary,0.150064
3,unknown,0.135703


In [53]:
df_by_edu_sorted = df_by_edu.sort_values(by='y', ascending=False)


fig_3= px.bar(df_by_edu_sorted, x='education', y='y', color ='education',
                labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "education": "Nivel de educación"
                 },
                title="Eficacia de la campaña por nivel de Educación")
fig_3.show()

In [38]:
df_by_housing = pd.DataFrame(df.groupby('housing')['y'].mean()).reset_index()

df_by_housing

Unnamed: 0,housing,y
0,no,0.167024
1,yes,0.077


In [88]:
fig_4 = px.pie(df_by_housing, values='y', names='housing',                
                title="Eficacia de la campaña si posee una hipoteca")

fig_4.update_layout(legend_title_text='Posee una hipoteca')

fig_4.show()

Continuos variables

In [14]:
df['age'].describe()

count    45211.000000
mean        40.936210
std         10.618762
min         18.000000
25%         33.000000
50%         39.000000
75%         48.000000
max         95.000000
Name: age, dtype: float64

In [19]:

bins = [18, 25, 35, 45, 55, 65, 75, 85, 95]
labels = [ '18-25', '25-35', '35-45', '45-55', '55-65', '65-75', '75-85', '85-95']

df['AgeGroup'] = pd.cut(df['age'], bins=bins, labels=labels, right=False)


df_byAge = pd.DataFrame(df.groupby('AgeGroup')['y'].mean()).reset_index()
df_byAge

Unnamed: 0,AgeGroup,y
0,18-25,0.255871
1,25-35,0.124824
2,35-45,0.096601
3,45-55,0.092689
4,55-65,0.130923
5,65-75,0.409804
6,75-85,0.425373
7,85-95,0.566667


In [69]:
df_byAge_sorted = df_byAge.sort_values(by='y', ascending=False)

fig_5 = px.bar(df_byAge_sorted, x='AgeGroup', y='y', color ='AgeGroup',
                labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "AgeGroup": "Rango de Edad"
                 },
                title="Eficacia de la campaña por rango de Edad")

fig_5.show()

In [23]:
print(df['previous'].describe())
df['previous'].unique()

count    45211.000000
mean         0.580323
std          2.303441
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max        275.000000
Name: previous, dtype: float64


array([  0,   3,   1,   4,   2,  11,  16,   6,   5,  10,  12,   7,  18,
         9,  21,   8,  14,  15,  26,  37,  13,  25,  20,  27,  17,  23,
        38,  29,  24,  51, 275,  22,  19,  30,  58,  28,  32,  40,  55,
        35,  41], dtype=int64)

In [61]:
bins = [0, 1, 2, 3, 5, 10, 275]
labels = [ 'No contact', '1 contcact', '2 contacts', 'Previous contacts', 'Often contacts', 'Several contacts']
df['ContactGroup'] = pd.cut(df['previous'], bins=bins, labels=labels, right=False)
df['ContactGroup']

0               No contact
1               No contact
2               No contact
3               No contact
4               No contact
               ...        
45206           No contact
45207           No contact
45208    Previous contacts
45209           No contact
45210     Several contacts
Name: ContactGroup, Length: 45211, dtype: category
Categories (6, object): ['No contact' < '1 contcact' < '2 contacts' < 'Previous contacts' < 'Often contacts' < 'Several contacts']

In [62]:
df_by_previous = pd.DataFrame(df.groupby('ContactGroup')['y'].mean()).reset_index()

df_by_previous

Unnamed: 0,ContactGroup,y
0,No contact,0.091573
1,1 contcact,0.210317
2,2 contacts,0.216524
3,Previous contacts,0.250539
4,Often contacts,0.276248
5,Several contacts,0.222222


In [63]:
df_byContact_sorted = df_by_previous.sort_values(by='y', ascending=False)

fig_6 = px.bar(df_byContact_sorted, x='ContactGroup', y='y', color ='ContactGroup',
                labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "ContactGroup": "Número de Contactos"
                 },
                title="Eficacia de la campaña por nivel de Educación")

fig_6.show()

# Dashboard

Plot dashboard in notebook

In [89]:
figure1 = fig_1
figure2 = fig_4

figure3 = fig_5

figure4 = fig_6

# For as many traces that exist per Express figure, get the traces from each plot and store them in an array.
# This is essentially breaking down the Express fig into it's traces
figure1_traces = []
figure2_traces = []
figure3_traces = []
figure4_traces = []

for trace in range(len(figure1["data"])):
    figure1_traces.append(figure1["data"][trace])
for trace in range(len(figure2["data"])):
    figure2_traces.append(figure2["data"][trace])
    
for trace in range(len(figure3["data"])):
    figure3_traces.append(figure3["data"][trace])
for trace in range(len(figure4["data"])):
    figure4_traces.append(figure4["data"][trace])

#Create a 2x2 subplot
this_figure = make_subplots(rows=2, cols=2,
                            subplot_titles=("Eficacia por nivel de educación", "Eficacia si posee una hipoteca",
                                            "Eficacia por rango de edad", "Eficacia por número de contactos"),
                            specs=[[{}, {"type": "pie"}],
                                   [{}, {}]
                                  ])  

# Get the Express fig broken down as traces and add the traces to the proper plot within in the subplot
for traces in figure1_traces:
    this_figure.append_trace(traces, row=1, col=1)
for traces in figure2_traces:
    this_figure.append_trace(traces, row=1, col=2)
    
for traces in figure3_traces:
    this_figure.append_trace(traces, row=2, col=1)
for traces in figure4_traces:
    this_figure.append_trace(traces, row=2, col=2)    
    
    
# Update the traces to remove the legend
this_figure.update_traces(showlegend=False)

# Add titles to the x and y axes
this_figure.update_xaxes(title_text="Nivel de Educación", row=1, col=1)
this_figure.update_xaxes(title_text="Posee una hipoteca", row=1, col=2)
this_figure.update_xaxes(title_text="Rango de Edad", row=2, col=1)
this_figure.update_xaxes(title_text="Número de Contactos", row=2, col=2)

this_figure.update_yaxes(title_text="Eficacia de la campaña", row=1, col=1)
this_figure.update_yaxes(title_text="Eficacia de la campaña", row=1, col=2)
this_figure.update_yaxes(title_text="Eficacia de la campaña", row=2, col=1)
this_figure.update_yaxes(title_text="Eficacia de la campaña", row=2, col=2)


this_figure.show()



### Dashboard Application

Vamos a hacer una app de Dash sencilla donde haya un dropdown que sirva para cambiar la primera gráfica del dashboard para visualizar distintas variables categoricas del cliente. Las otras tres gráficas del dashboard son estáticas.

In [None]:
# Crear opciones para el componente
client_characteristics = ["Job", "Education", "Marital status"]
options_dropdown_clients = []
for characteristic in client_characteristics:
    options_dropdown_clients.append({'label': subject.split()[0].capitalize(), 'value': characteristic})

app = dash.Dash()

#app.config.suppress_callback_exceptions = True

logging.getLogger('werkzeug').setLevel(logging.INFO)

app.layout = html.Div(
    children= [
        html.H1( # Primera fila
            children = [
                "Análisis descriptivo sobre la eficacia de las campañas de marketing"
            ],
        id = "titulo",
        style = {
            "text-align": "center",
            "text-decoration": "underline",
            "backgroundColor": "lightblue",
            "margin-bottom": "20px",
            "border-style": "outset",
            "border-color": "lightblue",
            "height": "50px"
        }
        ),

        html.H2( # Segunda fila
            children = [
                "1) Comparativa de eficacia según las características del cliente"
            ],
            id = "subtitulo1",
            style ={
                "text-align": "left",
                "display": "block"
            }
        ),

        html.Div( # Tercera fila
            children = [
                html.Div( # Bloque izquierdo
                    children = [
                        html.H3(
                            children = [
                                "Primer grupo a comparar"
                            ],
                            id = "primer_grupo",
                            style = {
                                "display": "block",
                                "text-align": "center"
                            }
                        ),
                        dcc.Dropdown(
                            options = options_dropdown_clients,
                            placeholder = "Selecciona una característica",
                            id = "dropdown_client",
                            style = {
                                "display": "block",
                                "width": "300px",
                                "margin-left": "10px"
                            }
                        ),
                        dcc.Graph(
                            id = "dropdown_figure",
                            style = {
                                "display": "none"
                            }
                        )
                    ],
                    style = {
                        "width": "700px",
                        "height": "600px",
                        "display": "inline-block",
                        "border-style": "ridge",
                        "border-color": "black"
                    }, 
                ),

            ]
        ),


    ],
    style = {
        "font-family": "Arial"
    }
)

In [None]:
###

@app.callback(
    Output("dropdown_dashboard", "figure"),
    Output("dropdown_dashboard", "style"),
    Input("dropdown_clients",'value')
)
def figure_dropdown(dropdown_cleints_value):

    if dropdown_clients_value:
        if dropdown_clients_value == 'Marital status':
            figure = fig_2

        elif dropdown_clients_value == 'Education':
            figure = fig_3

        else :
            figure = fig_1

            fig = create_subplot(figure)
            return (fig,{"display":"block"})
    else:
        fig = create_subplot(fig_1)
        return (fig,{"display":"block"})

In [48]:

def create_subplot(input_figure):
    
    figure1 = input_figure
    figure2 = fig_4

    figure3 = fig_5

    figure4 = fig_6

    # For as many traces that exist per Express figure, get the traces from each plot and store them in an array.
    # This is essentially breaking down the Express fig into it's traces
    figure1_traces = []
    figure2_traces = []
    figure3_traces = []
    figure4_traces = []

    for trace in range(len(figure1["data"])):
        figure1_traces.append(figure1["data"][trace])
    for trace in range(len(figure2["data"])):
        figure2_traces.append(figure2["data"][trace])

    for trace in range(len(figure3["data"])):
        figure3_traces.append(figure3["data"][trace])
    for trace in range(len(figure4["data"])):
        figure4_traces.append(figure4["data"][trace])

    #Create a 2x2 subplot
    this_figure = make_subplots(rows=2, cols=2,
                                subplot_titles=("Plot 1", "Plot 2", "Plot 3", "Plot 4"),
                                specs=[[{}, {"type": "pie"}],
                                       [{}, {}]
                                      ]) 

    # Get the Express fig broken down as traces and add the traces to the proper plot within in the subplot
    for traces in figure1_traces:
        this_figure.append_trace(traces, row=1, col=1)
    for traces in figure2_traces:
        this_figure.append_trace(traces, row=1, col=2)

    for traces in figure3_traces:
        this_figure.append_trace(traces, row=2, col=1)
    for traces in figure4_traces:
        this_figure.append_trace(traces, row=2, col=2)    

    # Update the traces to remove the legend
    this_figure.update_traces(showlegend=False)

    return this_figure



# 3. Conclusiones

Los datos que estamos tratando son datos personales de clientes que nos pueden ayudar a discernir la efectividad de las campañas de marketing de un banco portuges. En este estudio hemos visualizado la relación de distintas variables con la probabilidad de que los clientes contraten el deposito bancario. En la última campaña, la probabilidad de que un cliente contrará un producto fue del 11.70%. Por tanto, utilizaremos este "benchmark" para medir la eficacia de los contactos con los grupos dependiendo de si tienen mayor o menor probabilidad que la media. 

En este análisis primero trateremos de segmentar a los clientes y ver en cuales tienen más eficacia las campañas de marketing. Para empezar revisaremos cada uno de los 6 gráficos de este estudio.

1. Según el tipo de trabajo: Los grupos que tienen mayor probabilidad son los estudiantes y los jubilados con más de 10 puntos porcentuales. También son más adeptos a contratar los parados y los managers. Por la cola, las campañas no funcionan especialmente bien con "blue-colars", emprendedores, amos y amas de casa y prestadores de servicios. 
<br>

2. Respecto al estado civil: En el estado civil las diferencias no son tan grades, pero, las personas solteras tienen una eficacia de 3% mayor que la media, mientras que los divorciados están en la media y los casados casi dos punto porcentuales por debajo.
<br>

3. Según la educación: Aquellos que tienen una educación superior tiene más probabilidades de contratar el servicio que aquellos con educación superior y primaria. Los primeros tienen un 15.01% de probabilidades, mientras que secundaria tiene un 10.56% y primaria un 8.62%.
<br>

4. Si tiene una hipoteca: Este también es un factor clave, los usuarios sin hipoteca tienen un 16.7% de posibilidades de optar por una cuenta bancaria, mientras que aquellos con una hipoteca tiene un 7.7%, es decir, 4 p.p. por debajo de la media.
<br>

5. Rango de edad: Este es sin duda el factor clave, los grupos de mayor edad (por encima de 65 años) tienen un 56.67% (85-95 años), 42.54% (75-85 años) y 40.98% (65-75 años) de abrir una cuenta bancaria. El siguiente grupo también muy por encima de la media son aquellos entre 18 y 25 años con un 25.59%. Por último con menos de un 10% encontramos las personas de entre 35 y 45 años.
<br>

6. Número de contactos: La principal diferencia entre estos grupos se encuentra en aquellos que no han sido contactados o aquellos que han recibido más de un contacto. Todos los grupos con los que se ha tenido al menos 1 contacto tienen más de 20% de probabilidad de abrir un deposito, mientras que los que no han sido contactados tienen menos de un 10% de probabilidades. 


A este estudio deberíamos sumarle un estudio cualitativo para tratar de explicar el porqué detrás de estos números. Sin embargo, hay algunas cosas que podemos sacar en claro. El segmento de los estudiantes y los jubilados, así como, las personas que se encuentran en estos rangos de edades son aquellos dónde la campaña tiene más efecto. Además, podemos ver que es más importante llegar a el mayor número de clientes con la campaña que tener contactos repetitivos con los mismos clientes. Otro segmento a tener en el punto de mira en las campañas son aquellos usuarios sin hipoteca. De hecho, una hipótesis podría salir de este estudio es que tienen más probabilidades las personas con una mayor cantidad de liquidez o dinero en mano, habría que comprobar si esto se cumple con otras investigaciones. Otro segmento, importante a tener en cuenta  son aque



Datos Clave

In [92]:
 # Probabilidad de que un cliente contratará un producto 
    
df['y'].describe()['mean']*100

11.698480458295547

In [94]:
print(df_by_job_sorted)
print(df_by_marital_sorted)
print(df_by_edu_sorted)
print(df_by_housing)
print(df_byAge_sorted)
print(df_byContact_sorted)


              job         y
8         student  0.286780
5         retired  0.227915
10     unemployed  0.155027
4      management  0.137556
0          admin.  0.122027
6   self-employed  0.118429
11        unknown  0.118056
9      technician  0.110570
7        services  0.088830
3       housemaid  0.087903
2    entrepreneur  0.082717
1     blue-collar  0.072750
    marital         y
2    single  0.149492
0  divorced  0.119455
1   married  0.101235
   education         y
2   tertiary  0.150064
3    unknown  0.135703
1  secondary  0.105594
0    primary  0.086265
  housing         y
0      no  0.167024
1     yes  0.077000
  AgeGroup         y
7    85-95  0.566667
6    75-85  0.425373
5    65-75  0.409804
0    18-25  0.255871
4    55-65  0.130923
1    25-35  0.124824
2    35-45  0.096601
3    45-55  0.092689
        ContactGroup         y
4     Often contacts  0.276248
3  Previous contacts  0.250539
5   Several contacts  0.222222
2         2 contacts  0.216524
1         1 contcact  0.21031

11.698480458295547

In [91]:
df_byContact_sorted = df_by_previous.sort_values(by='y', ascending=False)

fig_6 = px.bar(df_byContact_sorted, x='ContactGroup', y='y', color ='ContactGroup',
                labels={
                     "y": "Probabilidad de Contratación del producto (Eficacia)",
                     "ContactGroup": "Número de Contactos"
                 },
                title="Eficacia de la campaña por nivel de Educación")

fig_6.show()