# Exploração dos Dados

In [1]:
import pandas as pd
import altair as alt
import numpy as np

In [2]:
bank_train = pd.read_csv("../data/interim/bank_train.csv")

In [16]:
bank_train.drop("y", axis=1).head()

Unnamed: 0,age,job,marital,education,default,housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed
0,29,admin.,married,university.degree,no,no,no,cellular,dec,mon,77,3,999,1,failure,-3.0,92.713,-33.0,0.709,5023.5
1,29,technician,single,university.degree,no,no,no,telephone,may,fri,12,4,999,0,nonexistent,-1.8,92.893,-46.2,1.25,5099.1
2,45,blue-collar,married,basic.6y,unknown,yes,no,telephone,may,thu,277,2,999,0,nonexistent,1.1,93.994,-36.4,4.86,5191.0
3,34,services,married,university.degree,no,no,no,cellular,may,thu,70,1,999,1,failure,-1.8,92.893,-46.2,1.327,5099.1
4,32,admin.,single,high.school,no,no,no,cellular,may,fri,1181,9,999,0,nonexistent,-1.8,92.893,-46.2,1.25,5099.1


In [4]:
bank_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28831 entries, 0 to 28830
Data columns (total 21 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   age             28831 non-null  int64  
 1   job             28831 non-null  object 
 2   marital         28831 non-null  object 
 3   education       28831 non-null  object 
 4   default         28831 non-null  object 
 5   housing         28831 non-null  object 
 6   loan            28831 non-null  object 
 7   contact         28831 non-null  object 
 8   month           28831 non-null  object 
 9   day_of_week     28831 non-null  object 
 10  duration        28831 non-null  int64  
 11  campaign        28831 non-null  int64  
 12  pdays           28831 non-null  int64  
 13  previous        28831 non-null  int64  
 14  poutcome        28831 non-null  object 
 15  emp.var.rate    28831 non-null  float64
 16  cons.price.idx  28831 non-null  float64
 17  cons.conf.idx   28831 non-null 

## Variáveis Numéricas

In [5]:
bank_train.describe()

Unnamed: 0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed
count,28831.0,28831.0,28831.0,28831.0,28831.0,28831.0,28831.0,28831.0,28831.0,28831.0
mean,40.011203,257.875134,2.575769,963.215844,0.172592,0.083202,93.577264,-40.515091,3.621599,5167.01188
std,10.450128,260.212911,2.752303,185.077567,0.494338,1.570978,0.579694,4.634864,1.735202,72.542598
min,17.0,0.0,1.0,0.0,0.0,-3.4,92.201,-50.8,0.634,4963.6
25%,32.0,102.0,1.0,999.0,0.0,-1.8,93.075,-42.7,1.344,5099.1
50%,38.0,180.0,2.0,999.0,0.0,1.1,93.749,-41.8,4.857,5191.0
75%,47.0,318.0,3.0,999.0,0.0,1.4,93.994,-36.4,4.961,5228.1
max,98.0,4918.0,43.0,999.0,7.0,1.4,94.767,-26.9,5.045,5228.1


In [6]:
bank_train["y"].value_counts(normalize=True)

no     0.887239
yes    0.112761
Name: y, dtype: float64

In [7]:
bank_train.groupby("y").mean()

Unnamed: 0_level_0,age,duration,campaign,pdays,previous,emp.var.rate,cons.price.idx,cons.conf.idx,euribor3m,nr.employed
y,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
no,39.927013,220.848006,2.645231,984.756919,0.132643,0.251427,93.605261,-40.601009,3.812835,5176.208432
yes,40.673639,549.217472,2.029222,793.723162,0.486927,-1.240449,93.356977,-39.839065,2.11689,5094.6502


In [8]:
def plot_qvars(x, data="../data/interim/bank_train.csv", step=4, domain=(0, 100)):
    hist = alt.Chart(data).mark_bar().encode(
        x=alt.X(x, bin=alt.Bin(step=step), scale=alt.Scale(domain=domain)),
        y="count()"
    )
    
    error_bar = alt.Chart(data).mark_errorbar(extent="stdev").encode(
        x=alt.X(x, scale=alt.Scale(domain=domain)),
        y=alt.Y("y:N")
    )
    
    points = alt.Chart(data).mark_point(filled=True).encode(
        x=alt.X(x, aggregate="mean", scale=alt.Scale(domain=domain)),
        y=alt.Y("y:N")
    )
    
    return hist & (error_bar + points)

In [9]:
plot_qvars("age:Q", step=4, domain=(0, 100)) | plot_qvars("duration:Q", step=100, domain=(0, 4918))

In [10]:
plot_qvars("campaign:Q", step=1, domain=(1, 43)) | plot_qvars("pdays:Q", step=100, domain=(0, 999)) 

In [11]:
plot_qvars("previous:Q", step=1.5, domain=(0, 7)) | plot_qvars("emp\\.var\\.rate:Q", step=1.5, domain=(-5, 2))

In [12]:
plot_qvars("cons\\.price\\.idx:Q", step=0.5, domain=(92, 95)) | plot_qvars("cons\\.conf\\.idx:Q", step=4, domain=(-52, -24))

In [13]:
plot_qvars("euribor3m:Q", step=0.5, domain=(0.5, 6)) | plot_qvars("nr\\.employed:Q", step=65, domain=(4940, 5265))

In [14]:
bank_tr_corr = bank_train.corr()
mask = np.triu(np.ones_like(bank_tr_corr, dtype=bool))
tri_bank_corr = bank_tr_corr.mask(mask)

bank_corr = tri_bank_corr.reset_index().melt(id_vars="index", value_vars=tri_bank_corr.columns).dropna(subset="value").sort_values("value", ascending=False)
bank_corr["comb"] = bank_corr["index"].str.cat(bank_corr["variable"], sep="-")

corr_bar_plot = alt.Chart(bank_corr).mark_bar().encode(
    x="value:Q",
    y=alt.Y("comb:N", sort="-x"),
    color=alt.condition(
        alt.datum.value > 0,
        alt.value("steelblue"),
        alt.value("orange")
    )
)

vline_corr = alt.Chart().mark_rule(color="red").encode(
    x=alt.datum(0.8)
)

corr_bar_plot + vline_corr

In [15]:
euribor_empvarrate = alt.Chart("../data/interim/bank_train.csv").mark_circle().encode(
    x="euribor3m:Q",
    y="emp\\.var\\.rate:Q",
    color="y:N"
)

euribor_nremployed = alt.Chart("../data/interim/bank_train.csv").mark_circle().encode(
    x="euribor3m:Q",
    y=alt.Y("nr\\.employed:Q", scale=alt.Scale(domain=(4900, 5300))),
    color="y:N"
)

nremployed_empvarrate = alt.Chart("../data/interim/bank_train.csv").mark_circle().encode(
    x="emp\\.var\\.rate:Q",
    y=alt.Y("nr\\.employed:Q", scale=alt.Scale(domain=(4900, 5300))),
    color="y:N"
)

conspriceindex_empvarrate = alt.Chart("../data/interim/bank_train.csv").mark_circle().encode(
    x="emp\\.var\\.rate:Q",
    y=alt.Y("cons\\.price\\.idx:Q", scale=alt.Scale(domain=(92, 95))),
    color="y:N"
)

(euribor_empvarrate | euribor_nremployed) & (nremployed_empvarrate | conspriceindex_empvarrate)

### Sobre `age` e `campaign`

A variável `age` tem poucos valores antes dos 24 anos e após os 60. Uma opção é discretizar e ordinalizar essa variável. Tentaremos dividir dessa forma

- Até 29;
- de 30 a 59
- 60 ou mais

A ideia então é discretizar em faixas que podem ser interpretadas como "jovens adultos", "adultos" e "idosos".

Outra variável numérica pra ser discretizada será `campaign`. Vamos deixar três categorias:

- Contato 1 vez;
- Contato 2 vezes;
- Contato 3 ou mais vezes.

### Sobre `duration`

A variável `duration` mede a duração da ligação. É uma variável extremamente correlacionada com a variável de resposta. Como nota a própria página do banco, se a duração é igual a 0, então y = "no". E há uma tendência de que quanto maior o tempo de ligação, maior a chance de y = "yes".

Ao mesmo tempo, ela não é uma boa variável se o objetivo é ter um modelo de previsão realista se um cliente irá fazer o depósito, pois não é possível saber a duração da ligação *ex-ante*, e sim *ex-post*, ou seja, só depois da ligação ser concluída. Por essa razão ela não será incluida no modelo de treinamento.

### Sobre `pdays` e `previous`

Ambas as variáveis são bastante correlacionadas. `pdays` é o número de dias desde o último contato ao cliente em uma campanha anterior (sendo 999 o valor caso o cliente nunca tenha sido contactado), e `previous` é o número de contatos em campanhas anteriores.

In [16]:
np.mean(bank_train["pdays"] == 999)

0.9639624015816309

`pdays` é uma variável com pouquissima variação, como se percebe. Um pouco mais de 96% das observações nunca foram contactadas, ou seja, tem valor 999. Sendo o objetivo a previsão, ela parece ser uma variável ruim pois tende a performar mal em um conjunto de dados nunca visto.

`previous` também sofre com pouca variação. Um pouco mais de 86% das observações não foram contactadas em campanhas anteriores. Por ser uma situação "menos grave" comparada a `pdays` vamos mante-la na hora de treinar o modelo.

In [17]:
np.mean(bank_train["previous"] == 0)

0.8638965002948216

In [18]:
bank_train["previous"].value_counts(normalize=True)

0    0.863897
1    0.110090
2    0.018418
3    0.005446
4    0.001596
5    0.000416
6    0.000104
7    0.000035
Name: previous, dtype: float64

Se percebe também que há muita pouca representação nessa variável para além do valor 0 e 1. Uma melhor opção vai ser agregar os outros valores iguais ou maiores que 2. A variável ficaria então assim: 0 (nunca foi contactado), 1 (contactado uma vez) e 2 (contactado 2 ou mais vezes)

Uma observação final é que algo parece estranho nas duas variáveis. Segundo a descrição das variáveis, disponível no [site](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing) do banco, quando `pdays` for igual a 999 significa que o cliente nunca foi contactado em campanhas anteriores, e como `previous` é uma variável que diz quantas vezes o cliente foi contactado em campanhas anteriores, espera-se que se `pdays` = 999, então `previous` = 0. Mas isso não acontece.

In [19]:
np.mean((bank_train["pdays"] == 999) == (bank_train["previous"] == 0))

0.8999340987131906

Existe uma correlação forte, obviamente. Em cerca de 90% das vezes que `pdays` é 999, `previous` é 0. Mas o que acontece nos outros 10%, quando `pdays` é 999 e `previous` é diferente de 0?

A partir daqui vamos só supor que há justifativa para essa diferença e que provavelmente apenas interpretei errado a descrição das variáveis.

### Sobre `emp.var.rate`, `nr.employed` e `euribor3m`

In [11]:
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [12]:
sdsc = StandardScaler()
X = sdsc.fit_transform(bank_train[["emp.var.rate", "nr.employed", "euribor3m"]])

In [13]:
X

array([[-1.9626344 , -1.97834612, -1.67856498],
       [-1.1987658 , -0.93618176, -1.36678036],
       [ 0.64724998,  0.33068207,  0.71370482],
       ...,
       [-2.21725726, -2.06105758, -1.65263096],
       [ 0.64724998,  0.33068207,  0.71139958],
       [ 0.83821713,  0.84211458,  0.77133599]])

In [14]:
pca = PCA(n_components=1)

In [15]:
pca.fit_transform(X)

array([[ 3.24219884],
       [ 2.02448245],
       [-0.97910046],
       ...,
       [ 3.42109286],
       [-0.97775335],
       [-1.4149112 ]])

In [25]:
pca.explained_variance_ratio_

array([0.96088934, 0.03227328, 0.00683738])

emp.var.rate, nr.employed, e euribor3m são muito correlacionadas entre si. Um PCA pode reduzir para um componente com ~96% de variância explicada.

## Variáveis Categóricas

In [26]:
def plot_bar(y):
    chart = alt.Chart("../data/interim/bank_train.csv").mark_bar().encode(
        y=y,
        x="count()",
        color="y:N"
    )
    return chart

In [27]:
(plot_bar("job:N") | plot_bar("marital:N").properties(height=241)) & (plot_bar("education:N") | plot_bar("default:N").properties(height=160))

In [28]:
(plot_bar("housing:N").properties(height=160) | plot_bar("loan:N").properties(height=160)) & (plot_bar("contact:N").properties(height=200) | plot_bar("month:N"))

In [29]:
plot_bar("day_of_week:N") | plot_bar("poutcome:N")

### Sobre `job`

São doze categorias em `job`. Codificar essa variável com o OneHotEncoder introduziria muitas dimensões e ao mesmo tempo não há uma ordinalidade natural nessa variável. Uma opção melhor é usar o `TargetEncoder` do pacote `categorial_encoders`.

### Sobre `marital` e `default`,

Baixa representação de unknown em `marital` e yes em `default`. Dropar ambas as categorias na hora de fazer o OneHot.

### Sobre `education`, `month` e `day_of_week`.

Em `education` agregar categorias "basic" em uma categoria só, e usar um `OrdinalEncoder`, dado uma ordinalidade natural nessa variável: basic -> high school -> professional -> university.

`month` e `day_of_week` também tem uma ordinalidade natural, então é só aplicar o `OrdinalEncoder`.

### Sobre `poutcome`

Existe um pouco de redundancia com `poutcome` e `previous`. Se `poutcome` = "nonexistent" então `previous` = 0. E assim como `previous`, a variável é bem concentrada em uma só categoria, nonexistent. Mas manteremos.

In [32]:
bank_train["previous"].value_counts(normalize=True)

0    0.863897
1    0.110090
2    0.018418
3    0.005446
4    0.001596
5    0.000416
6    0.000104
7    0.000035
Name: previous, dtype: float64

In [34]:
bank_train["poutcome"].value_counts(normalize=True)

nonexistent    0.863897
failure        0.103500
success        0.032604
Name: poutcome, dtype: float64