# Configurações

## Importações

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Configuração de Ambiente

In [3]:
# Ajustando o output das tabelas
pd.set_option('display.max_columns', 50)

# Ajustando o output das imagens
%matplotlib inline

# Dicionário dos dados

| Nome da Coluna | Tipo do Dado | Dado Estruturado | Categorias | Descrição |
|:--------------:|:------------:|:----------------:|:----------:|:---------:|
age	|	int64	|	numérico	|	None	|	Idade
job	|	string	|	categórico	|	management', 'technician', 'entrepreneur', 'blue-collar', 'unknown', 'retired', 'admin.', 'services', 'self-employed', 'unemployed', 'housemaid', 'student'	|	Tipo de trabalho
marital	|	string	|	categórico	|	married', 'single', 'divorced'	|	Estado civil
education	|	string	|	categórico	|	tertiary', 'secondary', 'unknown', 'primary'	|	Nível de escolaridade
default	|	string	|	binário	|	no', 'yes'	|	Está em inadimplencia?
balance	|	int64	|	numérico	|	None	|	Balanço médio anual (Euro)
housing	|	string	|	binário	|	no', 'yes'	|	Tem crédito em habitação?
loan	|	string	|	binário	|	no', 'yes'	|	Tem empréstimo pessoal?
contact	|	string	|	categórico	|	unknown', 'cellular', 'telephone'	|	Tipo de contato
day	|	int64	|	numérico	|	None	|	Último dia do contato do mês 
month	|	string	|	categórico	|	may', 'jun', 'jul', 'aug', 'oct', 'nov', 'dec', 'jan', 'feb', 'mar', 'apr', 'sep'	|	Último mês do contato
duration	|	int64	|	numérico	|	None	|	Duração do último contato (segundos)
campaign	|	int64	|	numérico	|	None	|	Quantidade de contatos realizados durante campanha e para este cliente 
pdays	|	int64	|	numérico	|	None	|	Número de dias do último contato 
previous	|	int64	|	numérico	|	None	|	Quantidade de contato antes dessa campanha
poutcome	|	string	|	categórico	|	unknown', 'failure', 'other', 'success'	|	Resultado da campanha anterior
y	|	string	|	binário	|	no', 'yes'	|	Target

# Tratando os Dados

## Carregando a tabela

In [4]:
data = pd.read_csv('./dados/bank-full.csv', sep=';')
data.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,58,management,married,tertiary,no,2143,yes,no,unknown,5,may,261,1,-1,0,unknown,no
1,44,technician,single,secondary,no,29,yes,no,unknown,5,may,151,1,-1,0,unknown,no
2,33,entrepreneur,married,secondary,no,2,yes,yes,unknown,5,may,76,1,-1,0,unknown,no
3,47,blue-collar,married,unknown,no,1506,yes,no,unknown,5,may,92,1,-1,0,unknown,no
4,33,unknown,single,unknown,no,1,no,no,unknown,5,may,198,1,-1,0,unknown,no


## Ajustando os dados
* Alterando strings 'yes' e 'no' para valores binários (0, 1)

In [16]:
data['y'].value_counts()

no     39922
yes     5289
Name: y, dtype: int64

In [23]:
data['y'] = data['y'].replace('yes', 1)
data['y'] = data['y'].replace(2, 0)

In [24]:
data['y'].value_counts()

0    39922
1     5289
Name: y, dtype: int64

# Analisando os Dados

* Entendento o perfil dos clientes

In [31]:
data.education.value_counts()

secondary    23202
tertiary     13301
primary       6851
unknown       1857
Name: education, dtype: int64

In [30]:
data.job.value_counts()

blue-collar      9732
management       9458
technician       7597
admin.           5171
services         4154
retired          2264
self-employed    1579
entrepreneur     1487
unemployed       1303
housemaid        1240
student           938
unknown           288
Name: job, dtype: int64

In [36]:
data.groupby(['education', 'marital', 'job'])[['balance', 'y']].mean().reset_index()

Unnamed: 0,education,marital,job,balance,y
0,primary,divorced,admin.,1192.833333,0.100000
1,primary,divorced,blue-collar,882.140625,0.106250
2,primary,divorced,entrepreneur,415.111111,0.000000
3,primary,divorced,housemaid,1250.966667,0.122222
4,primary,divorced,management,1475.384615,0.000000
...,...,...,...,...,...
139,unknown,single,services,1309.000000,0.228571
140,unknown,single,student,1534.177632,0.269737
141,unknown,single,technician,2733.521127,0.154930
142,unknown,single,unemployed,2442.916667,0.083333
