<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Importando-Bibliotecas" data-toc-modified-id="Importando-Bibliotecas-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Importando Bibliotecas</a></span></li><li><span><a href="#Lendo-e-Analisando-Base" data-toc-modified-id="Lendo-e-Analisando-Base-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Lendo e Analisando Base</a></span></li></ul></div>

Este notebook tem por objetivo alocar o desenvolvimento de análise de dados envolvendo campanhas de marketing de uma instituição financeira portuguesa. Possuindo referência no renomado repositório de dados de Machine Laerning [UCI](https://archive.ics.uci.edu/ml/index.php), o conjunto [Bank Marketing Data Set](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing) tem origem em um estudo realizado em 2014, onde ações de marketing baseadas principalmente em ligações telefônicas, foram aplicadas a um banco português, gerando assim uma base com 20 atributos relacionados ao tema, além de uma variável resposta indicando se o cliente submeteu (`yes`) ou não (`no`) a um depósito a prazo.

# Importando Bibliotecas

In [4]:
# bibliotecas do projeto
import pandas as pd

# Lendo e Analisando Base

In [7]:
# Lendo base de dados
path = '../data/bank.csv'
df = pd.read_csv(path, sep=',')

print(f'Volumetria: {df_ori.shape}')
df.head()

Volumetria: (11162, 17)


Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,deposit
0,59,admin.,married,secondary,no,2343,yes,no,unknown,5,may,1042,1,-1,0,unknown,yes
1,56,admin.,married,secondary,no,45,no,no,unknown,5,may,1467,1,-1,0,unknown,yes
2,41,technician,married,secondary,no,1270,yes,no,unknown,5,may,1389,1,-1,0,unknown,yes
3,55,services,married,secondary,no,2476,yes,no,unknown,5,may,579,1,-1,0,unknown,yes
4,54,admin.,married,tertiary,no,184,no,no,unknown,5,may,673,2,-1,0,unknown,yes


Como mencionado anteriormente, temos 20 atributos e uma variável resposta no conjunto de dados. Pela análise das dimensões do dataset, é possível também pontuar que estamos falando de um conjunto com 41.188 amostras. Para auxiliar no entendimento do contexto do problema de negócio, vamos registrar uma breve descrição de cada uma das variáveis. A fonte das explicações a seguir é a mesma encontrada no [repositório UCI](https://archive.ics.uci.edu/ml/datasets/Bank+Marketing) onde este dataset está armazenado.

* **age:** idade do cliente contatado pela instituição financeira _(numérica)_;
* **job:** ocupação empregatícia do cliente _(categórica)_;
* **marital:** estado civil do cliente contatado _(categórica)_;
* **education:** nível de escolaridade do cliente _(categórica)_;
* **default:** cliente possui crédito por padrão? _(categórica)_;
* **housing:** cliente possui imóveis alugados? _(categórica)_;
* **loan:** cliente poissui empréstimo pessoal? _(categórica)_;
* **contact:**  tipo de comunicação utilizada no contato _(categórica)_;
* **month:** mês do último contato _(categórica)_;
* **duration:** duração, em segundos, do último contato. Nota: esse atributo possui grande influência na variável resposta (duração=0, y='no') e seu valor é conhecido somente após a realização do contato. Dessa forma, esta só deve ser incluída nas análises para fins de benchmark, sendo desejável sua exclusão se a abordagem for a criação de um modelo preditivo _(numérica)_;
* **campaign:** quantidade de contatos realizados durante a campanha para o cliente em questão _(numérica)_;
* **pdays:** número de dias após o último contato ao cliente (999 indica que o cliente não foi contatado anteriormente) _(numérica)_;
* **previous:** quantidade de contatos realizados antes da campanha atual para o cliente em questão _(numérica)_;
* **poutcome:** resultado da última campanha de marketing _(categórica)_;

_Variáveis adicionais encontradas somente no dataset bank-adittional do repositório UCI_
* **emp_var_rate:** taxa de variação empregatícia (indicador trimestral) _(numérica)_;
* **cons_price_idx:** índice de preços ao consumidos (indicador mensal) _(numérica)_;
* **cons_conf_idx:** índice de confiança do consumidor (indicador mensal) _(numérica)_;
* **euribor3m:** taxa Euribor 3 meses (indicador diário - mercado monetário da zona do Euro) _(numérica)_;
* **nr_employed:** número de empregados da instituição _(numérica)_;

Nos próximos blocos de código, vamos utilizar métodos específicos do pandas para explorar ainda mais nosso conjunto de dados, analisando dados estatísticos e verificando algumas possíveis inconsistências que se fazem comuns na prática.

____

Método **describe**: análise estatística sobre o DataFrame
* [documentacao](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html)
* [geeks_for_geeks](https://www.geeksforgeeks.org/python-pandas-dataframe-info/)
* [w3_school](https://www.w3resource.com/python-exercises/pandas/python-pandas-data-frame-exercise-3.php)

In [8]:
# Analisando estatísticas
df.describe()

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,11162.0,11162.0,11162.0,11162.0,11162.0,11162.0,11162.0
mean,41.231948,1528.538524,15.658036,371.993818,2.508421,51.330407,0.832557
std,11.913369,3225.413326,8.42074,347.128386,2.722077,108.758282,2.292007
min,18.0,-6847.0,1.0,2.0,1.0,-1.0,0.0
25%,32.0,122.0,8.0,138.0,1.0,-1.0,0.0
50%,39.0,550.0,15.0,255.0,2.0,-1.0,0.0
75%,49.0,1708.0,22.0,496.0,3.0,20.75,1.0
max,95.0,81204.0,31.0,3881.0,63.0,854.0,58.0


___

Método **info**: informações detalhadas do DataFrame

* [documentacao](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.info.html)
* [geeks_for_geeks](https://www.geeksforgeeks.org/python-pandas-dataframe-info/)
* [w3_schools](https://www.w3resource.com/pandas/dataframe/dataframe-info.php)

In [9]:
# Informações sobre o DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 17 columns):
age          11162 non-null int64
job          11162 non-null object
marital      11162 non-null object
education    11162 non-null object
default      11162 non-null object
balance      11162 non-null int64
housing      11162 non-null object
loan         11162 non-null object
contact      11162 non-null object
day          11162 non-null int64
month        11162 non-null object
duration     11162 non-null int64
campaign     11162 non-null int64
pdays        11162 non-null int64
previous     11162 non-null int64
poutcome     11162 non-null object
deposit      11162 non-null object
dtypes: int64(7), object(10)
memory usage: 1.4+ MB


___

Atributo **dtype**: analisando os tipos primitivos do DataFrame
* [documentacao](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dtypes.html)
* [geeks_for_geeks](https://www.geeksforgeeks.org/python-pandas-dataframe-dtypes/)
* [w3school](https://www.w3resource.com/pandas/dataframe/dataframe-dtypes.php)
* [pbpython](https://pbpython.com/pandas_dtypes.html)

In [10]:
# Analisando
df.dtypes

age           int64
job          object
marital      object
education    object
default      object
balance       int64
housing      object
loan         object
contact      object
day           int64
month        object
duration      int64
campaign      int64
pdays         int64
previous      int64
poutcome     object
deposit      object
dtype: object

___

Método **isnull()**: contabilizando dados nulos no DataFrame

* [documentacao](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isnull.html)
* [geeks_for_geeks](https://www.geeksforgeeks.org/python-pandas-isnull-and-notnull/)

In [11]:
# Aplicação
df.isnull().sum()

age          0
job          0
marital      0
education    0
default      0
balance      0
housing      0
loan         0
contact      0
day          0
month        0
duration     0
campaign     0
pdays        0
previous     0
poutcome     0
deposit      0
dtype: int64