O **dataset "Bank Marketing"** disponível no acervo da UC Irvine (UCI) é um conjunto de dados com informações sobre campanhas de marketing de um banco português. O objetivo principal deste dataset é prever se um cliente vai aceitar ou não uma oferta de um produto bancário, com base em variáveis relacionadas ao cliente e à campanha.

Aqui está um resumo do dataset:

### Descrição
O dataset contém dados de uma campanha de marketing realizada por telefone, onde o banco tentou vender um depósito a prazo (uma oferta financeira) para seus clientes. Cada linha no dataset corresponde a um cliente e suas interações durante a campanha de marketing.

### Variáveis (Atributos)
Os dados possuem as seguintes variáveis:

1. **age**: Idade do cliente (numérica)
2. **job**: Tipo de trabalho do cliente (categórica, ex.: admin, technician, entrepreneur, etc.)
3. **marital**: Estado civil do cliente (categórica: married, single, divorced)
4. **education**: Nível de educação do cliente (categórica: primary, secondary, tertiary)
5. **default**: Se o cliente tem crédito em atraso (categórica: yes, no)
6. **housing**: Se o cliente tem um empréstimo habitacional (categórica: yes, no)
7. **loan**: Se o cliente tem um empréstimo pessoal (categórica: yes, no)
8. **contact**: Meio de contato durante a campanha (categórica: cellular, telephone)
9. **month**: Último mês de contato (categórica: janeiro, fevereiro, março, etc.)
10. **day_of_week**: Dia da semana de contato (categórica: mon, tue, wed, thu, fri)
11. **duration**: Duração da última conversa em segundos (numérica)
12. **campaign**: Número de contatos realizados durante a campanha (numérica)
13. **pdays**: Número de dias desde o último contato com o cliente (numérica)
14. **previous**: Número de contatos realizados antes da campanha (numérica)
15. **poutcome**: Resultado da campanha anterior (categórica: failure, nonexistent, success)
16. **emp.var.rate**: Taxa de variação do emprego (numérica)
17. **cons.price.idx**: Índice de preços ao consumidor (numérica)
18. **cons.conf.idx**: Índice de confiança do consumidor (numérica)
19. **euribor3m**: Taxa de juros Euribor a 3 meses (numérica)
20. **nr.employed**: Número de empregados no banco (numérica)

### Variável alvo:
- **y**: Se o cliente aceitou (yes) ou não (no) a oferta do produto bancário.

### Tamanho do dataset
O dataset contém cerca de **41.188 instâncias** (linhas) e **20 atributos** (colunas). A variável alvo ("y") é binária, com uma classe representando os clientes que aceitaram a oferta e a outra representando os que não aceitaram.

### Objetivo
O objetivo do dataset é **prever a variável "y"** (se o cliente vai ou não aceitar a oferta) com base nas características dos clientes e nas interações durante a campanha.

### Aplicações comuns
Este dataset é frequentemente usado para **classificação binária** em aprendizado de máquina, onde os algoritmos tentam prever se um cliente aceitará ou não uma oferta de marketing com base nas variáveis de entrada.

Caso você tenha interesse em detalhes mais específicos sobre como manipular ou modelar esses dados, posso te ajudar com isso também!

https://archive.ics.uci.edu/dataset/222/bank+marketing

In [3]:
import warnings
warnings.filterwarnings('ignore')

In [4]:
import pandas as pd

In [67]:
pd.options.display.max_columns = 300

In [5]:
from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
bank_marketing = fetch_ucirepo(id=222) 
  
# data (as pandas dataframes) 
X = bank_marketing.data.features 
y = bank_marketing.data.targets 
  
# variable information 
print(bank_marketing.variables) 

           name     role         type      demographic  \
0           age  Feature      Integer              Age   
1           job  Feature  Categorical       Occupation   
2       marital  Feature  Categorical   Marital Status   
3     education  Feature  Categorical  Education Level   
4       default  Feature       Binary             None   
5       balance  Feature      Integer             None   
6       housing  Feature       Binary             None   
7          loan  Feature       Binary             None   
8       contact  Feature  Categorical             None   
9   day_of_week  Feature         Date             None   
10        month  Feature         Date             None   
11     duration  Feature      Integer             None   
12     campaign  Feature      Integer             None   
13        pdays  Feature      Integer             None   
14     previous  Feature      Integer             None   
15     poutcome  Feature  Categorical             None   
16            

In [6]:
type(X)

pandas.core.frame.DataFrame

In [7]:
type(y)

pandas.core.frame.DataFrame

In [8]:
X.head()

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day_of_week,month,duration,campaign,pdays,previous,poutcome
0,58,management,married,tertiary,no,2143,yes,no,,5,may,261,1,-1,0,
1,44,technician,single,secondary,no,29,yes,no,,5,may,151,1,-1,0,
2,33,entrepreneur,married,secondary,no,2,yes,yes,,5,may,76,1,-1,0,
3,47,blue-collar,married,,no,1506,yes,no,,5,may,92,1,-1,0,
4,33,,single,,no,1,no,no,,5,may,198,1,-1,0,


In [9]:
y.head()

Unnamed: 0,y
0,no
1,no
2,no
3,no
4,no


In [10]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   age          45211 non-null  int64 
 1   job          44923 non-null  object
 2   marital      45211 non-null  object
 3   education    43354 non-null  object
 4   default      45211 non-null  object
 5   balance      45211 non-null  int64 
 6   housing      45211 non-null  object
 7   loan         45211 non-null  object
 8   contact      32191 non-null  object
 9   day_of_week  45211 non-null  int64 
 10  month        45211 non-null  object
 11  duration     45211 non-null  int64 
 12  campaign     45211 non-null  int64 
 13  pdays        45211 non-null  int64 
 14  previous     45211 non-null  int64 
 15  poutcome     8252 non-null   object
dtypes: int64(7), object(9)
memory usage: 5.5+ MB


In [11]:
y.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   y       45211 non-null  object
dtypes: object(1)
memory usage: 353.3+ KB


In [12]:
X.shape

(45211, 16)

In [13]:
y.shape

(45211, 1)

job, education, contact and poutcome columns have null values

In [15]:
X.select_dtypes(include='object')

Unnamed: 0,job,marital,education,default,housing,loan,contact,month,poutcome
0,management,married,tertiary,no,yes,no,,may,
1,technician,single,secondary,no,yes,no,,may,
2,entrepreneur,married,secondary,no,yes,yes,,may,
3,blue-collar,married,,no,yes,no,,may,
4,,single,,no,no,no,,may,
...,...,...,...,...,...,...,...,...,...
45206,technician,married,tertiary,no,no,no,cellular,nov,
45207,retired,divorced,primary,no,no,no,cellular,nov,
45208,retired,married,secondary,no,no,no,cellular,nov,success
45209,blue-collar,married,secondary,no,no,no,telephone,nov,


In [16]:
for column in X.select_dtypes(include='object').columns:
    print(X[column].value_counts(dropna=False))

job
blue-collar      9732
management       9458
technician       7597
admin.           5171
services         4154
retired          2264
self-employed    1579
entrepreneur     1487
unemployed       1303
housemaid        1240
student           938
NaN               288
Name: count, dtype: int64
marital
married     27214
single      12790
divorced     5207
Name: count, dtype: int64
education
secondary    23202
tertiary     13301
primary       6851
NaN           1857
Name: count, dtype: int64
default
no     44396
yes      815
Name: count, dtype: int64
housing
yes    25130
no     20081
Name: count, dtype: int64
loan
no     37967
yes     7244
Name: count, dtype: int64
contact
cellular     29285
NaN          13020
telephone     2906
Name: count, dtype: int64
month
may    13766
jul     6895
aug     6247
jun     5341
nov     3970
apr     2932
feb     2649
jan     1403
oct      738
sep      579
mar      477
dec      214
Name: count, dtype: int64
poutcome
NaN        36959
failure     4901
other  

In [17]:
X.select_dtypes(include='object').columns[:-1]

Index(['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact',
       'month'],
      dtype='object')

In [18]:
X.job.mode()[0]

'blue-collar'

In [19]:
for column in X.select_dtypes(include='object').columns[:-1]:
    X[column].fillna(X[column].mode()[0], inplace=True)

In [20]:
X.poutcome.fillna('other', inplace=True)

In [21]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45211 entries, 0 to 45210
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   age          45211 non-null  int64 
 1   job          45211 non-null  object
 2   marital      45211 non-null  object
 3   education    45211 non-null  object
 4   default      45211 non-null  object
 5   balance      45211 non-null  int64 
 6   housing      45211 non-null  object
 7   loan         45211 non-null  object
 8   contact      45211 non-null  object
 9   day_of_week  45211 non-null  int64 
 10  month        45211 non-null  object
 11  duration     45211 non-null  int64 
 12  campaign     45211 non-null  int64 
 13  pdays        45211 non-null  int64 
 14  previous     45211 non-null  int64 
 15  poutcome     45211 non-null  object
dtypes: int64(7), object(9)
memory usage: 5.5+ MB


In [65]:
pd.get_dummies(X.select_dtypes(include='object'), drop_first=True)

Unnamed: 0,job_blue-collar,job_entrepreneur,job_housemaid,job_management,job_retired,job_self-employed,job_services,job_student,job_technician,job_unemployed,...,month_jan,month_jul,month_jun,month_mar,month_may,month_nov,month_oct,month_sep,poutcome_other,poutcome_success
0,False,False,False,True,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
1,False,False,False,False,False,False,False,False,True,False,...,False,False,False,False,True,False,False,False,True,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
3,True,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
4,True,False,False,False,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45206,False,False,False,False,False,False,False,False,True,False,...,False,False,False,False,False,True,False,False,True,False
45207,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,True,False,False,True,False
45208,False,False,False,False,True,False,False,False,False,False,...,False,False,False,False,False,True,False,False,False,True
45209,True,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,True,False,False,True,False
