<a href="https://colab.research.google.com/github/jotapdiasgh/pos-mvp-sprint1/blob/main/MVP_Sprint1_JoaoPedroVieiraDias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP Análise de Dados e Boas Práticas

**Nome:** João Pedro Vieira Dias

**Matrícula:** 4052025000227

**Dataset:** [Bank Marketing](https://archive.ics.uci.edu/dataset/222/bank+marketing)

# Descrição do Problema

Essa seção traz as disposições iniciais sobre o dataset **Bank Marketing**, que compila informações acerca de uma campanha de marketing, feita por um banco português com seus clientes, a fim de convencê-los a aderir a modalidade de depósito a prazo no âmbito de investimentos. Ele foi escolhido por trazer informações reais, incluir dados socioeconômicos (envolve parte do meu emprego atual) e permitir a aplicação de uma série de técnicas de análise exploratória e de pré-processamento de dados vistas na Sprint.

## Hipóteses do Problema

As hipóteses iniciais, levando em conta o senso comum frente ao contexto do dataset, são as seguintes:

1. A taxa de conversão é baixa no geral.

2. Clientes mais velhos possuem taxa de conversão maior.

3. Clientes com empregos operacionais ('blue-collar') possuem taxa de conversão menor

4. Clientes casados possuem taxa de conversão maior.

5. Clientes com maior escolaridade possuem taxa de conversão maior.

6. Clientes com histórico de inadimplência possuem taxa de conversão menor.

7. Clientes com algum tipo de crédito tomado (financiamento habitacional ou empréstimo pessoal) possuem taxa de conversão menor.

8. Existem valores ausentes no dataset.

## Tipo de Problema

Por possuir um conjunto de informações de entrada (socioeconômicas e relacionadas à forma da campanha) e de saída (se o cliente aderiu ou não ao investimento > dimensão *target* com valor binário *sim* ou *não*), entendo que o presente dataset apresente um problema de **classificação supervisionada**.

## Seleção de Dados

O dataset Bank Marketing representa um conjunto de dados com boas informações exploráveis através de bibliotecas apresentadas na Sprint. Por já estar pronto, não há necessidade de uma etapa de seleção ou restrição de dados externa.

## Atributos do Dataset

O dataset Bank Marketing contém 45.211 amostras dispostas em 17 dimensões, a saber:

- ***age*** - idade do cliente
- ***job*** - emprego do cliente
- ***marital*** - estado civil do cliente
- ***education*** - escolaridade do cliente
- ***default*** - presença de inadimplência em crédito do cliente
- ***balance*** - salário médio anual do cliente
- ***housing*** - presença de financiamento habitacional
- ***loan*** - presença de empréstimo pessoal
- ***contact*** - tipo de contato com o cliente
- ***day*** - dia do mês do último contato com o cliente
- ***month*** - mês do último contato com o cliente
- ***duration*** - duração em segundos do último contato com o cliente
- ***campaign*** - número de contatos feitos com o cliente
- ***pdays*** - número de dias desde o último contato com o cliente na última campanha
- ***previous*** - número de contatos feitos com o cliente antes da campanha atual
- ***poutcome*** - resultado da última campanha
- ***y*** - resultado da campanha atual

# Importação das Bibliotecas Necessárias e Carga de Dados

Essa seção consolida todas as importações de bibliotecas necessárias para a análise, visualização e pré-processamento dos dados, bem como o carregamento inicial do dataset Bank Marketing.

In [None]:
# importações
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

In [None]:
# carregamento do dataset via url raw do github
url = 'https://raw.githubusercontent.com/jotapdiasgh/pos-mvp-sprint1/refs/heads/main/bank-full.csv'

In [None]:
# guardando o dataset em um dataframe com a devida formatação para melhor legibilidade
df = pd.read_csv(url, sep=';')

# Análise de Dados

Essa seção abarca técnicas referentes à análise exploratória e visualização de dados sobre o dataset Bank Marketing, de modo a compreender como suas variáveis estão distribuídas, como se relacionam entre si e quais são as características mais importantes para suportar a etapa posterior de pré-processamento dos dados.

## Total e tipo das instâncias

O dataset Bank Marketing possui 45.211 instâncias (observações). Das 17 dimensões (colunas), 7 são do tipo numérico (integer) e 10 são do tipo categórico.

In [None]:
# informações de identificação do dataset
print(f"O dataset possui {df.shape[0]} instâncias e {df.shape[1]} dimensões")
print("\nTipos de dados por dimensão:\n")
print(df.info())

## Primeiras linhas do dataset

In [None]:
# primeiras linhas do dataset
df.head()

Já nos primeiros dados conseguimos observar que podem faltar informações sobre o tipo de contato (contact) e se houve ou não conversão na última campanha (poutcome); ademais, a validação dos dias desde o último contato na campanha anterior (pdays) pode prejudicar algumas análises mais a frente.

## Estatísticas descritivas

Usando estatística descritiva, observamos as principais características de cada dimensão para uma análise inicial

In [None]:
# apresentação das estatísticas descritivas do dataset
print("\nEstatísticas descritivas:")
df.describe(include='all')

**Dimensões numéricas**
- Os clientes contatados possuem uma média de 41 anos (mais novo = 18 / mais velho = 95), e a maior parte desses clientes tem idades variando entre 31 e 51 anos

- Os clientes contatados possuem uma média de renda anual média de 1.362 € (menor = -8.019 € / maior = 102.127 €), e a maior parte desses clientes tem renda anual média entre -1.682 € e 4.406 €

- Os clientes foram contatados majoritariamente no dia 16, e a maior parte desses clientes recebeu contatos entre os dias 8 e 24

- Os clientes contatados permaneceram em ligação, em média, por 258 segundos
(menor duração = 0 / maior duração = 4.918), e a maior parte desses clientes ficaram em ligação entre 1 e 515 segundos > 0 indica que as ligações não foram sequer completadas

- Os clientes tiveram 3 contatos em média (menor quantidade = 1 / maior quantidade = 63), e a maior parte desses clientes recebeu entre 0 e 6 contatos > 0 indica que as ligações não foram sequer completadas

- Os clientes ficaram sem contato desde a última campanha por 40 dias, em média (menor intervalo = -1 / maior intervalo = 871), e a maior parte desses clientes ficou sem contato entre -60 e 140 dias > os números negativos indicam que não foram contatados na última campanha

- Os clientes tiveram, antes da campanha em análise, 1 contato em média (menor quantidade = 0 / maior quantidade = 275), e a maior parte desses clientes recebeu entre -1 e 3 contatos > 0 e números negativos indicam que não houve contato registrado

**Dimensões categóricas**
- Os clientes contatados estão empregados, em sua maioria, em cargos operacionais (blue-collar): são 9.732 instâncias

- Os clientes contatados são, em sua maioria, casados: são 27.214 instâncias

- Os clientes contatados possuem, em sua maioria, escolaridade secundária (até os 18 anos, semelhante ao ensino médio no Brasil): são 23.202 instâncias

- Os clientes contatados estão, em sua maioria, com inadimplência em créditos: são 44.396 instâncias

- Os clientes contatados possuem, em sua maioria, financiamento habitacional: são 25.130 instâncias

- Os clientes contatados possuem, em sua maioria, empréstimo pessoal: são 37.967 instâncias

- Os clientes contatados foram, em sua maioria, contatados de alguma forma: são 29.285 instâncias

- Os clientes foram contatados, em sua maioria, em maio: são 13.766 instâncias

- Dos clientes contatados, em sua maioria, não há informação de conversão com sucesso ou não na última campanha: são 36.959 instâncias

- Dos clientes contatados, em sua maioria, não houve conversão com sucesso: são 39.922 instâncias

### Variáveis qualitativas

Como identificado que a conversão da campanha é muito baixa (a instância "no" da dimensão "y" aparece 39.992 vezes > 88,46% do dataset), é importante mapear inicialmente como as variáveis qualitativas estão distribuídas nesse conjunto em função da conversão positiva ou negativa.

#### Análise - tipo de emprego

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(12,6))

# seleção da variável e configuração da plotagem
ax = df['job'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por tipo de emprego')
ax.set_ylabel('Tipo de emprego')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Somente empregos operacionais (blue-collar) representam 21,53% do dataset. Se somarmos estes aos empregos de gestão (management) e técnicos (technician), teremos 59,25% do dataset.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(12, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['job', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    fontsize=8,
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    fontsize=8,
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por tipo de emprego x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Tipo de emprego')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', vemos que há certa proporcionalidade em relação ao número total por tipo de emprego, porém, com algum distanciamento: vai de 71,32% do total (student > estudantes) a 92,73% do total (blue-collar > operacionais)

#### Análise - estado civil

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['marital'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por estado civil')
ax.set_ylabel('Estado civil')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Somente os clientes casados (married) respondem por 60,19% do dataset.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['marital', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por estado civil x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Estado civil')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', também vemos que há certa proporcionalidade em relação ao número total por estado civil: vai de 85,05% do total (single > solteiros) a 89,88% do total (married > casados)

#### Análise - escolaridade

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['education'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por escolaridade')
ax.set_ylabel('Escolaridade')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Somente os clientes secundaristas (secondary > similar ao ensino médio no Brasil) respondem por 51,32% do dataset.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['education', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por escolaridade x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Escolaridade')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', também vemos que há certa proporcionalidade em relação ao número total por estado civil: vai de 84,99% do total (tertiary > universitários) a 91,37% do total (primary > primários, similar ao ensino fundamental no Brasil)

#### Análise - inadimplência

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['default'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por presença de inadimplência')
ax.set_ylabel('Presença de inadimplência')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

98,20% do dataset não apresenta qualquer inadimplência.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['default', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por presença de inadimplência x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Presença de inadimplência')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', foi necessário usar colunas agrupadas em função da escala deixar a instância 'no' com pouca legibilidade. Nesse sentido, é observado que 88,20% dos adimplentes (no) não tiveram conversão à campanha; e como esperado, a maior parte dos inadimplentes não adere à conversão: 93,62% (yes)

#### Análise - financiamento habitacional

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['housing'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por presença de financiamento habitacional')
ax.set_ylabel('Presença de financiamento habitacional')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Os clientes com financiamento habitacional representam a maior parte do dataset: 55,59%



In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['housing', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por presença de financiamento habitacional x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Presença de financiamento habitacional')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', há discrepância mínima a ser observada: 92,30% dos clientes com financiamento habitacional não aderiram à conversão; esse percentual cai para 83,30% quando não há financiamento habitacional

#### Análise - empréstimo pessoal

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['loan'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por presença de empréstimo pessoal')
ax.set_ylabel('Presença de empréstimo pessoal')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Os clientes sem empréstimo pessoal representam a maior parte do dataset: 83,98%


In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['loan', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por presença de empréstimo pessoal x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Presença de empréstimo pessoal')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', o comportamento é semelhante ao observado nos clientes que possuem financiamento habitacional: 93,32% dos que têm empréstimo pessoal não aderem à conversão; esse percentual cai para 87,34% quando é verificado quem não tem empréstimo pessoal

#### Análise - tipo de contato

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['contact'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por tipo de contato')
ax.set_ylabel('Tipo de contato')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Nesse ponto da análise é encontrado o primeiro problema considerável do dataset: não é possível determinar o tipo de contato feito com 28,80% da base. Já a maior parte (64,77%) foi feita por celular.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['contact', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por tipo de contato x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Tipo de contato')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', como destacado na visualização anterior, a instância 'unknown' (desconhecido) traz um problema para a análise: não é possível afirmar como foi feito o contato para quem não aderiu à campanha nessa faixa (95,93% > maior proporção desse recorte). Essa proporção cai para 86,58% para quem foi contatado por telefone, e para 85,08% para quem foi contatado por celular.

#### Análise - mês do último contato

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['month'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por mês de último contato')
ax.set_ylabel('Mês de último contato')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Os contatos parecem estar bem divididos quando separamos na metade: 58,76% foram feitos no 1º semestre, sendo 30,44% do total e 51,81% do semestre somente em maio.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['month', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por mês de último contato x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Mês de último contato')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

Quando relacionado à variável target 'y', é notada uma diferença grande das proporções dos clientes que não aderiram à conversão de acordo com o mês: ela vai de 48,01% em março a 93,28% em maio. As menores proporções (até < 60%) compreendem, além de março, os meses de dezembro (53,27%), setembro (53,54%) e outubro (56,23%); os percentuais já saltam para > 80% nos demais meses, indicando quais são os melhores períodos para se obter conversão positiva à campanha.

#### Análise - resultado da última campanha

In [None]:
# ----- primeiro gráfico, sem relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['poutcome'].value_counts().sort_values(ascending=True).plot(kind='barh', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por resultado da última campanha')
ax.set_ylabel('Resultado da última campanha')
ax.set_xlabel('Quantidade de clientes')

# visualização da plotagem
plt.show()

Assim como na análise do tipo de contato, nesse recorte a informação desconhecida (unknown) apresenta um problema no sentido de comparar a eficiência dos esforços: 81,75% dos clientes contatados estão sem a informação.

In [None]:
# ----- segundo gráfico, relacionando com a variável target 'y'
# área para plotar o gráfico
fig, ax = plt.subplots(figsize=(16, 6))

# agrupamento de dados por 'job' e 'y'
contagem_job_y = df.groupby(['poutcome', 'y']).size().unstack()

# ordenação pela conversão predominante
contagem_job_y = contagem_job_y.sort_values('no')

# seleção do agrupamento e configuração da plotagem
contagem_job_y.plot(kind='barh', stacked=True, color=['#F17300', '#3E7CB1'], ax=ax)

# adição de rótulo nos dados e melhor ajuste
for i, container in enumerate(ax.containers):
    if i == 0:  # Primeira categoria (base)
        ax.bar_label(container,
                    label_type='center',
                    color='#212738')
    else:  # Segunda categoria (topo)
        ax.bar_label(container,
                    label_type='edge',
                    color='#212738')

# configuração dos aspectos do gráfico
plt.title('Quantidade de clientes por resultado da última campanha x conversão à campanha')
plt.xlabel('Quantidade de clientes')
plt.ylabel('Resultado da última campanha')
plt.legend(title='Conversão à campanha')

# visualização da plotagem
plt.show()

O desconhecimento da informação na maior parte dos clientes contatados é um problema ainda maior quando se percebe que 64,73% dos clientes com conversão positiva na última campanha, também tiveram conversão positiva na campanha em análise. Além disso, a informação 'other' não agrega valor à análise pois não há descrição do que ela representa.

#### Análise - resultado da campanha (variável target 'y')

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14,6))

# seleção da variável e configuração da plotagem
ax = df['y'].value_counts().sort_values(ascending=False).plot(kind='bar', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico
ax.set_title('Quantidade de clientes por resultado da campanha')
ax.set_ylabel('Clientes')
ax.set_xlabel('Resultado da campanha')

# visualização da plotagem
plt.show()

Aqui fica evidenciada a hipótese formulada com base em "percepção" no início desse estudo: 11,70% da campanha teve conversão positiva

### Variáveis quantitativas

Usando a mesma premissa na seção de análise das variáveis qualitativas, é importante entender como as variáveis quantitativas estão distribuídas para relacionar seu padrão com a conversão da campanha.

#### Média

A primeira medida de interesse que pode ser explorada nesse dataset para alguns insights é a média.

In [None]:
# média das dimensões numéricas
print("\nDesvio padrão:")
df.describe().loc['mean']

Em média, o dataset concentra informações em clientes na fase adulta (~41 anos), com renda anual média 1,57x superior ao salário mínimo de portugal (780 € > cerca de R$ 8.700,00), sendo necessários 3 contatos geralmente feitos no meio do mês e durando cerca de 4 minutos; esses clientes ficaram cerca de 40 dias sem contato desde a última campanha, que foi feito somente 1 contato.

##### Média - relação com variável target (y)

O gráfico a seguir relaciona a média das variáveis numéricas com a conversão à campanha, trazendo alguns primeiros insights.

In [None]:
# listagem das variáveis numéricas para o gráfico
variaveis_numericas = ['age', 'day', 'duration', 'campaign', 'pdays',
                       'previous', 'balance']

# cálculo das médias em função da variável target 'y'
medias_por_y = df.groupby('y')[variaveis_numericas].mean().reset_index()

# área para plotar o gráfico
plt.figure(figsize=(10, 6))

# pivotagem das médias calculadas para preparar as variáveis para plotar no gráfico
medias_mix = medias_por_y.melt(id_vars='y', var_name='Variável',
                               value_name='Média')

# criação do gráfico de barras
barplot = sns.barplot(data=medias_mix, x='Variável', y='Média', hue='y',
                      palette={'yes': '#3E7CB1', 'no': '#F17300'})

# configuração dos aspectos do gráfico
plt.title('Médias das variáveis numéricas por conversão à campanha')
plt.xlabel('Variável')
plt.ylabel('Média')
plt.legend(title='Conversão à campanha')
plt.tight_layout()

# adição de valores e configurando parâmetros visuais do gráfico
for p in barplot.patches:
    barplot.annotate(
        f"{p.get_height():.1f}",
        (p.get_x() + p.get_width() / 2., p.get_height()),
        ha='center',
        va='center',
        xytext=(0, 8),
        textcoords='offset points'
    )

# visualização da plotagem
plt.show()

##### Média - principais insights

Olhando para as médias, nota-se que os clientes que tiveram conversão à campanha (y = yes):
- Ficaram 2,43x mais tempo em ligação do que os clientes que não tiveram conversão;
- Ficaram 1,89x mais dias sem contato (desde a última campanha) do que os clientes que não tiveram conversão;
- Possuem renda anual média 1,38x maior do que os clientes que não tiveram conversão;

#### Desvio padrão

A segunda medida de interesse que pode ser explorada nesse dataset para alguns insights é o desvio padrão, visando complementar o que foi explorado na seção da Média.

In [None]:
# desvio padrão das dimensões numéricas
print("\nDesvio padrão:")
df.describe().loc['std']

Quando se valida o desvio padrão, é verificado que o dataset apresenta um público muito variado: as variações mais significativas giram em torno da renda anual média (chegando a valores negativos, indicando desde clientes com problemas financeiros a clientes em situação relativamente confortável), duração dos contatos (indo de contato não realizado ao dobro da média), contatos realizados (de nenhum contato realizado ao dobro da média) e dias desde o último contato (clientes sem nenhum contato e clientes com relacionamento mais próximo).

##### Desvio padrão - relação com variável target (y)

O gráfico a seguir relaciona o desvio padrão das variáveis numéricas com a conversão à campanha, trazendo mais alguns insights.

In [None]:
# listagem das dimensões numéricas para o gráfico
dimensoes_numericas = df.select_dtypes(include=['int64', 'float64']).columns

# cálculo das médias em função da variável target 'y'
desvpad_por_y = df.groupby('y')[dimensoes_numericas].std().reset_index()

# área para plotar o gráfico
plt.figure(figsize=(10, 6))

# pivotagem das médias calculadas para preparar as variáveis para plotar no gráfico
desvpad_mix = desvpad_por_y.melt(id_vars='y', var_name='Variável', value_name='Desvio padrão')

# criação do gráfico de barras
barplot = sns.barplot(
    data=desvpad_mix,
    x='Variável',
    y='Desvio padrão',
    hue='y',
    palette={'yes': '#3E7CB1', 'no': '#F17300'}
)

# configuração dos aspectos do gráfico
plt.title('Desvio padrão das variáveis numéricas por conversão à campanha')
plt.xlabel('Variável')
plt.ylabel('Desvio padrão')
plt.legend(title='Conversão à campanha')
plt.tight_layout()

# adição de valores e configurando parâmetros visuais do gráfico
for p in barplot.patches:
    barplot.annotate(
        f"{p.get_height():.1f}",
        (p.get_x() + p.get_width() / 2., p.get_height()),
        ha='center',
        va='center',
        xytext=(0, 8),
        textcoords='offset points'
    )

# plotando o gráfico
plt.show()

##### Desvio padrão - principais insights

Olhando para o desvio padrão, nota-se que os clientes que tiveram conversão à campanha (y = yes):
- Se distanciam 1,32x a média de idade do que os clientes que não tiveram conversão;
- Se distanciam 1,89x a média de duração da ligação do que os clientes que não tiveram conversão;
- Se distanciam 1,22x a média de dias sem contato (desde a última campanha) do que os clientes que não tiveram conversão;
- Se distanciam 1,18x a renda anual média do que os clientes que não tiveram conversão;

#### Matriz de correlação

Outra visualização interessante, considerando que existem muitas dimensões numéricas, é entender como elas se relacionam através da matriz de correlação.

In [None]:
# listagem das dimensões numéricas para o gráfico
dimensoes_numericas = df.select_dtypes(include=['int64', 'float64']).columns

# criação de um dataframe apenas com as dimensões numéricas
df_numericas = df[dimensoes_numericas]

# cálculo da matriz de correlação
matriz_corr = df_numericas.corr()

# Plotar a matriz de correlação com Seaborn
plt.figure(figsize=(12, 10))
sns.heatmap(matriz_corr, annot=True, cmap='coolwarm', center=0, fmt=".2f",
            linewidths=.5, cbar_kws={"shrink": .8})
plt.title('Matriz de Correlação das Dimensões Numéricas - Bank Marketing', pad=10)
plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)
plt.tight_layout()
plt.show()

A matriz de correlação demonstra que as variáveis possuem seus próprios comportamentos isolados, sem influência entre si. A única exceção demonstra uma pequena correlação entre pdays e previous, o que pode ser explicado pela interpretação do grande número de contatos não realizados antes da campanha atual.

#### Distribuição das variáveis

Para se ter melhor ideia de como os dados estão dispersos no dataset, é importante explorar tal abordagem através de visualizações de distribuição das variáveis, como histogramas e boxplots.

##### Análise - idade dos clientes

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['age'], bins=20, edgecolor='#F2F4F3', color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição da idade dos clientes')
plt.xlabel('Idade dos clientes')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

In [None]:
# primeiro boxplot, sem relação com variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(8, 4))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['age'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_idade = df['age'].median()
media_idade = df['age'].mean()
q1_idade = df['age'].quantile(0.25)
q3_idade = df['age'].quantile(0.75)

# configuração das estatísticas mais importantes
plt.axhline(mediana_idade, color='#F17300', linestyle='-.',
            linewidth=1.2,label=f'Mediana: {mediana_idade:.0f} anos')
plt.axhline(media_idade, color='#86B0D5', linestyle='--', linewidth=1.2,
            label=f'Média: {media_idade:.1f} anos')
plt.axhline(q1_idade, linestyle='none', label=f'1º Quartil: {q1_idade:.0f} anos')
plt.axhline(q3_idade, linestyle='none', label=f'3º Quartil: {q3_idade:.0f} anos')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição da idade dos clientes')
plt.ylabel('Idade dos clientes')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

In [None]:
# conjunto de 2 boxplots, separando por relação com a variável target 'y'
# área para plotar o gráfico
plt.figure(figsize=(12, 6))

# boxplot para y = 'no'
plt.subplot(1, 2, 1)

# seleção da variável e configuração da plotagem
sns.boxplot(data=df[df['y'] == 'no']['age'], color='#86B0D5', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
idade_no = df[df['y'] == 'no']['age']
q1_no = idade_no.quantile(0.25)
q3_no = idade_no.quantile(0.75)

# configuração das estatísticas mais importantes
plt.axhline(idade_no.median(), color='#F17300', linestyle='-.', linewidth=1.2,
            label=f'Mediana: {idade_no.median():.0f} anos')
plt.axhline(idade_no.mean(), color='#212738', linestyle='--', linewidth=1.2,
            label=f'Média: {idade_no.mean():.1f} anos')
plt.axhline(q1_no, linestyle='none', label=f'1º Quartil: {q1_no:.0f} anos')
plt.axhline(q3_no, linestyle='none', label=f'3º Quartil: {q3_no:.0f} anos')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição de idade por conversão NEGATIVA')
plt.ylabel('Idade')
plt.xlabel('Clientes com conversão NEGATIVA')
plt.rcParams['grid.color'] = '#DEE3E0'

### -------------------

# boxplot para y = 'yes'
plt.subplot(1, 2, 2)

# seleção da variável e configuração da plotagem
sns.boxplot(data=df[df['y'] == 'yes']['age'], color='#4CB963', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
idade_yes = df[df['y'] == 'yes']['age']
q1_yes = idade_yes.quantile(0.25)
q3_yes = idade_yes.quantile(0.75)

# Linhas e legendas
plt.axhline(idade_yes.median(), color='#F17300', linestyle='-.', linewidth=1.2,
            label=f'Mediana: {idade_yes.median():.0f} anos')
plt.axhline(idade_yes.mean(), color='#212738', linestyle='--', linewidth=1.2,
            label=f'Média: {idade_yes.mean():.1f} anos')
plt.axhline(q1_yes, linestyle='none', label=f'1º Quartil: {q1_yes:.0f} anos')
plt.axhline(q3_yes, linestyle='none', label=f'3º Quartil: {q3_yes:.0f} anos')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição de idade por conversão POSITIVA')
plt.ylabel('Idade')
plt.xlabel('Clientes com conversão POSITIVA')
plt.rcParams['grid.color'] = '#DEE3E0'

# ajuste de layout e visualização da plotagem
plt.tight_layout()
plt.show()

- A distribuição da idade dos clientes se mostra Assimétrica Positiva, unimodal, concentrada nas faixas 30-50 anos e demonstrando a demografia-alvo do banco.
- Com mediana e média muito próximas, a distribuição por idade se mostra balanceada, com 50% dos clientes possuindo idade entre 33 e 48 anos e poucos outliers distorcendo a média de forma quase nula.
- Ao separar a análise por conversão à campanha, os números possuem pouca variação

##### Análise - renda anual média

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['balance'], bins=50, edgecolor='#F2F4F3',
                            color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição da renda anual média dos clientes')
plt.xlabel('Renda anual média')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 6))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['balance'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_renda = df['balance'].median()
media_renda = df['balance'].mean()
q1_renda = df['balance'].quantile(0.25)
q3_renda = df['balance'].quantile(0.75)

# variável de referência para ajuste de proporção do eixo y
iqr = q3_renda - q1_renda

# configuração das estatísticas mais importantes e ajuste de escala no eixo y
## escala do eixo y foi ajustada para melhor legibilidade em função de muitos outliers
plt.axhline(mediana_renda, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_renda:.2f} €')
plt.axhline(media_renda, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_renda:.2f} €')
plt.axhline(q1_renda, linestyle='none', label=f'1º Quartil: {q1_renda:.2f} €')
plt.axhline(q3_renda, linestyle='none', label=f'3º Quartil: {q3_renda:.2f} €')
plt.ylim([q1_renda - 3*iqr, q3_renda + 3*iqr])
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição da renda anual média')
plt.ylabel('Renda anual média dos clientes')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

In [None]:
print(df['balance'].sort_values(ascending=True).head(28267))

- A distribuição da renda anual média dos clientes se mostra Assimétrica Positiva com cauda longa a direita, unimodal, com 62,55% das suas instâncias em até 787 € (partindo de -8.019 €).
- Com mediana e média muito distantes, a distribuição por renda anual média se mostra muito desbalanceada, com 50% dos clientes com renda anual média entre 72 € e 1428 €. Mesmo que com poucos outliers em quantidade (proporcionalmente ao total), os valores desses outliers distorcem significativamente a média.

##### Análise - dia do mês do último contato

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(16, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['day'], bins=30, edgecolor='#F2F4F3',
                            color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição do último dia do mês de contato com o cliente')
plt.xlabel('Último dia do mês de contato')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 6))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['day'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_dia = df['day'].median()
media_dia = df['day'].mean()
q1_dia = df['day'].quantile(0.25)
q3_dia = df['day'].quantile(0.75)

# configuração das estatísticas mais importantes
plt.axhline(mediana_dia, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_dia:.0f} dias')
plt.axhline(media_dia, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_dia:.0f} dias')
plt.axhline(q1_dia, linestyle='none', label=f'1º Quartil: {q1_dia:.0f} dias')
plt.axhline(q3_dia, linestyle='none', label=f'3º Quartil: {q3_dia:.0f} dias')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição do último dia do mês de contato com o cliente')
plt.ylabel('Último dia do mês de contato com o cliente')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

- A distribuição do último dia do mês de contato com o cliente se mostra Simétrica, unimodal, bem dispersa (com poucos contatos no início do mês e próximo aos dias 10 e 25)
- Com mediana e média iguais, a distribuição por idade se mostra balanceada, com 50% dos dias de contato entre os dias 8 e 21. Não existem outliers.

##### Análise - duração em segundos do último contato

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(16, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['duration'], bins=10, edgecolor='#F2F4F3',
                            color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição da duração do último contato com o cliente (em segundos)')
plt.xlabel('Duração do último contato com o cliente (em segundos)')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 6))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['duration'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_duration = df['duration'].median()
media_duration = df['duration'].mean()
q1_duration = df['duration'].quantile(0.25)
q3_duration = df['duration'].quantile(0.75)

# variável de referência para ajuste de escala do eixo y
iqr = q3_duration - q1_duration

# configuração das estatísticas mais importantes e ajuste de escala no eixo y
## escala do eixo y foi ajustada para melhor legibilidade em função de muitos outliers
plt.axhline(mediana_duration, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_duration:.0f} segundos')
plt.axhline(media_duration, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_duration:.0f} segundos')
plt.axhline(q1_duration, linestyle='none', label=f'1º Quartil: {q1_duration:.0f} segundos')
plt.axhline(q3_duration, linestyle='none', label=f'3º Quartil: {q3_duration:.0f} segundos')
plt.ylim([q1_duration - 3*iqr, q3_duration + 3*iqr])
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição da duração do último contato com o cliente (em segundos)')
plt.ylabel('Duração do último contato com o cliente')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

- A distribuição da duração do último contato dos clientes se mostra Assimétrica Positiva, unimodal, concentrada nas faixas 0 (ligação não completada) a 620 segundos, demonstrando que as ligações tendem a ser mais curtas.
- Com média acima da mediana, a distribuição por duração do último contato dos clientes se mostra desbalanceada, com 50% dos clientes permanecendo em ligação entre 103 e 319 segundos.
- Poucos outliers proporcionalmente ao número total.

*** OBS**: para essa dimensão específica, cabe destacar a descrição que o próprio autor do dataset inseriu (traduzido):
*"[...] este atributo afeta consideravelmente o resultado de saída (por exemplo, se duração=0, então y='não'). No entanto, a duração não é conhecida antes de um contato ser realizado. Além disso, após o término do contato, y é obviamente conhecido. Assim, este input só deve ser incluído para fins de benchmark e deve ser descartado se a intenção for ter um modelo preditivo realista."*

##### Análise - contatos feitos

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(16, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['campaign'], bins=10, edgecolor='#F2F4F3',
                            color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição de contatos feitos com o cliente')
plt.xlabel('Contatos feitos com o cliente')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

Como o histograma traz poucas informações (a distribuição fica muito concentrada em uma faixa que é importante analisar melhor), entendo ser necessário usar um gráfico de barras simples para destacar melhor a distribuição entre 1 e 8 contatos

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14,8))

# seleção da variável e configuração da plotagem
ax = df['campaign'].value_counts().sort_values(ascending=False).plot(kind='bar', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico (com ênfase na distribuição mostrada no histograma anterior)
ax.set_title('Quantidade de contatos feitos com o cliente')
ax.set_ylabel('Clientes')
ax.set_xlabel('Quantidade de contatos')
ax.set_xlim(-1,7.5)

# visualização da plotagem
plt.show()

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 6))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['campaign'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_campaign = df['campaign'].median()
media_campaign = df['campaign'].mean()
q1_campaign = df['campaign'].quantile(0.25)
q3_campaign = df['campaign'].quantile(0.75)

# variável de referência para ajuste de escala do eixo y
iqr = q3_campaign - q1_campaign

# configuração das estatísticas mais importantes e ajuste de escala no eixo y
## escala do eixo y foi ajustada para melhor legibilidade em função de muitos outliers
plt.axhline(mediana_campaign, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_campaign:.0f} contatos')
plt.axhline(media_campaign, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_campaign:.0f} contatos')
plt.axhline(q1_campaign, linestyle='none', label=f'1º Quartil: {q1_campaign:.0f} contatos')
plt.axhline(q3_campaign, linestyle='none', label=f'3º Quartil: {q3_campaign:.0f} contatos')
plt.ylim([q1_campaign - 3*iqr, q3_campaign + 3*iqr])
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição de contatos feitos com o cliente')
plt.ylabel('Contatos feitos com o cliente')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

- A distribuição da contatos feitos com o cliente se mostra Assimétrica Positiva, unimodal, concentrada nas faixas de 1 a 8 contatos, com destaque claro para clientes com 1 ou 2 contatos.
- Com média levemente acima da mediana, a distribuição por duração do último contato dos clientes se mostra desbalanceada, com cerca de 66,46% do total de contatos realizados concentrados entre 1 e 2 contatos.
- Poucos outliers proporcionalmente ao número total.

##### Análise - dias desde o último contato na última campanha

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(16, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['pdays'], bins=10, edgecolor='#F2F4F3',
                            color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição de dias desde o último contato com o cliente na última campanha')
plt.xlabel('Dias desde o último contato com o cliente na última campanha')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

Assim como na análise de contatos, o histograma traz poucas informações (a distribuição fica muito concentrada em uma faixa que é importante analisar melhor), sendo necessário usar um gráfico de barras simples para destacar melhor a distribuição entre -1 e 86 dias

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14,8))

# seleção da variável e configuração da plotagem
ax = df['pdays'].value_counts().sort_values(ascending=False).plot(kind='bar', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico (com ênfase na distribuição mostrada no histograma anterior)
ax.set_title('Quantidade de dias desde o último contato com o cliente na última campanha')
ax.set_ylabel('Clientes')
ax.set_xlabel('Quantidade de dias')
ax.set_xlim(-1,7.5)

# visualização da plotagem
plt.show()

Nessa visão, notamos ausência de contatos (por quaisquer motivos) feitos na última campanha em 81,74% da base.

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 6))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['pdays'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_diap = df['pdays'].median()
media_diap = df['pdays'].mean()
q1_diap = df['pdays'].quantile(0.25)
q3_diap = df['pdays'].quantile(0.75)

# configuração das estatísticas mais importantes
plt.axhline(mediana_diap, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_diap:.0f} dias')
plt.axhline(media_diap, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_diap:.0f} dias')
plt.axhline(q1_diap, linestyle='none', label=f'1º Quartil: {q1_diap:.0f} dias')
plt.axhline(q3_diap, linestyle='none', label=f'3º Quartil: {q3_diap:.0f} dias')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição do último dia do mês de contato com o cliente')
plt.ylabel('Último dia do mês de contato com o cliente')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

Levando em consideração o contexto dessa dimensão (>81% da base sem registro de contatos), praticamente todos os demais valores se tornam outliers, o que inviabiliza a análise de insights.

##### Análise - contatos feitos antes da campanha atual

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14, 6))

# seleção da variável e configuração da plotagem
n, bins, patches = plt.hist(df['previous'], bins=10, edgecolor='#F2F4F3', color='#FFAE80')

# adição de rótulos nos dados
for i in range(len(n)):
    if n[i] > 0:
        plt.text(bins[i] + (bins[i+1] - bins[i])/2, n[i],
                 str(int(n[i])),
                 ha='center',
                 va='bottom')

# configuração dos aspectos do gráfico
plt.title('Distribuição de contatos feitos com o cliente antes da campanha atual')
plt.xlabel('Contatos feitos com o cliente antes da campanha atual')
plt.ylabel('Frequência')

# visualização da plotagem
plt.show()

Também para essa análise, o histograma traz poucas informações (a distribuição fica muito concentrada em uma faixa que é importante analisar melhor), sendo necessário usar um gráfico de barras simples para destacar melhor a distribuição entre 0 e 13 contatos

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(14,8))

# seleção da variável e configuração da plotagem
ax = df['previous'].value_counts().sort_values(ascending=False).plot(kind='bar', color='#FFAE80')

# adição de rótulo nos dados
for container in ax.containers:
    ax.bar_label(container, label_type='edge', padding=3, color='#212738')

# configuração dos aspectos do gráfico (com ênfase na distribuição mostrada no histograma anterior)
ax.set_title('Contatos feitos com o cliente antes da campanha atual')
ax.set_ylabel('Clientes')
ax.set_xlabel('Contatos feitos')
ax.set_xlim(-1,7.5)

# visualização da plotagem
plt.show()

Com forte relação com a análise anterior, temos o mesmo percentual com 0 contatos feitos antes da campanha atual: 81,74%

In [None]:
# área para plotar o gráfico
plt.figure(figsize=(8, 8))

# seleção da variável e configuração da plotagem
sns.boxplot(data=df['previous'], color='#212738', width=0.6)

# criação de variáveis para destacar as estatísticas mais importantes
mediana_cont_ant = df['previous'].median()
media_cont_ant = df['previous'].mean()
q1_cont_ant = df['previous'].quantile(0.25)
q3_cont_ant = df['previous'].quantile(0.75)

# configuração das estatísticas mais importantes
plt.axhline(mediana_cont_ant, color='#F17300', linestyle='-.', linewidth=1.2, label=f'Mediana: {mediana_cont_ant:.0f} anos')
plt.axhline(media_cont_ant, color='#86B0D5', linestyle='--', linewidth=1.2, label=f'Média: {media_cont_ant:.1f} anos')
plt.axhline(q1_cont_ant, linestyle='none', label=f'1º Quartil: {q1_cont_ant:.0f} anos')
plt.axhline(q3_cont_ant, linestyle='none', label=f'3º Quartil: {q3_cont_ant:.0f} anos')
plt.legend()

# configuração dos aspectos do gráfico
plt.title('Distribuição contatos feitos com o cliente antes da campanha atual')
plt.ylabel('Contatos feitos com o cliente antes da campanha atual')
plt.rcParams['grid.color'] = '#DEE3E0'

# visualização da plotagem
plt.show()

Levando em consideração o contexto dessa dimensão (>81% da base sem registro de contatos), praticamente todos os demais valores se tornam outliers, o que inviabiliza a análise de insights.

# Pré-processamento de dados

Passada a primeira etapa de análise exploratória dos dados, a etapa de pré-processamento dos dados se mostra importante no sentido de prosseguir a análise fazendo algumas transformações a fim de complementar o entendimento e concluir mais apropriadamente sobre as hipóteses levantadas inicialmente.

## Tratamento de valores ausentes

A fim de validar se existem valores nulos que precisem ser tratados, é importante varrer o dataset (inclusive para corroborar com os achados da matriz de correlação)

In [None]:
# validação de valores ausentes nas colunas do dataset
print("Valores ausentes por dimensão:")
df.isnull().sum()

Apesar de não existirem valores nulos, a informação 'unknown' das colunas 'contact' (maior grau) e 'poutcome' (menor grau) são problemáticas por não agregarem valor ao dataset nessa forma. Neste sentido, serão tratadas como categoria separada a fim de não enviesar a análise (no caso de exclusão)

## Criação de cópia do dataset original

Na etapa de pré-processamento de dados, é importante não alterar diretamente o dataframe original (df) a fim de mantê-lo coerente para futuras comparações

In [None]:
# criação de uma cópia do dataset original
df_copia = df.copy()

## Tratamento de dimensões

O tratamento das dimensões do dataset visa prepará-lo para utilização em algoritmos de ML

### Engenharia de features

Para validar as hipóteses iniciais, é importante estabelecer algumas técnicas de engenharia de features

In [None]:
# transformação da dimensão 'job' a fim de agregá-la em grupos
emprego_rotulos = {
    'admin.': 'white-collar',
    'blue-collar': 'blue-collar',
    'entrepreneur': 'self-employed',
    'housemaid': 'service',
    'management': 'white-collar',
    'retired': 'retired',
    'self-employed': 'self-employed',
    'services': 'service',
    'student': 'student',
    'technician': 'white-collar',
    'unemployed': 'unemployed',
    'unknown': 'unknown'
}
df_copia['job_group'] = df_copia['job'].map(emprego_rotulos)

In [None]:
# transformação da dimensão 'marital' a fim de simplificá-la
df_copia['marital_simple'] = df_copia['marital'].apply(
    lambda x: 'married' if x == 'married' else 'not married'
    )

In [None]:
# transformação das dimensões 'default', 'housing' e 'loan' a fim de agregá-las em grupos
df_copia['has_credit'] = df_copia.apply(
    lambda row: 'yes' if row['default'] == 'yes' or row['housing'] == 'yes' or row['loan'] == 'yes' else 'no',
    axis=1
    )

In [None]:
# transformação das dimensões 'default' e 'job' a fim de agregá-las em grupos
df_copia['default_unemployed'] = df_copia.apply(
    lambda row: 'yes' if row['default'] == 'yes' and row['job'] == 'unemployed' else 'no',
    axis=1
)

In [None]:
# discretização da dimensão 'age' para melhor distribuição
df_copia['age_group'] = pd.cut(df_copia['age'],
                             bins=[0, 37, 55, 73, 91, 109],
                             labels=['18-36', '37-54', '55-72', '73-90', '>90'])

In [None]:
# transformação da variável target 'y' em booleano
df_copia['y'] = df_copia['y'].map({'no': 0, 'yes': 1})

### Label encoding

Após a etapa de engenharia de features, o label encoding vai transformar variáveis ordinais em formato numérico

In [None]:
# label encoding para variáveis ordinais e novas categóricas aplicáveis
cols_ordinais = ['education', 'month'] + ['marital_simple', 'age_group']
for col in cols_ordinais:
    if col in df_copia.columns:
        df_copia[col] = LabelEncoder().fit_transform(df_copia[col])

### Dummy encoding

Em seguida, o dummy encoding vai transformar variáveis categóricas em formato numérico, mantendo a relação ordinal quando aplicável

In [None]:
# dummy encoding para variáveis nominais e novas categóricas aplicáveis
nominal_cols = ['job', 'marital', 'default', 'housing', 'loan', 'contact', 'poutcome', 'job_group', 'has_credit', 'default_unemployed']
df_copia = pd.get_dummies(df_copia, columns=nominal_cols, drop_first=True)

### Separação entre conjuntos de teste e de treino

Feitas as primeiras transformações no dataset original, é necessário separar suas instâncias em grupos de treino e teste para os algoritmos de ML

In [None]:
# separação das dimensões de entrada (x) e variável target (y)
X = df_copia.drop('y', axis=1)
y = df_copia['y']

# divisão dos dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)

Utilizei a mesma estrutura do template indicado pois garante uma estrutura importante: prepara os dados para ML, separando as variáveis independentes (x) da dependente (y), e depois divide ambos em treino (70%) e teste (30%), mantendo a distribuição original das dimensões originais.

### Normalização

Separados os grupos, a normalização será importante para ajustar dimensões numéricas cuja distribuição não é normal

In [None]:
# seleção colunas numéricas contínuas (excluindo binárias/categóricas/transformadas)
cols_numericas = ['age', 'balance', 'duration', 'campaign', 'pdays', 'previous']

# normalização usando as colunas selecionadas
scaler = MinMaxScaler()
X_train[cols_numericas] = scaler.fit_transform(X_train[cols_numericas])
X_test[cols_numericas] = scaler.transform(X_test[cols_numericas])

## Estatísticas descritivas transformadas

Feitas todas as transformações necessárias, são apresentadas as estatísticas descritivas do dataset transformado e ajustado para ser consumido por algoritmos de ML

In [None]:
# apresentação das estatísticas descritivas do dataset após transformações
print("\nEstatísticas descritivas:")
df_copia.describe(include='all')

In [None]:
# primeiras linhas do dataset após transformações
print("\nDataset após transformações:")
df_copia.head()

In [None]:
# apresentação das estatísticas descritivas do conjunto de treino após normalização
print("\nEstatísticas descritivas:")
df_copia.describe(include='all')

In [None]:
# primeiras linhas do conjunto de treino após normalização
print("\nDataset após transformações:")
X_train.head()

# Conclusão

O dataset Bank Marketing é limpo e desbalanceado, com ausência de informações tratadas com a instância 'unknown'. A análise exploratória demonstrou o desbalanceamento e a falta de correlação das dimensões entre si, ensejando algumas transformações na etapa seguinte de pré-processamento. Aqui, as variáveis categóricas e numéricas (quando aplicável) passaram por uma série de transformações (engenharia de features e normalização) para preparar o dataset de modo que seja utilizado por algoritmos de ML.


Sobre as hipóteses levantadas inicialmente, cabe destacar:

**1. A taxa de conversão é baixa no geral >**
Confirmado: apenas 11,70% dos clientes da campanha tiveram conversão positiva

**2. Clientes mais velhos possuem taxa de conversão maior >**
Questionável: independente do recorte entendido como "mais velhos", a distribuição por idade se mostra balanceada, com maior número

**3. Clientes com empregos operacionais ('blue-collar') possuem taxa de conversão menor >**
Confirmado: cerca de 7,27% dos clientes blue-collar tiveram conversão positiva

**4. Clientes casados possuem taxa de conversão maior >**
Não confirmado: cerca de 10,12% dos clientes casados ('married') tiveram conversão positiva; os clientes solteiros ('single') tiveram cerca de 14,95% de conversão positiva

**5. Clientes com maior escolaridade possuem taxa de conversão maior >**
Confirmado: cerca de 15,01% dos clientes universitários ('tertiary') tiveram conversão positiva

**6. Clientes com histórico de inadimplência possuem taxa de conversão menor >**
Confirmado: cerca de 6,38% dos clientes inadimplentes ('default' = yes) tiveram conversão positiva

**7. Clientes com algum tipo de crédito tomado (financiamento habitacional ou empréstimo pessoal) possuem taxa de conversão menor >**
Confirmado: cerca de 7,70% dos clientes com financiamento habitacional ('housing') e 6,68% dos clientes com empréstimo pessoal tiveram conversão positiva

**8. Existem valores ausentes no dataset >**
Confirmado: apesar de não existirem instâncias vazias, as informações ausentes estão preenchidas no dataset como 'unknown' e possuem grande representatividade nas dimensões 'contact' (28,80%) e 'poutcome' (81,75%), demonstrando dificuldades no registro correto de informações de forma da campanha atual e histórico da campanha anterior