# Projeto de Análise de Dados - Venda de Produto Bancário

## 1. Contextualização

O Banco XPTOKW fez um levantamento de clientes que após tentativas de vendas de determinado produto financeiro, observaram quais aceitaram o produto e quais não aceitaram. Entretanto, para melhorar a eficiência de suas vendas eles te contrataram para realizar a análise destes dados e mostrar a eles algumas soluções para maximizar a eficiência em novas vendas.

Uma primeira reunião foi realizada contigo e um arquivo com os dados que eles levantaram foi te encaminhado, o arquivo se chama bank_marketing.xlsx.

Com os dados em mãos, você iniciou sua análise exploratória para responder as questões levantadas durante a reunião:

a) Qual o % de clientes que compraram o Título?

b) Quais profissões com maiores frequências são responsáveis por cerca de 80% da base? (Quais das técnicas aprendidas melhor leva a resposta a esta pergunta?)

c) Uma das frases ditas durante a reunião foi: “Podemos afirmar que 66% dos clientes não tem Ensino Superior”. Considerando os dados fornecidos, o que pode dizer sobre essa afirmação?

## 2. Pacotes e bibliotecas

In [4]:
import pandas as pd
import seaborn as sns
import openpyxl

## 3. Carga dos dados

In [14]:
df_raw = pd.read_excel(r'data\bank_marketing.xlsx', engine='openpyxl',sheet_name='bank_marketing',header=1)

In [17]:
df_raw = df_raw.drop(columns='Unnamed: 0')
df_raw

Unnamed: 0,Cliente_Comprou_o_Titulo?,Idade,Profissão,Estado_Civil,Formação,Cliente_Devedor?,Saldo_Conta_Corrente,Tem_Hipoteca?,Tem_Emprestimo?,Qte_de_Ligações_Feitas
0,Não,33,Operário,Casado,Ensino Médio,Não,263,Sim,Não,3
1,Não,58,Aposentado,Casado,Ensino Médio,Não,19,Não,Sim,3
2,Sim,83,Aposentado,Casado,Fundamental,Não,425,Não,Não,1
3,Sim,32,Administrador,Solteiro,Ensino Superior,Não,10281,Não,Não,1
4,Sim,31,Administrador,Solteiro,Ensino Médio,Não,360,Sim,Não,1
...,...,...,...,...,...,...,...,...,...,...
9679,Não,30,Desempregado,Solteiro,Ensino Superior,Não,463,Não,Não,4
9680,Sim,57,Aposentado,Casado,Ensino Médio,Não,466,Não,Não,2
9681,Sim,39,Administrador,Solteiro,Ensino Superior,Não,307,Não,Não,2
9682,Sim,37,Técnico,Solteiro,Ensino Médio,Não,4,Não,Não,1


## 4. Descrição dos dados

Feature | Descrição | Tipo
------- | --------- | ----
Cliente_Comprou_o_Titulo? | Sim / Não | Qualitativa Nominal
Idade | Idade do cliente | Quantitativa Discreta
Profissão | Profissão do cliente | Qualitativa Nominal
Estado_Civil | Informa o estado civil do cliente | Qualitativa Ordinal
Formação | Grau de instrução do cliente | Qualitativa Nominal
Cliente_Devedor? | Sim / Não | Qualitativa Nominal
Saldo_Conta_Corrente | Informa o saldo da conta corrente do cliente | Quantitativa Contínua
Tem_Hipoteca? | Sim / Não | Qualitativa Nominal
Tem_Emprestimo? | Sim / Não | Qualitativa Nominal
Qte_de_Ligações_feitas | Número de ligações realizadas para o cliente | Quantitativa Discreta

In [18]:
df_raw.dtypes

Cliente_Comprou_o_Titulo?    object
Idade                         int64
Profissão                    object
Estado_Civil                 object
Formação                     object
Cliente_Devedor?             object
Saldo_Conta_Corrente          int64
Tem_Hipoteca?                object
Tem_Emprestimo?              object
Qte_de_Ligações_Feitas        int64
dtype: object

In [19]:
df_raw['Saldo_Conta_Corrente'] = df_raw['Saldo_Conta_Corrente'].astype('float64')
df_raw['Saldo_Conta_Corrente'].dtypes

dtype('float64')

In [20]:
df_raw.shape

(9684, 10)

In [21]:
df_raw.isna().sum()

Cliente_Comprou_o_Titulo?    0
Idade                        0
Profissão                    0
Estado_Civil                 0
Formação                     0
Cliente_Devedor?             0
Saldo_Conta_Corrente         0
Tem_Hipoteca?                0
Tem_Emprestimo?              0
Qte_de_Ligações_Feitas       0
dtype: int64

## 5. Resumo dos dados 

In [23]:
df1 = df_raw.copy()

### 5.1 - Estatística Descritiva (Unidimensional)

#### 5.1.1 - Tabela de Frequências

In [117]:
# Cliente_Comprou_o_Titulo?

tb_freq = pd.DataFrame(df1['Cliente_Comprou_o_Titulo?'].value_counts()).reset_index()
tb_freq.rename(columns={'count':'Frequência Absoluta'}, inplace=True)

total = tb_freq['Frequência Absoluta'].sum()

tb_freq['Frequência Relativa %'] = 0
tb_freq['Frequência Acumulada %'] = 0



for i in tb_freq.index:
    tb_freq.loc[i,'Frequência Relativa %'] = round(tb_freq.loc[i,'Frequência Absoluta'] / total * 100,2)
    
for i in tb_freq.index:
    if i == 0:
        tb_freq.loc[i,'Frequência Acumulada %'] = tb_freq.loc[i,'Frequência Relativa %']
    else:
        tb_freq.loc[i,'Frequência Acumulada %'] = tb_freq.loc[i,'Frequência Acumulada %']
        print(i + 1)

2


In [94]:
tb_freq['Frequência Absoluta'].sum()

9684

In [118]:
tb_freq.value_counts()

Cliente_Comprou_o_Titulo?  Frequência Absoluta  Frequência Relativa %  Frequência Acumulada %
Não                        4906                 50.66                  50.66                     1
Sim                        4778                 49.34                  0.00                      1
Name: count, dtype: int64