# Contexto ü§ñ

Notebook voltado ao escopo do A. Supervisionado relacionado √† classifica√ß√£o. Trata-se de uma revis√£o acerca desse tipo de aprendizado, constru√≠do junto de um estudo de caso referente √† an√°lise de um conjunto de dados que relaciona caracter√≠sticas de seus clientes com a sua respectiva ader√™ncia, ou falta, ao investimento.

>

O notebook √© didivido no primeiro momento para a an√°lise da condi√ß√£o dos dados, verificando se possuem valores duplicados ou faltantes, sendo seguido por uma etapa de explora√ß√£o nos dados, buscando rela√ß√µes e insights, chegando na cria√ß√£o dos modelos de machine learning (ML), os quais ir√£o treinar e, posteriormente, prever as classes dos clientes, como forma de saber quais, com base em suas caracter√≠sticas, podem ser mais ou menos aderentes ao investimento.

>

Por fim, h√° a etapa da valida√ß√£o dos modelos criados, os quais ser√£o comparados segundo determinadas m√©tricas, como o score, f1-score e precis√£o.

## Legenda - Marketing e Investimento :

- idade: Idade do cliente em anos.


- estado_civil: Estado civil do cliente, categorizado como "casado (a)", "solteiro (a)", "divorciado (a)".


- escolaridade: N√≠vel de escolaridade do cliente, categorizado como
"fundamental", "m√©dio", "superior".

- inadimplencia: Indica se o cliente possui alguma inadimpl√™ncia financeira, categorizado como "sim" ou "n√£o".

- saldo: Saldo financeiro do cliente.

- fez_emprestimo: Indica se o cliente j√° fez algum empr√©stimo,
categorizado como "sim" ou "n√£o".

- tempo_ult_contato: Tempo decorrido, em dias, desde o √∫ltimo contato com o cliente.

- numero_contatos: N√∫mero de vezes que o cliente foi contatado.

- aderencia_investimento: Indica se o cliente aderiu a algum

- investimento oferecido, categorizado como "sim" ou "n√£o".

## Importando as bibliotecas üìö

In [403]:
import pandas as pd
import statsmodels.api as sm
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt

from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.dummy import DummyClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from plotly.subplots import make_subplots
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, confusion_matrix



In [326]:
# Armazenando o dataset :

file_path = '/content/marketing_investimento.csv'

df = pd.read_csv(file_path)

## Realizando a primeira explora√ß√£o nos dados üîç



In [327]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1268 entries, 0 to 1267
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   idade                   1268 non-null   int64 
 1   estado_civil            1268 non-null   object
 2   escolaridade            1268 non-null   object
 3   inadimplencia           1268 non-null   object
 4   saldo                   1268 non-null   int64 
 5   fez_emprestimo          1268 non-null   object
 6   tempo_ult_contato       1268 non-null   int64 
 7   numero_contatos         1268 non-null   int64 
 8   aderencia_investimento  1268 non-null   object
dtypes: int64(4), object(5)
memory usage: 89.3+ KB


In [328]:
df.duplicated().sum()

0

In [329]:
df.isnull().sum()

idade                     0
estado_civil              0
escolaridade              0
inadimplencia             0
saldo                     0
fez_emprestimo            0
tempo_ult_contato         0
numero_contatos           0
aderencia_investimento    0
dtype: int64

In [330]:
df.isna().sum()

idade                     0
estado_civil              0
escolaridade              0
inadimplencia             0
saldo                     0
fez_emprestimo            0
tempo_ult_contato         0
numero_contatos           0
aderencia_investimento    0
dtype: int64

In [331]:
df.head()

Unnamed: 0,idade,estado_civil,escolaridade,inadimplencia,saldo,fez_emprestimo,tempo_ult_contato,numero_contatos,aderencia_investimento
0,45,casado (a),superior,nao,242,nao,587,1,sim
1,42,casado (a),medio,nao,1289,nao,250,4,sim
2,23,solteiro (a),superior,nao,363,nao,16,18,nao
3,58,divorciado (a),superior,nao,1382,nao,700,1,sim
4,50,casado (a),medio,nao,3357,nao,239,4,sim


In [332]:
df.shape

(1268, 9)

## Analisando o n√≠vel de outliers nos dados

In [379]:
for col in df.columns:
    fig = px.box(df, y=col,
                 title=f'Boxplot de {col}',
                 template='plotly_dark',
                 points='outliers', # Mostra apenas os outliers
                 color_discrete_sequence=['darkgray'],
                 width=500,  # Largura em pixels
                 height=400  # Altura em pixels
                 )
    fig.show()

Analisando os gr√°ficos de boxplot, concebe-se que os dados apresentam significativa presen√ßa de outliers, que podem prejudicar a an√°lise dos modelos de ML futuramente criados. Desse modo, concebe-se que para a mitiga√ß√£o desse efeito, os dados precisar√£o ser tratados, quer seja mediante a uma normaliza√ß√£o ou transforma√ß√£o, bem como recomenda-se que sejam analisados por modelos que apresentam consist√™ncia a outliers, como os modelos de √°rvores de decis√£o e random forest.

>

Os dados que apresentam os outliers s√£o :     

- numero_contatos
- tempo_ult_contato
- saldo
- idade

## Analisando a rela√ß√£o idade x ader√™ncia ao investimento üî¨

In [334]:
# Agrupamento dos dados por idade e c√°lculo da porcentagem de ader√™ncia
df_grouped = df.groupby('idade')['aderencia_investimento'].value_counts(normalize=True).unstack()
df_grouped *= 100

# Cria√ß√£o do gr√°fico de barras
fig = px.bar(df_grouped,
             barmode='group',
             labels={'value': 'Porcentagem', 'idade': 'Idade', 'variable': 'Ader√™ncia a Investimento'},
             title='Rela√ß√£o entre Idade e Ader√™ncia a Investimento',
             color_discrete_map={'sim': 'darkgreen', 'nao': 'darkred'},
             template='plotly_dark')

fig.show()

Percentualmente, por meio desse gr√°fico, compreende-se que a ader√™ncia ao investimento √© menos prevalente nos grupos que est√£o num intervalo entre 30 a 60 anos, ainda que em certas faixas a rela√ß√£o de ader√™ncia e n√£o ader√™ncia sejam proporcionais.

In [335]:
# Criar o gr√°fico de distribui√ß√£o para 'aderencia_investimento' == 'sim'
fig_sim = px.histogram(df[df['aderencia_investimento'] == 'sim'],
                       x='idade',
                       nbins=20,
                       title='Distribui√ß√£o de Idade para Ader√™ncia "Sim"',
                       labels={'idade': 'Idade'},
                       color_discrete_sequence=['darkgreen'],
                       template='plotly_dark')

fig_sim.show()

In [336]:
# Criar o gr√°fico de distribui√ß√£o para 'aderencia_investimento' == 'nao'
fig_nao = px.histogram(df[df['aderencia_investimento'] == 'nao'],
                       x='idade',
                       nbins=20,
                       title='Distribui√ß√£o de Idade para Ader√™ncia "N√£o"',
                       labels={'idade': 'Idade'},
                       color_discrete_sequence=['darkred'],
                       template='plotly_dark')

fig_nao.show()

Por meio desses gr√°ficos, nota-se que a idade n√£o se coloca, no presente dataset, com uma principal determinante na maior ou menor ader√™ncia ao investimento, com uma pequena exce√ß√£o no que se refere √† quantidade de investimento n√£o contra√≠dos conforme a idade avan√ßa, podendo ser percebido no intervalo de 54 a 60 anos.

In [337]:
# Verificando os dados estat√≠sticos referentes
# aos clientes e o n√≠vel de ader√™ncia ao investimento.

# Para os s√£o aderentes

df[df['aderencia_investimento'] == 'sim'].describe()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos
count,502.0,502.0,502.0,502.0
mean,42.163347,1541.430279,556.942231,2.256972
std,13.09619,2435.044454,392.352339,2.011866
min,19.0,-1206.0,30.0,1.0
25%,32.0,160.5,261.25,1.0
50%,39.0,700.0,452.5,2.0
75%,50.0,2130.25,758.5,3.0
max,87.0,26965.0,2769.0,24.0


In [338]:
df[df['aderencia_investimento'] == 'nao'].describe()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos
count,766.0,766.0,766.0,766.0
mean,40.861619,1379.199739,243.472585,3.015666
std,10.081455,2845.080617,246.514996,3.303358
min,22.0,-921.0,5.0,1.0
25%,33.0,61.25,99.5,1.0
50%,39.0,411.5,179.0,2.0
75%,48.0,1403.25,297.75,3.0
max,83.0,27069.0,3025.0,32.0


Analisando os dados estat√≠sticos referentes a ader√™ncia ou n√£o ader√™ncia ao investimento.

## Analisando a rela√ß√£o de escolaridade e ader√™ncia ao investimento üî¨

In [339]:
# Contagem da ader√™ncia por escolaridade
df_escolaridade = df.groupby('escolaridade')['aderencia_investimento'].value_counts().unstack()

# Cria√ß√£o do gr√°fico de barras
fig = px.bar(df_escolaridade,
             barmode='group',
             labels={'value': 'Quantidade', 'escolaridade': 'Escolaridade', 'variable': 'Ader√™ncia a Investimento'},
             title='Rela√ß√£o entre Escolaridade e Ader√™ncia a Investimento',
             color_discrete_map={'sim': 'darkgreen', 'nao': 'darkred'},
             template='plotly_dark')

fig.show()

Gr√°fico que concebe a rela√ß√£o sobre a quantidade de ader√™ncia ao investimento com base na escolaridade dos clientes presentes no dataframe.

Por meio dele √© poss√≠vel perceber que proporcionalmente h√° mais pessoas que n√£o s√£o aderentes aos investimentos em rela√ß√£o das que s√£o, de modo que, em cada n√≠vel de escolaridade, os que n√£o aderem, percentualmente, s√£o superiores em rela√ß√£o aos que aderem.

Entretanto, apesar de manter esse padr√£o, a menor diferen√ßa dos que aderem em rela√ß√£o aos que n√£o aderem se d√° no grupo dos clientes que possuem escolaridade superior.

N√£o obstante, a escolaridade de n√≠vel m√©dio √© o grupo que encontra a maior quantidade de dados, em ambos os casos, o que pode indicar que a maior quantidade dos clientes presentes no dataset possuem escolaridade at√© o ensino m√©dio.

## Analisando escolaridade, saldo e ader√™ncia ao investimento



In [340]:
fig = px.scatter(df,
                 x='escolaridade',
                 y='saldo',
                 color='aderencia_investimento',
                 labels={'escolaridade': 'Escolaridade', 'saldo': 'Saldo', 'aderencia_investimento': 'Ader√™ncia a Investimento'},
                 title='Rela√ß√£o entre Escolaridade, Saldo e Ader√™ncia a Investimento',
                 color_discrete_map={'sim': 'darkgreen', 'nao': 'darkred'},
                 template='plotly_dark')

fig.show()

Por meio desse gr√°fico, com o dataset dispon√≠vel e os dados dos clientes n√£o √© poss√≠vel perceber uma rela√ß√£o clara entre o n√≠vel da escolaridade, saldo e aquisi√ß√£o de investimento, no que se refere √†queles que possuem n√≠vel superior contrair investimentos em quantidade significativa em rela√ß√£o aos demais. A diferen√ßa s√≥ √© clara para aqueles que possuem apenas ensino fundamental, sendo pequena para os que possuem n√≠vel m√©dio.



## Analisando idadimpl√™ncia e escolaridade

In [341]:
# Contagem de inadimpl√™ncia por escolaridade
df_escolaridade = df.groupby('escolaridade')['inadimplencia'].value_counts().unstack().fillna(0)

# Cria√ß√£o do gr√°fico de barras
fig = px.bar(df_escolaridade,
             barmode='group',
             labels={'value': 'Quantidade', 'escolaridade': 'Escolaridade', 'variable': 'Inadimpl√™ncia'},
             title='Rela√ß√£o entre Escolaridade e Inadimpl√™ncia',
             color_discrete_map={'sim': 'darkred', 'nao': 'darkgreen'},
             template='plotly_dark')

fig.show()

In [342]:
df.inadimplencia.value_counts()

inadimplencia
nao    1245
sim      23
Name: count, dtype: int64

Tanto visualmente quanto numericamente, constata-se que os clientes desse banco tendem a n√£o possuir inadimpl√™ncia, tendo em vista que o percentual dos que possuem √© √≠nfimo em compara√ß√£o com os que n√£o possuem.

Entretanto, concebe-se que dos que s√£o inadimplentes, aqueles que possuem apenas o ensino m√©dio √© superior em rela√ß√£o aos demais, sendo seguido pelos que possuem ensino superiore fundamental, respectivamente.



## Analisando a rela√ß√£o entre estado c√≠vel, empr√©stimo e ader√™ncia ao investimento

In [343]:
# Criar subplots com 1 linha e 2 colunas
fig = make_subplots(rows=1, cols=2, subplot_titles=("Estado Civil e Empr√©stimo", "Estado Civil e Ader√™ncia a Investimento"))

# Gr√°fico 1: Estado Civil e Empr√©stimo
df_emprestimo = df.groupby('estado_civil')['fez_emprestimo'].value_counts().unstack().fillna(0)
fig.add_trace(px.bar(df_emprestimo,
                     barmode='group',
                     labels={'value': 'Quantidade', 'estado_civil': 'Estado Civil', 'variable': 'Fez Empr√©stimo'},
                     color_discrete_map={'sim': 'darkblue', 'nao': 'darkgray'}).data[0],
              row=1, col=1)

# Gr√°fico 2: Estado Civil e Ader√™ncia a Investimento
df_investimento = df.groupby('estado_civil')['aderencia_investimento'].value_counts().unstack().fillna(0)
fig.add_trace(px.bar(df_investimento,
                     barmode='group',
                     labels={'value': 'Quantidade', 'estado_civil': 'Estado Civil', 'variable': 'Ader√™ncia a Investimento'},
                     color_discrete_map={'sim': 'darkgreen', 'nao': 'darkred'}).data[0],
              row=1, col=2)

# Ajustar layout
fig.update_layout(template='plotly_dark', showlegend=False, title_text="Rela√ß√£o entre Estado Civil, Empr√©stimo e Investimento")
fig.show()

In [344]:
df.estado_civil.value_counts()

estado_civil
casado (a)        738
solteiro (a)      368
divorciado (a)    162
Name: count, dtype: int64

Analisando os gr√°ficos e considerando a propor√ß√£o de cada grupo em rela√ß√£o ao conjunto de dados, concebe-se que n√£o h√° uma rela√ß√£o evidente que acerca do estado civil do cliente e a sua aquisi√ß√£o de empr√©stimos ou de investimento, de modo que a propor√ß√£o dos dados se mant√©m semelhantes em ambos os cen√°rios.

## Identificando a correla√ß√£o entre as colunas do dataframe ( Matriz de correla√ß√£o )

In [345]:
# Para analisar a matriz de correla√ß√£o, preciso, antes
# de transformar as vari√°veis categ√≥ricas em num√©ricas,
# por√©m mantendo a sua sem√¢ntica. Para tanto, irei dummeriz√°-las,
# isto √©, atribuir o valor de 1 para aquelas que possuem car√°ter
# de 'sim' ou pertencer a um grupo e 0 para o caso contr√°rio.

# Selecionar as colunas categ√≥ricas
categorical_cols = ['estado_civil', 'escolaridade', 'inadimplencia', 'fez_emprestimo', 'aderencia_investimento']

# Criar o OneHotEncoder
encoder = OneHotEncoder(handle_unknown='ignore', sparse_output=False)  # sparse=False para retornar um array denso

# Ajustar e transformar as colunas categ√≥ricas
encoded_data = encoder.fit_transform(df[categorical_cols])

# Criar um novo dataframe com as vari√°veis dummies
df_dummy = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out(categorical_cols))

# Concatenar o dataframe original com as vari√°veis dummies
df_dummy = pd.concat([df.drop(categorical_cols, axis=1), df_dummy], axis=1)

In [346]:
df_dummy.head()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos,estado_civil_casado (a),estado_civil_divorciado (a),estado_civil_solteiro (a),escolaridade_fundamental,escolaridade_medio,escolaridade_superior,inadimplencia_nao,inadimplencia_sim,fez_emprestimo_nao,fez_emprestimo_sim,aderencia_investimento_nao,aderencia_investimento_sim
0,45,242,587,1,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0
1,42,1289,250,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0
2,23,363,16,18,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,1.0,0.0
3,58,1382,700,1,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0,0.0,1.0
4,50,3357,239,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0,0.0,1.0


In [347]:
# Calcular a matriz de correla√ß√£o
correlation_matrix = df_dummy.corr()

# Criar o heatmap com valores de correla√ß√£o
fig = px.imshow(correlation_matrix,
                labels=dict(x="Vari√°veis", y="Vari√°veis", color="Correla√ß√£o"),
                x=correlation_matrix.columns,
                y=correlation_matrix.columns,
                color_continuous_scale='RdBu',  # Escala de cores vermelho-azul
                template='plotly_dark',
                title='Mapa de Calor de Correla√ß√µes',
                text_auto=True,  # Adicionar valores de correla√ß√£o no gr√°fico
                aspect="auto"  # Ajustar a propor√ß√£o do gr√°fico
                )

# Ajustar a resolu√ß√£o
fig.update_layout(width=1500, height=1000)

fig.show()

Analisando a matriz de correla√ß√£o, concebe-se que as colunas que apresentaram mais rela√ß√£o positiva de o cliente ser mais aderente ao investimento foram : tempo √∫ltimo de contato, escolaridade superior e se fez n√£o fez empr√©stimo antes.Por outro lado, os que apresentam rela√ß√£o negativa s√£o n√∫mero de contatos e se fez empr√©stimo.      

>

Ou seja, por meio dela pode-se inferir que os clientes que s√£o mais aderentes aos investimentos s√£o aqueles que possuem n√≠vel superior, que n√£o fizeram empr√©stimos anteriores e que foram contactados recentemente pelo banco.

>

Em contrapartida, clientes que foram bastante contactados e que fizeram empr√©stimos possuem uma propens√£o maior a n√£o aderirem ao investimento.

## Separando os dados em X e y :    

In [348]:
# Criar o LabelEncoder
label_encoder = LabelEncoder()

# Ajustar o encoder aos dados da coluna 'aderencia_investimento' e transformar a coluna
df['aderencia_investimento'] = label_encoder.fit_transform(df['aderencia_investimento'])

In [349]:
y = df['aderencia_investimento']

In [350]:
X = df_dummy.drop(['aderencia_investimento_nao', 'aderencia_investimento_sim'], axis = 1)

In [351]:
X.head()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos,estado_civil_casado (a),estado_civil_divorciado (a),estado_civil_solteiro (a),escolaridade_fundamental,escolaridade_medio,escolaridade_superior,inadimplencia_nao,inadimplencia_sim,fez_emprestimo_nao,fez_emprestimo_sim
0,45,242,587,1,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
1,42,1289,250,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
2,23,363,16,18,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
3,58,1382,700,1,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
4,50,3357,239,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0


In [352]:
pd.DataFrame(y).head(5)

Unnamed: 0,aderencia_investimento
0,1
1,1
2,0
3,1
4,1


In [353]:
y.value_counts()

aderencia_investimento
0    766
1    502
Name: count, dtype: int64

## Separando em dados de treino e teste

Na separa√ß√£o de treino e teste, estou utilizando o stratify para estratificar os dados segundo a vari√°vel target, como forma de garantir que a propor√ß√£o dos dados seja mantida. N√£o obstante, os dados estar√£o divididos numa propor√ß√£o de 25% de teste e 75% de treino.
  

In [None]:
SEED = 22

In [354]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify = y,
                                                    random_state = SEED)

## Criando um modelo de baseline ( Dummy Classifier ) ü§°

O modelo de baseline √© √∫til, pois ele serve de compara√ß√£o com os demais modelos criados, como forma de avaliar a qualidade desses.

In [355]:
# Instanciando o Dummy Classifier :
dummy = DummyClassifier(random_state = SEED)

# Treinando o modelo :
dummy.fit(X_train, y_train)

# Avaliando o modelo por meio do crit√©rio score :
dummy_socore = dummy.score(X_test, y_test).round(3)*100
dummy_socore

60.3

## Criando os modelos de machine learning ü§ñ

## DecisionTreeClassifier üå≤

In [356]:
# Aqui, por mais que pare√ßa que n√£o estamos passando
# o crit√©rio por meio do qual a √°rvore realiza a sepa√ß√£o
# dos dados, com base nas impurezas, est√° sendo adotado
# o crit√©rio, sendo, no caso, o de Gini, que favorece
# divis√µes que resultam em n√≥s filhos com maior
# homogeneidade de classes.

# Instanciando o modelo de machine learning :
d_tree = DecisionTreeClassifier(max_leaf_nodes = 500,
                                min_samples_leaf = 10, min_samples_split = 2,
                                random_state = SEED)

# Treinando o modelo :
d_tree.fit(X_train, y_train)

# Avaliando o modelo por meio do crit√©rio score :
d_tree_score = d_tree.score(X_test, y_test).round(3)*100
d_tree_score

71.0

## RandomForestClassifier üå≤üå≤üå≤

In [357]:
# Instanciando o modelo :
r_tree = RandomForestClassifier(n_estimators = 200, max_leaf_nodes = 200,
                                max_features = 'sqrt', min_samples_leaf = 10,
                                min_samples_split = 5, random_state = SEED)

# Treinando o modelo :
r_tree.fit(X_train, y_train)

# Avaliando o modelo por meio do crit√©rio score :
r_tree_score = r_tree.score(X_test, y_test).round(3)*100
r_tree_score

76.0

## k-Nearest-Neighbors (KNN) üìè

Modelo de ML baseado na dist√¢ncia entre os dados, em especial das vari√°veis explicativas em rela√ß√£o √† vari√°vel resposta, como forma de realizar a sua predi√ß√£o ou classifica√ß√£o. Uma vez que √© sens√≠vel a dados assim√©tricos e a outliers, precisa de uma etapa de pr√©-processamento na qual os dados s√£o sujeitos a uma particular distribui√ß√£o.

>
       
A distribui√ß√£o pode se dar sob um intervalo entre valores m√≠nimos, come√ßando a partir do zero, e valores m√°ximos, findando no um, bem como por meio de uma normaliza√ß√£o, atrav√©s da qual coloca-se a m√©dia dos dados no valor zero, sujeitos a um determinado desvio padr√£o - essa t√©cnica √© mais robusta a presen√ßa de outliers.

>

A distribui√ß√£o dos dados selecionada for a de normaliza√ß√£o.

## Normalizando os dados üìê

In [358]:
X.head()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos,estado_civil_casado (a),estado_civil_divorciado (a),estado_civil_solteiro (a),escolaridade_fundamental,escolaridade_medio,escolaridade_superior,inadimplencia_nao,inadimplencia_sim,fez_emprestimo_nao,fez_emprestimo_sim
0,45,242,587,1,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
1,42,1289,250,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
2,23,363,16,18,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
3,58,1382,700,1,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
4,50,3357,239,4,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0


In [359]:
# Instanciando o normalizador :
scaler = StandardScaler()

# Ajustando e transformando os dados, normalizando-os :
X_normalizado = scaler.fit_transform(X[['idade', 'saldo',
                                        'tempo_ult_contato', 'numero_contatos']])

In [360]:
# Concatenando o dataframe normalizado com o dataframe que
# armazena, compreende as vari√°veis explicativas do conjunto de dados.

X_normalizado = pd.concat([pd.DataFrame(X_normalizado),
                           X.drop(['idade', 'saldo',
                                   'tempo_ult_contato',
                                   'numero_contatos'], axis = 1)], axis = 1)

In [365]:
# Renomeando as colunas referente
# aos dados que foram normalizados

X_normalizado = X_normalizado.rename(columns = {0 : 'idade', 1 : 'saldo',
                                2 : 'tempo_ult_contato',
                                3 : 'numero_contatos'})

In [366]:
X_normalizado.head()

Unnamed: 0,idade,saldo,tempo_ult_contato,numero_contatos,estado_civil_casado (a),estado_civil_divorciado (a),estado_civil_solteiro (a),escolaridade_fundamental,escolaridade_medio,escolaridade_superior,inadimplencia_nao,inadimplencia_sim,fez_emprestimo_nao,fez_emprestimo_sim
0,0.318387,-0.446736,0.630836,-0.59466,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
1,0.054751,-0.057422,-0.338022,0.44538,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0
2,-1.614945,-0.401743,-1.010759,5.2989,0.0,0.0,1.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
3,1.460811,-0.022841,0.955705,-0.59466,0.0,1.0,0.0,0.0,0.0,1.0,1.0,0.0,1.0,0.0
4,0.757781,0.711539,-0.369646,0.44538,1.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,1.0,0.0


In [367]:
# Segmentando novamente em por√ß√£o de treino e teste,
# segundo a uma estratifica√ß√£o baseada na vari√°vel target.

X_train, X_test, y_train, y_test = train_test_split(X_normalizado, y,
                                                    stratify = y,
                                                    random_state = SEED)

In [369]:
# Instanciando o modelo e aplicando a m√©trica
# de dist√¢ncia Manhattan, a qual √© mais robusta
# a presen√ßa de outliers.

knn = KNeighborsClassifier(metric = 'manhattan')

# Treinando o modelo
knn.fit(X_train, y_train)

# Avaliando o modelo pelo crit√©rio de score :
knn_socore = knn.score(X_test, y_test).round(3)*100
knn_socore

73.2

## Modelo de Regress√£o Log√≠stica üìà

In [375]:
# Instanciando o modelo :
log_regression = LogisticRegression()

# Treinando o modelo :
log_regression.fit(X_train, y_train)

# Avaliando o modelo segundo o crit√©rio de score :
log_regression_score = log_regression.score(X_test, y_test).round(3)*100
log_regression_score

76.0

In [382]:
f1_score(y_test, log_regression.predict(X_test)).round(3)

0.667

## Valida√ß√£o üìù

Etapa destinada √† valida√ß√£o dos modelos, por meio das m√©tricas de taxa de acerto (acur√°cia), precis√£o e f1-socore (a m√©dia harm√¥nica entre a precis√£o e o recall)

In [408]:
def validaModelos(nome_modelo, modelo):

  modelo = modelo
  modelo.fit(X_train, y_train)
  y_predict = modelo.predict(X_test)

  acuracia =  accuracy_score(y_predict, y_test).round(2)*100
  precision = precision_score(y_test, y_predict).round(2)*100
  recall = recall_score(y_test, y_predict).round(2)*100
  f1 = f1_score(y_test, y_predict).round(3)*100

  print(f"\n{nome_modelo}\n")
  print(f'Acur√°cia : {acuracia} %')
  print(f'Precis√£o : {precision} %')
  print(f'Recall : {recall} %')
  print(f'F1-score : {f1} % ')


In [409]:
# Lista dos modelos usados :

modelos = [
    ("Dummy Classifier", dummy),
    ("√Årvore de Decis√£o", d_tree),
    ("Random Forest", r_tree),
    ("KNN", knn),
    ("Regress√£o Log√≠stica", log_regression)
]

# Iterando pelos modelos e avaliando
for nome_modelo, modelo in modelos:
    validaModelos(nome_modelo, modelo)


Precision is ill-defined and being set to 0.0 due to no predicted samples. Use `zero_division` parameter to control this behavior.




Dummy Classifier

Acur√°cia : 60.0 %
Precis√£o : 0.0 %
Recall : 0.0 %
F1-score : 0.0 % 

√Årvore de Decis√£o

Acur√°cia : 71.0 %
Precis√£o : 68.0 %
Recall : 50.0 %
F1-score : 57.8 % 

Random Forest

Acur√°cia : 76.0 %
Precis√£o : 70.0 %
Recall : 69.0 %
F1-score : 69.6 % 

KNN

Acur√°cia : 73.0 %
Precis√£o : 68.0 %
Recall : 60.0 %
F1-score : 64.1 % 

Regress√£o Log√≠stica

Acur√°cia : 76.0 %
Precis√£o : 75.0 %
Recall : 60.0 %
F1-score : 66.7 % 


Analisando os modelos, concebe-se que o melhor modelo, com base em sua acur√°cia, precis√£o e recall √© o Random Forest. Por mais que o modelo de regress√£o log√≠stica possui um valor de precis√£o interessante, o seu recall √© significativamente inferior a ela, produzindo uma m√©dia harm√¥nica inferior √† gerada pelo modelo Random Forest.

## Em s√≠ntese...

Portanto, esse notebook permite concluir, com base na an√°lise explorat√≥ria dos dados, de que as vari√°veis positivamente determinantes para a ader√™ncia ao investimento do cliente √© o seu n√≠vel de escolaridade, a n√£o obten√ß√£o de empr√©stimo anterior e intervalo m√≠nimo de contato.

Da mesma forma, o melhor modelo de ML para o present dataset √© o de Random Forest, o qual possui tanto uma boa acur√°cia, quanto m√©dia harm√¥nica dos valores de precis√£o e recall, demonstrando uma boa assertividade acerca da classifica√ß√£os dos clientes, com base nas vari√°veis explicativas.