<a href="https://colab.research.google.com/github/Nunes0220/ml_classificacao_de_dados_2025/blob/main/C%C3%B3pia_de_Lucas_Nunes_Classificacao_Marketing_Investimento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <font color="pink">Machine Learning</font>


# Classificação: Marketing em Investimentos

Neste projeto, iremos analisar dados de uma campanha de marketing para aderência de investimentos. O intuito é usar as informações dos dados para prever se os clientes de um banco vão aplicar o dinheiro em um investimento ou não.

Essa previsão será feita utilizando machine learning e este notebook vai conter os passos para se obter um modelo capaz de realizar as previsões, desde a **leitura**, **análise exploratória**, **separação** e **transformação** dos dados, até o **ajuste**, **avaliação** e **comparação** de modelos de classificação.

# Análise exploratória

## Fazendo a leitura dos dados

Podemos realizar a leitura dos dados a partir da biblioteca `pandas`. Por conta disso, vamos realizar a importação da biblioteca com o comando `import pandas as pd`.

Como o arquivo de dados está no formato *csv*, vamos realizar a leitura com a função [`read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [72]:
import pandas as pd
dados = pd.read_csv('https://raw.githubusercontent.com/Nunes0220/Mineracao-de-dados/refs/heads/main/marketing_investimento%20-%20marketing_investimento.csv.csv')

Para criar modelos de classificação, precisamos utilizar dados de qualidade, sem inconsistências e sem dados faltantes. Vamos checar se existem dados nulos e o tipo dos dados de cada coluna na base de dados a partir do método [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html).

In [40]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1268 entries, 0 to 1267
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   idade                   1268 non-null   int64 
 1   estado_civil            1268 non-null   object
 2   escolaridade            1268 non-null   object
 3   inadimplencia           1268 non-null   object
 4   saldo                   1268 non-null   int64 
 5   fez_emprestimo          1268 non-null   object
 6   tempo_ult_contato       1268 non-null   int64 
 7   numero_contatos         1268 non-null   int64 
 8   aderencia_investimento  1268 non-null   object
dtypes: int64(4), object(5)
memory usage: 89.3+ KB


In [41]:
dados.isnull().sum()

Unnamed: 0,0
idade,0
estado_civil,0
escolaridade,0
inadimplencia,0
saldo,0
fez_emprestimo,0
tempo_ult_contato,0
numero_contatos,0
aderencia_investimento,0


## Explorando os dados

Uma etapa muito importante em projetos de machine learning é a exploração e entendimento dos dados, conhecida como **análise exploratória**. Podemos utilizar gráficos para verificar quais são as informações em cada uma das colunas da base de dados, identificar inconsistências e padrões que possam existir.

Vamos explorar cada uma das colunas da base de dados com o uso da biblioteca `plotly`. Vamos começar pelas variáveis categóricas e depois explorar as variáveis numéricas.

### Variáveis categóricas

In [42]:
print(dados["estado_civil"].unique())
print(dados["inadimplencia"].unique())
print(dados["fez_emprestimo"].unique())
print(dados["escolaridade"].unique())
print(dados["aderencia_investimento"].unique())

['casado (a)' 'solteiro (a)' 'divorciado (a)']
['nao' 'sim']
['nao' 'sim']
['superior' 'medio' 'fundamental']
['sim' 'nao']


In [43]:
import plotly.express as px

fig = px.histogram(dados, x="aderencia_investimento", text_auto = True)
fig.show()

In [44]:
fig = px.histogram(dados, x="estado_civil", text_auto = True, color = "aderencia_investimento", barmode = "group")
fig.show()

In [45]:
fig = px.histogram(dados, x="inadimplencia", text_auto = True, color = "aderencia_investimento", barmode = "group")
fig.show()

In [46]:
fig = px.histogram(dados, x="fez_emprestimo", text_auto = True, color = "aderencia_investimento", barmode = "group")
fig.show()

In [47]:
fig = px.histogram(dados, x="escolaridade", text_auto = True, color = "aderencia_investimento", barmode = "group")
fig.show()

In [48]:
fig = px.histogram(dados, x="estado_civil", text_auto = True, color = "aderencia_investimento", barmode = "group")
fig.show()

### Variáveis numéricas

In [49]:
px.box(dados, x = "idade", color = "aderencia_investimento")

In [50]:
px.box(dados, x = "saldo", color = "aderencia_investimento")

In [51]:
px.box(dados, x = "tempo_ult_contato", color = "aderencia_investimento")

In [52]:
px.box(dados, x = "numero_contatos", color = "aderencia_investimento")

# Tranformação de dados

## Variáveis explicativas e variável alvo

Para fazer a previsão dos valores com um modelo de machine learning, precisamos fazer a separação da variável alvo e variáveis explicativas. O y representa a variável que queremos prever, enquanto x representa todas as variáveis que serão utilizadas para explicar o comportamento de **y**.

In [53]:
x = dados.drop("aderencia_investimento", axis = 1)
y = dados["aderencia_investimento"]

## Transformando as variáveis explicativas

Os algoritmos de machine learning não compreendem dados no formato de texto, portanto devemos fazer transformações nos dados para o formato numérico para que o algoritmo consiga compreender as informações. Essa transformação precisa ser feita de forma que não altere a informação original do conjunto de dados, portanto não basta simplesmente alterar os valores para valores numéricos aleatórios.

In [54]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder
one_hot = make_column_transformer((OneHotEncoder(drop = "if_binary"), ['estado_civil','escolaridade','inadimplencia','fez_emprestimo']), remainder='passthrough', sparse_threshold = 0)
encoder = one_hot.fit(x)
X = encoder.transform(x)
colunas_novas = one_hot.get_feature_names_out()
pd.DataFrame(X, columns = colunas_novas)

Unnamed: 0,onehotencoder__estado_civil_casado (a),onehotencoder__estado_civil_divorciado (a),onehotencoder__estado_civil_solteiro (a),onehotencoder__escolaridade_fundamental,onehotencoder__escolaridade_medio,onehotencoder__escolaridade_superior,onehotencoder__inadimplencia_sim,onehotencoder__fez_emprestimo_sim,remainder__idade,remainder__saldo,remainder__tempo_ult_contato,remainder__numero_contatos
0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,45.0,242.0,587.0,1.0
1,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,42.0,1289.0,250.0,4.0
2,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,23.0,363.0,16.0,18.0
3,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,58.0,1382.0,700.0,1.0
4,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,50.0,3357.0,239.0,4.0
...,...,...,...,...,...,...,...,...,...,...,...,...
1263,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,52.0,83.0,1223.0,6.0
1264,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,35.0,5958.0,215.0,1.0
1265,0.0,0.0,1.0,0.0,0.0,1.0,0.0,1.0,30.0,-477.0,1532.0,2.0
1266,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,42.0,2187.0,525.0,3.0


## Transformando a variável alvo

Assim como as variáveis explicativas, a variável alvo também precisa ser alterada para o formato numérico. Podemos representar uma variável alvo binária como 0 ou 1, onde 0 indica ausência da característica da variável e 1 representa a presença da característica.

In [55]:
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Ajustando modelos

## Dividindo os dados entre treino e teste

Para compreender se o modelo está de fato aprendendo com os dados, precisamos fazer uma separação dos dados entre treinamento e teste. Os dados de **treinamento** são usados para ajustar o modelo, enquanto os dados de **teste** servem para verificar o aprendizado do modelo em dados que não foram utilizados no momento do ajuste.

In [56]:
from sklearn.model_selection import train_test_split
x_test, x_train, y_test, y_train = train_test_split(X, y, test_size = 0.25, stratify = y, random_state = 1234)
x_train

array([[ 0.000e+00,  1.000e+00,  0.000e+00, ...,  6.610e+03,  4.810e+02,
         2.000e+00],
       [ 0.000e+00,  0.000e+00,  1.000e+00, ...,  0.000e+00,  1.073e+03,
         1.000e+00],
       [ 1.000e+00,  0.000e+00,  0.000e+00, ...,  0.000e+00,  1.470e+02,
         2.000e+00],
       ...,
       [ 0.000e+00,  1.000e+00,  0.000e+00, ..., -5.400e+01,  6.980e+02,
         2.000e+00],
       [ 1.000e+00,  0.000e+00,  0.000e+00, ...,  1.331e+03,  2.970e+02,
         1.000e+00],
       [ 0.000e+00,  0.000e+00,  1.000e+00, ...,  1.386e+03,  1.850e+02,
         6.000e+00]])

## Modelo de base

O modelo mais simples de classificar os dados é simplesmente utilizar um algoritmo que chuta todas as classificações para a classe que tem maior frequência. Esse algoritmo serve como um critério de comparação, para identificar se os outros modelos tem um desempenho melhor do que a classificação mais simples possível.

In [57]:
from sklearn.dummy import DummyClassifier
dummy = DummyClassifier()
dummy.fit(x_train, y_train)
dummy.predict(x_test)
dummy.score(x_test, y_test)

0.6046267087276551

## Árvore de decisão

O modelo de árvore de decisão é muito utilizado pela sua alta **explicabilidade** e **processamento rápido**, mantendo um desempenho bem interessante.

Ele se baseia em decisões simples tomadas pelo algoritmo, separando os dados com base em comparações de **menor** e **maior** nos valores das colunas da base de dados.

In [58]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.tree import plot_tree
tree = DecisionTreeClassifier(max_depth=3, random_state=4321)
tree = tree.fit(x_train, y_train)
tree.score(x_test, y_test)
colunas_novas
colunas_tree = ['casado (a)',
       'divorciado (a)',
       'solteiro (a)',
       'fundamental',
       'medio',
       'superior',
       'inadimplencia',
       'emprestimo',
       'idade',
       'saldo',
       'tempo_ult_contato',
       'numero_contatos']

# Seleção de modelos

## Normalizando os dados

Alguns algoritmos podem atribuir um peso maior aos valores das variáveis devido a escala dos valores e não pela importância da classificação da variável alvo. Por exemplo, em uma base de dados com a colunas **idade** e **salário**, o algoritmo pode dar um peso de decisão maior para os valores do salário simplesmente por estar em uma escala maior do que os valores de idade, e não porque a variável salário é mais importante do que a variável idade.

Nesses casos, precisamos fazer uma transformação nos dados para que fiquem em uma mesma escala, fazendo com que o algoritmo não seja influenciado incorretamente pelos valores numéricos divergentes entre as variáveis.

$X_{sc} = \frac{X - X_{min}}{X_{max} - X_{min}} $

In [63]:
from sklearn.preprocessing import MinMaxScaler
minmax = MinMaxScaler()
x_train_normalized = minmax.fit_transform(x_train)
x_test_normalized = minmax.transform(x_test)

## KNN

O algoritmo KNN se baseia no cálculo de distância entre os registros da base de dados e busca elementos que estejam próximos uns dos outros (vizinhos) para tomar a decisão da classificação.

Por conta de usar cálculos de distância, esse algoritmo é influenciado pela escala das variáveis e por conta disso é necessário uma transformação nos dados antes de utilizar esse método.

In [66]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier()
modelo = knn.fit(x_train_normalized, y_train)
validacao = modelo.score(x_test_normalized, y_test)
print(round(validacao,2))

0.67


## Escolhendo e salvando o melhor modelo

Ao final de um projeto de machine learning, devemos comparar os resultados dos modelos e escolher aquele que tenha o melhor desempenho.


In [67]:
print(f"Score Dummy: {round(dummy.score(x_test, y_test),2)}")
print(f"Score Arvore de Decisão: {round(tree.score(x_test, y_test),2)}")
print(f"Score Knn: {round(modelo.score(x_test_normalized, y_test),2)}")

Score Dummy: 0.6
Score Arvore de Decisão: 0.73
Score Knn: 0.67


## Pickle Dump


Podemos armazenar o modelo em um arquivo serializado do tipo pickle para que seja utilizado em produção, ou seja, em dados do mundo real para atender as necessidades do problema que precisa ser resolvido.

In [68]:
pd.to_pickle(tree, 'modelo_arvore_inadimplencia.pkl')
pd.to_pickle(encoder, 'onehotencoder.pkl')

## [Usando modelo](https://tse3.mm.bing.net/th/id/OIP.Pixq9eppCBGpifpmTPXgFwAAAA?cb=iwc1&rs=1&pid=ImgDetMain)

In [71]:
novo_dado = {
    'idade': [45],
    'estado_civil': ['solteiro (a)'],
    'escolaridade': ['superior'],
    'inadimplencia': ['nao'],
    'saldo': [23040],
    'fez_emprestimo': ['nao'],
    'tempo_ult_contato': [800],
    'numero_contatos': [4]
}
novo = pd.DataFrame(novo_dado)

novo_1 = one_hot.transform(novo)

one_hot = pd.read_pickle('onehotencoder.pkl')

modelo_arvore = pd.read_pickle('modelo_arvore_inadimplencia.pkl')
novo_2 = modelo_arvore.predict(novo_1)
novo_2

array([1])