# **Criação do DataFrame**
Primeiramente, criei um DataFrame para poder manipular os dados do dataset proposto

In [93]:
import pandas as pd
import numpy as np

dados = {
    "Cliente ID": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "Idade": [25, 34, 28, 45, 39, None, 50, 23, 29, 40],
    "Gênero": ["Feminino", "Masculino", "Feminino", "Masculino", "Feminino", "Feminino", "Masculino", "Feminino", "Masculino", "Feminino"],
    "Renda Anual (R$)": [45000, 60000, None, 80000, 50000, 70000, 100000, 30000, None, 85000],
    "Localização": ["São Paulo", "Rio de Janeiro", "São Paulo", "Belo Horizonte", "Salvador", "Porto Alegre", "São Paulo", "Curitiba", "Rio de Janeiro", "Belo Horizonte"],
    "Compras Anteriores": [3, 5, 2, 4, None, 6, 10, 1, 7, None],
    "Resposta à Campanha": ["Sim", "Não", "Sim", "Não", "Sim", "Sim", "Não", "Sim", "Não", "Sim"]
}

df = pd.DataFrame(dados)

df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não
2,3,28.0,Feminino,,São Paulo,2.0,Sim
3,4,45.0,Masculino,80000.0,Belo Horizonte,4.0,Não
4,5,39.0,Feminino,50000.0,Salvador,,Sim


In [94]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Cliente ID           10 non-null     int64  
 1   Idade                9 non-null      float64
 2   Gênero               10 non-null     object 
 3   Renda Anual (R$)     8 non-null      float64
 4   Localização          10 non-null     object 
 5   Compras Anteriores   8 non-null      float64
 6   Resposta à Campanha  10 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 688.0+ bytes


# **Visualização de valores ausentes no DataFrame**

Utilizando a função *isnull* do pandas em conjunto com a função de *sum*, consegui observar que algumas features estavam com valores ausentes.

Idade - 1 valor ausente

Renda Anual (R$) - 2 valores ausentes

Compras Anteriores - 2 valores ausentes

In [95]:
df.isnull().sum()

Unnamed: 0,0
Cliente ID,0
Idade,1
Gênero,0
Renda Anual (R$),2
Localização,0
Compras Anteriores,2
Resposta à Campanha,0


# **Tratamento de valores ausentes**

Aqui, optei pela utilização da técnica de *fillna*, pois considerei simples e rápida. Primeiramente, criei uma lista com os nomes de colunas que tinham valores nulos, após isso fiz um *for* para percorrer esta lista de colunas e assim, utilizar o *fillna* para substituir os valores nulos pela mediana da coluna.

**Por quê a mediana?**

Utilizei a mediana pois achei mais seguro, já que substituir pela média poderia causar problemas em casos de colunas com valores extremos (Outliers)

In [97]:
lista = ['Idade', 'Renda Anual (R$)', 'Compras Anteriores']

for col in lista:
  df[col].fillna(df[col].median(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].median(), inplace=True)


In [98]:
df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não
2,3,28.0,Feminino,65000.0,São Paulo,2.0,Sim
3,4,45.0,Masculino,80000.0,Belo Horizonte,4.0,Não
4,5,39.0,Feminino,50000.0,Salvador,4.5,Sim


Nesta parte, pode-se notar que não temos valores duplicados no dataset

In [99]:
df.duplicated().sum()

0

In [100]:
df['Idade']

Unnamed: 0,Idade
0,25.0
1,34.0
2,28.0
3,45.0
4,39.0
5,34.0
6,50.0
7,23.0
8,29.0
9,40.0


# **Adição de um novo atributo**

Optei pela adição do atributo "Faixa Etária", onde os clientes com idades de 20 - 30 anos são considerados Jovens, de 30 - 40 são considerados adultos e de 40 - 60 são considerados idosos.

Com essa nova categorização, o objetivo é poder realizar análises mais focadas nas necessidades e comportamentos de diferentes grupos etários, facilitando a personalização de estratégias e ações direcionadas a cada segmento.

In [101]:
bins = [20, 30, 40, 60]

In [102]:
faixa_etaria = pd.cut(df['Idade'].to_numpy(), bins=bins, labels=['Jovem', 'Adulto', 'Idoso'])

In [103]:
df['Faixa_Etaria'] = faixa_etaria

In [104]:
df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha,Faixa_Etaria
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim,Jovem
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não,Adulto
2,3,28.0,Feminino,65000.0,São Paulo,2.0,Sim,Jovem
3,4,45.0,Masculino,80000.0,Belo Horizonte,4.0,Não,Idoso
4,5,39.0,Feminino,50000.0,Salvador,4.5,Sim,Adulto


# **Tratamento de categorias textuais**

Para tratar as variáveis categóricas de Localização e Faixa_Etária, optei por utilizar a técnica de *OneHotEncoder*, pois ambas possuem mais de duas categorias distintas. Por exemplo, a variável Faixa_Etária contém três categorias: "Jovem", "Adulto" e "Idoso". Nesse caso, o uso do LabelEncoder não seria ideal, pois essa técnica atribui valores numéricos inteiros para cada categoria (por exemplo, 0, 1 e 2 para as categorias "Jovem", "Adulto" e "Idoso"). Isso implicaria uma interpretação de que há uma relação ordinal entre as categorias (como se "Jovem" fosse menor que "Adulto" e "Adulto" menor que "Idoso"), o que não é o caso, já que as categorias representam grupos diferentes sem uma ordem específica.

Ao aplicar o *OneHotEncoder*, consigo criar uma nova coluna para cada categoria (por exemplo, uma coluna para "Jovem", uma para "Adulto" e outra para "Idoso"), de modo que cada valor será representado por uma combinação binária (0 ou 1), sem atribuir qualquer tipo de ordenação entre as categorias. Isso evita que o modelo interprete erroneamente uma relação de hierarquia entre os valores.

In [105]:
from sklearn.preprocessing import OneHotEncoder

onehot = OneHotEncoder()

categorias = ['Localização', 'Faixa_Etaria']

encoded = onehot.fit_transform(df[categorias]).toarray()

df_encoded = pd.DataFrame(encoded, columns=onehot.get_feature_names_out(categorias))

df = pd.concat([df, df_encoded], axis=1)

df.head()




Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Localização,Compras Anteriores,Resposta à Campanha,Faixa_Etaria,Localização_Belo Horizonte,Localização_Curitiba,Localização_Porto Alegre,Localização_Rio de Janeiro,Localização_Salvador,Localização_São Paulo,Faixa_Etaria_Adulto,Faixa_Etaria_Idoso,Faixa_Etaria_Jovem
0,1,25.0,Feminino,45000.0,São Paulo,3.0,Sim,Jovem,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
1,2,34.0,Masculino,60000.0,Rio de Janeiro,5.0,Não,Adulto,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
2,3,28.0,Feminino,65000.0,São Paulo,2.0,Sim,Jovem,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
3,4,45.0,Masculino,80000.0,Belo Horizonte,4.0,Não,Idoso,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
4,5,39.0,Feminino,50000.0,Salvador,4.5,Sim,Adulto,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0


In [106]:
df = df.drop('Localização', axis=1)
df = df.drop('Faixa_Etaria', axis=1)

In [107]:
df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Compras Anteriores,Resposta à Campanha,Localização_Belo Horizonte,Localização_Curitiba,Localização_Porto Alegre,Localização_Rio de Janeiro,Localização_Salvador,Localização_São Paulo,Faixa_Etaria_Adulto,Faixa_Etaria_Idoso,Faixa_Etaria_Jovem
0,1,25.0,Feminino,45000.0,3.0,Sim,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
1,2,34.0,Masculino,60000.0,5.0,Não,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
2,3,28.0,Feminino,65000.0,2.0,Sim,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
3,4,45.0,Masculino,80000.0,4.0,Não,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
4,5,39.0,Feminino,50000.0,4.5,Sim,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0


Já para as categorias de "Gênero" e "Resposta à Campanha", optei pelo LabelEncoder, já que ambas possuiam dois valores de categorias distintos. Ou seja, com o LabelEncoder eu posso converter elas em 0s ou 1s

In [108]:
from sklearn.preprocessing import LabelEncoder

categorias = ['Gênero', 'Resposta à Campanha']

for cat in categorias:
  label_encoder = LabelEncoder()
  df[cat] = label_encoder.fit_transform(df[cat])

In [109]:
df.head()

Unnamed: 0,Cliente ID,Idade,Gênero,Renda Anual (R$),Compras Anteriores,Resposta à Campanha,Localização_Belo Horizonte,Localização_Curitiba,Localização_Porto Alegre,Localização_Rio de Janeiro,Localização_Salvador,Localização_São Paulo,Faixa_Etaria_Adulto,Faixa_Etaria_Idoso,Faixa_Etaria_Jovem
0,1,25.0,0,45000.0,3.0,1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
1,2,34.0,1,60000.0,5.0,0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0
2,3,28.0,0,65000.0,2.0,1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0
3,4,45.0,1,80000.0,4.0,0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
4,5,39.0,0,50000.0,4.5,1,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0


# **Normalização dos dados**

Aqui, utilizo da técnica de *StandardScaler* para normalização dos dados e assim, colocá-los em uma mesma escala. Importante salientar que antes de utilizar o *StandardScaler* é crucial separar os dados em dados de treino e teste. Porém, como não é o foco da oficina, optei por não fazer esta parte.

In [110]:
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()

df = std_scaler.fit_transform(df)

df

array([[-1.5666989 , -1.16261499, -0.81649658, -1.03279556, -0.69634713,
         0.81649658, -0.5       , -0.33333333, -0.33333333, -0.5       ,
        -0.33333333,  1.52752523, -0.81649658, -0.5       ,  1.22474487],
       [-1.21854359, -0.08390005,  1.22474487, -0.25819889,  0.12288479,
        -1.22474487, -0.5       , -0.33333333, -0.33333333,  2.        ,
        -0.33333333, -0.65465367,  1.22474487, -0.5       , -0.81649658],
       [-0.87038828, -0.80304334, -0.81649658,  0.        , -1.10596309,
         0.81649658, -0.5       , -0.33333333, -0.33333333, -0.5       ,
        -0.33333333,  1.52752523, -0.81649658, -0.5       ,  1.22474487],
       [-0.52223297,  1.23452932,  1.22474487,  0.77459667, -0.28673117,
        -1.22474487,  2.        , -0.33333333, -0.33333333, -0.5       ,
        -0.33333333, -0.65465367, -0.81649658,  2.        , -0.81649658],
       [-0.17407766,  0.51538603, -0.81649658, -0.77459667, -0.08192319,
         0.81649658, -0.5       , -0.33333333, 