### Importações e leitura dos dados

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

# Ajuste para visualização no notebook
pd.set_option('display.width', None)

# Leitura do dataset tratado
df = pd.read_csv("C:/Users/karin/OneDrive/Área de Trabalho/EBAC/clientes_preparados.csv")
df.head()


Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1


###  Transformação Logarítmica (np.log1p)
Essa transformação é útil para reduzir a assimetria de variáveis com distribuição assimétrica (como salário), e o log1p é mais seguro para dados com valor zero.

In [2]:
df['salario_log'] = np.log1p(df['salario'])  # log1p(x) = log(1 + x)
print("\nDataFrame após transformação logarítmica no 'salario':\n")
df.head()



DataFrame após transformação logarítmica no 'salario':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod,salario_log
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15,9.514255
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18,8.04742
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12,8.927394
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2,8.311086
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1,8.826285


### Transformação Box-Cox
Box-Cox é outra técnica para normalizar dados (somente para valores positivos). Aqui foi adicionado +1 ao salário para garantir que nenhum valor seja zero.

In [3]:
df['salario_boxcox'], _ = stats.boxcox(df['salario'] + 1)
print("\nDataFrame após transformação Box-Cox no 'salario':\n")
df.head()



DataFrame após transformação Box-Cox no 'salario':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod,salario_log,salario_boxcox
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15,9.514255,10.182574
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18,8.04742,8.522195
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12,8.927394,9.51415
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2,8.311086,8.818123
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1,8.826285,9.399548


### Codificação de Frequência para estado

In [4]:
# Calcula a frequência relativa de cada estado
estado_freq = df['estado'].value_counts() / len(df)

# Mapeia essa frequência para uma nova coluna
df['estado_freq'] = df['estado'].map(estado_freq)

print("\nDataFrame após codificação de frequência para 'estado':\n")
df.head()



DataFrame após codificação de frequência para 'estado':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod,salario_log,salario_boxcox,estado_freq
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15,9.514255,10.182574,0.038127
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18,8.04742,8.522195,0.037316
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12,8.927394,9.51415,0.036737
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2,8.311086,8.818123,0.036968
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1,8.826285,9.399548,0.032796


### Criação de Feature de Interação: idade * numero_filhos

In [5]:
# Cria uma feature que representa a interação entre idade e número de filhos
df['interacao_idade_filhos'] = df['idade'] * df['numero_filhos']

print("\nDataFrame após criação de feature de interação entre 'idade' e 'numero_filhos':\n")
df.head()



DataFrame após criação de feature de interação entre 'idade' e 'numero_filhos':



Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,nivel_educacao_ordinal,area_atuacao_cod,estado_cod,salario_log,salario_boxcox,estado_freq,interacao_idade_filhos
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,15,9.514255,10.182574,0.038127,0
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,2,2,18,8.04742,8.522195,0.037316,147
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,2,4,12,8.927394,9.51415,0.036737,0
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,1,0,2,8.311086,8.818123,0.036968,61
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,2,4,1,8.826285,9.399548,0.032796,30


In [6]:
# Salvando o DataFrame com todas as transformações aplicadas
df.to_csv('C:/Users/karin/OneDrive/Área de Trabalho/EBAC/clientes_preparados.csv', index=False)

print("Arquivo 'clientes_preparados.csv' salvo com sucesso!")


Arquivo 'clientes_preparados.csv' salvo com sucesso!
