In [1]:
import pandas as pd
import numpy as np
from scipy import stats

In [3]:
df = pd.read_csv('clientes-v2-tratados.csv')
df.head()

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia


In [4]:
# Transformacao logariticima
df['salario_log'] = np.log1p(df['salario']) # log1p e usado para evitar problemas com valores zeros
df.head()

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,9.514255
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.04742
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,8.927394
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.311086
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,8.826285


In [7]:
# Transformação Box-Cox
df['salario_boxcox'], _ = stats.boxcox(df['salario'] + 1)
df.head()

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,10.182574,10.182574
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.522195,8.522195
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,9.51415,9.51415
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.818123,8.818123
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,9.399548,9.399548


In [11]:
# Codificacao de frequencia para 'estado'
estado_freq = df['estado'].value_counts() / len(df)
df['estado_freq'] = df['estado'].map(estado_freq)
df.head()

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox,estado_freq
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,10.182574,10.182574,0.038127
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.522195,8.522195,0.037316
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,9.51415,9.51415,0.036737
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.818123,8.818123,0.036968
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,9.399548,9.399548,0.032796


In [14]:
# interacoes

df['interacao_idade_filhos'] = df['idade'] * df['numero_filhos']
df.head()

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox,estado_freq,interacao_idade_filhos
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,10.182574,10.182574,0.038127,0
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.522195,8.522195,0.037316,147
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,9.51415,9.51415,0.036737,0
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.818123,8.818123,0.036968,61
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,9.399548,9.399548,0.032796,30
