# Engenharia de features

Na aula anterior, você compreendeu como tratar variáveis categóricas para uso em análise de dados. Nesta aula, você vai:

- Aplicar técnicas de engenharia de features, como transformação logarítmica, normalização e contagem de frequência, para melhorar o desempenho dos modelos analíticos;

- Criar novas variáveis a partir dos dados existentes, utilizando métodos de transformação e geração de novas características para enriquecer os conjuntos de dados;

- Analisar a importância e o impacto das variáveis transformadas e geradas no desempenho dos modelos analíticos, justificando o uso dessas técnicas para melhorar a qualidade das análises.

In [1]:
# importando bibliotecas
import pandas as pd
import numpy as np
from scipy import stats

In [3]:
# Lendo arquivo csv e atribuindo a um DataFrame
df = pd.read_csv("clientes-v2-tratado.csv")
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria


In [6]:
# Transformação logarítimica
df['salario_log'] = np.log1p(df['salario']) #log1p é usado para evitar problemas com valores zero ou negativos
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,9.514255
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.04742
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,8.927394
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.311086
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,8.826285
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,9.107947
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,9.158486
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,8.312282
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,8.304238
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,8.148726


In [8]:
# Transformação Box-Cox	
df['salario_boxcox'], _ = stats.boxcox(df['salario'] + 1) #boxcox é usado para normalizar a distribuição de dados
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,9.514255,10.182574
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.04742,8.522195
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,8.927394,9.51415
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.311086,8.818123
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,8.826285,9.399548
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,9.107947,9.719207
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,9.158486,9.776699
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,8.312282,8.819468
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,8.304238,8.810422
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,8.148726,8.635766


In [10]:
# Codificação de Frquência para estados

estado_frequencia = df['estado'].value_counts() / len(df) #conta a frequência de cada estado e divide pelo total de linhas do DataFrame
df['estado_frequencia'] = df['estado'].map(estado_frequencia) #mapeia a frequência de cada estado para o DataFrame
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox,estado_frequencia
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,9.514255,10.182574,0.038127
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.04742,8.522195,0.037316
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,8.927394,9.51415,0.036737
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.311086,8.818123,0.036968
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,8.826285,9.399548,0.032796
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,9.107947,9.719207,0.038127
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,9.158486,9.776699,0.036968
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,8.312282,8.819468,0.036968
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,8.304238,8.810422,0.037316
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,8.148726,8.635766,0.03917


In [11]:
# Interação entre variáveis

df['interacao_idade_filhos'] = df['idade'] * df['numero_filhos'] #cria uma nova coluna que é o produto da idade e do número de filhos
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,salario_log,salario_boxcox,estado_frequencia,interacao_idade_filhos
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,9.514255,10.182574,0.038127,0
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,8.04742,8.522195,0.037316,147
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,8.927394,9.51415,0.036737,0
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,8.311086,8.818123,0.036968,61
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,8.826285,9.399548,0.032796,30
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,9.107947,9.719207,0.038127,54
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,9.158486,9.776699,0.036968,28
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,8.312282,8.819468,0.036968,0
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,8.304238,8.810422,0.037316,24
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,8.148726,8.635766,0.03917,35
