In [1]:
import pandas as pd
import numpy as np
from scipy import stats

Remover limite de exibição com o display, ler o arquivo csv e exibir os primeiros registros

In [2]:
pd.set_option('display.width', None)

df = pd.read_csv('clientes-v2-tratados.csv')

print(df.head())


   idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  
0              0       Casado   Tecnologia  
1              3       Casado    Indústria  
2              0       Casado   Tecnologia  
3              1     Solteiro     Comércio  
4              1       Casado   Tecnologia  


Transformação logarítmica

In [None]:
#Aplica a função logarítmica com o numpy na coluna 'salario' para reduzir a assimetria e lidar com outliers
df['salario_log'] = np.log1p(df['salario']) #log1p para evitar problemas com valores 0 (log(0))

print('\n DataFrame após transformação logarítmica no salario:\n', df.head())



 DataFrame após transformação logarítmica no salario:
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  salario_log  
0              0       Casado   Tecnologia     9.514255  
1              3       Casado    Indústria     8.047420  
2              0       Casado   Tecnologia     8.927394  
3              1     Solteiro     Comércio     8.311086  
4              1       Casado   Tecnologia     8.826285  


Transformação Box-Cox

In [None]:
#Aplica a transformação Box-Cox para estabilizar a variância e tornar os dados mais normais
df['salario_boxcox'], _ = stats.boxcox(df['salario'] + 1) #boxcox requer valores positivos, então adicionamos 1 para evitar problemas com 0

print('\n DataFrame após transformação Box-Cox no salario:\n', df.head())


 DataFrame após transformação Box-Cox no salario:
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  salario_log  salario_boxcox  
0              0       Casado   Tecnologia     9.514255       10.182574  
1              3       Casado    Indústria     8.047420        8.522195  
2              0       Casado   Tecnologia     8.927394        9.514150  
3              1     Solteiro     Comércio     8.311086        8.818123  
4              1       Casado   Tecnologia     8.826285        9.399548  


Codificação de frequência para estado

In [6]:
#Função estatística value_counts() para calcular a frequência de cada categoria na coluna 'estado' e dividir pelo número de registros (len(df)) para encontrar a frequência relativa de cada estado.  
estado_freq = df['estado'].value_counts() / len(df) #len(df) para normalizar as frequências

# Usando o método map() para criar um mapeamento da frequência de cada estado e aplicá-lo à coluna 'estado' para criar uma nova coluna 'estado_freq' que contém a frequência relativa de cada estado.
df['estado_freq'] = df['estado'].map(estado_freq)

print('\nDataFrame após codificação de frenquência para estado:\n', df.head())


DataFrame após codificação de frenquência para estado:
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  salario_log  salario_boxcox  \
0              0       Casado   Tecnologia     9.514255       10.182574   
1              3       Casado    Indústria     8.047420        8.522195   
2              0       Casado   Tecnologia     8.927394        9.514150   
3              1     Solteiro     Comércio     8.311086        8.818123   
4              1       Casado   Tecnologia     8.826285        9.399548   

   estado_freq  
0     0.038127  
1     0

Interações

In [7]:
#É feita a multiplicação entre as colunas 'idade' e 'numero_filhos' para criar uma nova coluna 'interação_idade_filhos' que representa a interação entre essas duas variáveis. Essa nova coluna pode capturar efeitos combinados que não são evidentes quando as variáveis são consideradas separadamente.
df['interação_idade_filhos'] = df['idade'] * df['numero_filhos']

print('\nDataframe após criação de interações entre idade e número de filhos:\n', df.head())


Dataframe após criação de interações entre idade e número de filhos:
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  salario_log  salario_boxcox  \
0              0       Casado   Tecnologia     9.514255       10.182574   
1              3       Casado    Indústria     8.047420        8.522195   
2              0       Casado   Tecnologia     8.927394        9.514150   
3              1     Solteiro     Comércio     8.311086        8.818123   
4              1       Casado   Tecnologia     8.826285        9.399548   

   estado_freq  interação_i