In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [3]:
df = pd.read_csv('clientes-v2-tratados.csv')
pd.set_option('display.width', None)   
print(df.head())       

   idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  
0              0       Casado   Tecnologia  
1              3       Casado    Indústria  
2              0       Casado   Tecnologia  
3              1     Solteiro     Comércio  
4              1       Casado   Tecnologia  


Codificação one-hot para 'estado-civil'            

In [None]:
df = pd.concat(objs=[df, pd.get_dummies(df['estado_civil'], prefix='estado_civil')], axis=1) #Utiliza a String 'estado_civil' como prefixo para definir novas colunas com valores boleanos de seus respectivos estados civis.

print("\n Dataframe após codificação one-hot para estado_civil: \n",df.head())


 Dataframe após codificação one-hot para estado_civil: 
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  estado_civil_Casado  \
0              0       Casado   Tecnologia                 True   
1              3       Casado    Indústria                 True   
2              0       Casado   Tecnologia                 True   
3              1     Solteiro     Comércio                False   
4              1       Casado   Tecnologia                 True   

   estado_civil_Divorciado  estado_civil_Solteiro  estado_civil_Viúvo  
0               

Codificação ordinal para 'nivel_educacao'

In [None]:
educacao_ordem = {'Ensino Fundamental': 1, 'Ensino Médio': 2, 'Ensino Superior': 3, 'Pós-Graduação': 4}

#.map mapeia todos os valores que eu tenho para suas respectivas respostas numérica. E também armazena em outro campo para visualização
df['nivel_educacao_ordinal'] = df['nivel_educacao'].map(educacao_ordem) 

print("\n Dataframe após codificação ordinal para nivel_educacao: \n",df.head())




 Dataframe após codificação ordinal para nivel_educacao: 
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  estado_civil_Casado  \
0              0       Casado   Tecnologia                 True   
1              3       Casado    Indústria                 True   
2              0       Casado   Tecnologia                 True   
3              1     Solteiro     Comércio                False   
4              1       Casado   Tecnologia                 True   

   estado_civil_Divorciado  estado_civil_Solteiro  estado_civil_Viúvo  \
0            

Transformar 'area_atuacao' em categorias codificadas usando o método .cad.codes

In [6]:
#Define um campo como categoria e depois utiliza o atributo cat.codes para transformar os valores em códigos numéricos.
df['area_atuacao_cod'] = df['area_atuacao'].astype('category').cat.codes

print('\n DataFrame após transformar area_atuacao em códigos numéricos: \n', df.head())



 DataFrame após transformar area_atuacao em códigos numéricos: 
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  estado_civil_Casado  \
0              0       Casado   Tecnologia                 True   
1              3       Casado    Indústria                 True   
2              0       Casado   Tecnologia                 True   
3              1     Solteiro     Comércio                False   
4              1       Casado   Tecnologia                 True   

   estado_civil_Divorciado  estado_civil_Solteiro  estado_civil_Viúvo  \
0      

LabelEncoder para 'estado'

In [7]:
#LabelEncoder converte cada valor único em números de 0 a n_classes-1
label_encoder = LabelEncoder()
df['estado_cod'] = label_encoder.fit_transform(df['estado'])

print('\n DataFrame após aplicar LabelEncoder em estado: \n', df.head())


 DataFrame após aplicar LabelEncoder em estado: 
    idade        data               estado   salario      nivel_educacao  \
0     56  1968-01-19                 Pará  13550.54        Ensino Médio   
1     49  1975-01-31  Rio Grande do Norte   3124.72        Ensino Médio   
2     54  1969-08-26         Minas Gerais   7534.60        Ensino Médio   
3     61  1963-03-19                Amapá   4067.73  Ensino Fundamental   
4     30  1993-12-09              Alagoas   6809.94        Ensino Médio   

   numero_filhos estado_civil area_atuacao  estado_civil_Casado  \
0              0       Casado   Tecnologia                 True   
1              3       Casado    Indústria                 True   
2              0       Casado   Tecnologia                 True   
3              1     Solteiro     Comércio                False   
4              1       Casado   Tecnologia                 True   

   estado_civil_Divorciado  estado_civil_Solteiro  estado_civil_Viúvo  \
0                    F