# Codificação de Variáveis Categóricas

Na aula anterior, você compreendeu como normalizar e padronizar dados para análise. Nesta aula, você vai:

- Implementar a codificação de variáveis categóricas, transformando dados textuais em dados numéricos para uso em algoritmos de aprendizado de máquina;

- Comparar diferentes métodos de codificação de variáveis categóricas, avaliando suas vantagens, desvantagens e adequação para diferentes tipos de dados e problemas analíticos.

- Avaliar a adequação das técnicas de codificação de variáveis categóricas para diferentes conjuntos de dados, justificando a escolha do método utilizado com base nas características dos dados e nos objetivos da análise.

In [1]:
# importando bibliotecas
import pandas as pd
from sklearn.preprocessing import LabelEncoder

In [2]:
# ajuste do display do pandas
pd.set_option('display.width', None)
pd.set_option('display.max_columns', None)


In [5]:
# lendo o arquivo CSV e armazenando em um DataFrame
df = pd.read_csv(r'C:\Users\rodri\dev\ciencia_de_dados_v2\assets\clientes-v2-tratado.csv')
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria


### Variável one-hot

A codificação one-hot é uma técnica usada para converter dados categóricos em um formato binário em que cada categoria é representada por uma coluna separada com um 1 indicando sua presença e 0s para todas as outras categorias.

Para compreender mais leia o artigo a seguir

https://www.datacamp.com/pt/tutorial/one-hot-encoding-python-tutorial

### Codificação one-hot para estado_civil

In [None]:
# Codificando one-hot para a variável 'estado-civil' em um DataFrame separado
df_estado_civil = pd.get_dummies(df['estado_civil'], prefix='estado_civil')
df_estado_civil.head(10)

Unnamed: 0,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,True,False
4,True,False,False,False
5,False,False,True,False
6,True,False,False,False
7,False,False,True,False
8,False,False,True,False
9,False,False,False,True


In [None]:
# Concatenando o DataFrame original com o DataFrame codificado
df = pd.concat([df, pd.get_dummies(df['estado_civil'], prefix='estado_civil')], axis=1)

# Visualizando as primeiras 10 linhas do DataFrame atualizado
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,False,False,True,False
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,True,False,False,False
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,False,False,True,False
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,False,False,True,False
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,False,False,False,True


### Codificação ordinal para 'nivel_educacao'

In [None]:
# Codificação ordinal para 'nivel_educacao'
# forma basica criando um dicionario para seguir como padrão
educacao_ordem = {'Ensino Fundamental': 1, 'Ensino Médio': 2, 'Ensino Superior': 3, 'Pós-graduação': 4}
df['nivel_educacao_ordinal'] = df['nivel_educacao'].map(educacao_ordem)

# Visualizando as primeiras 10 linhas do DataFrame atualizado
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,estado_civil_Casado.1,estado_civil_Divorciado.1,estado_civil_Solteiro.1,estado_civil_Viúvo.1,nivel_educacao_ordinal
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,True,False,False,False,2
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,False,False,True,False,1
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,True,False,False,False,2
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,2
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,True,False,False,False,True,False,False,False,3
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,False,False,True,False,False,False,True,False,2
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,1
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,False,False,False,True,False,False,False,True,1


### Transformar 'area_atuacao' em categorias codificadas usando o método .cat.codes

In [32]:
# Transformar 'area_atuacao' em categorias codificadas usando o método .cat.codes
df['area_atuacao_cod'] = df['area_atuacao'].astype('category').cat.codes

# identificando variáveis categóricas aplicados automaticamente pelo pandas da função .cat.codes
df[['area_atuacao', 'area_atuacao_cod']].head(10)

Unnamed: 0,area_atuacao,area_atuacao_cod
0,Tecnologia,4
1,Indústria,2
2,Tecnologia,4
3,Comércio,0
4,Tecnologia,4
5,Indústria,2
6,Comércio,0
7,Educação,1
8,Indústria,2
9,Indústria,2


In [24]:
# Visualizando as primeiras 10 linhas do DataFrame atualizado
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,estado_civil_Casado.1,estado_civil_Divorciado.1,estado_civil_Solteiro.1,estado_civil_Viúvo.1,nivel_educacao_ordinal,area_atuacao_cod
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,True,False,False,False,2,2
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,False,False,True,False,1,0
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,2,2
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,True,False,False,False,True,False,False,False,3,0
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,False,False,True,False,False,False,True,False,2,1
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,1,2
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,False,False,False,True,False,False,False,True,1,2


### LabelEncoder para 'estado'

LabelEncoder converte casa valor único em números de 0 a n_classes-1

In [37]:
# LabelEncoder para 'estado'
# LabelEncoder converte cada valor único em números de 0 a n_classes-1
label_encoder = LabelEncoder()
df['estado_cod'] = label_encoder.fit_transform(df['estado'])

# Visualizando as primeiras 10 linhas do DataFrame atualizado
df[['estado', 'estado_cod']].head(10)


Unnamed: 0,estado,estado_cod
0,Pará,15
1,Rio Grande do Norte,18
2,Minas Gerais,12
3,Amapá,2
4,Alagoas,1
5,Pará,15
6,Tocantins,26
7,Tocantins,26
8,Rio Grande do Norte,18
9,Amazonas,3


In [36]:
# Visualizando as primeiras 10 linhas do DataFrame atualizado
df.head(10)

Unnamed: 0,idade,data,estado,salario,nivel_educacao,numero_filhos,estado_civil,area_atuacao,estado_civil_Casado,estado_civil_Divorciado,estado_civil_Solteiro,estado_civil_Viúvo,estado_civil_Casado.1,estado_civil_Divorciado.1,estado_civil_Solteiro.1,estado_civil_Viúvo.1,nivel_educacao_ordinal,area_atuacao_cod,estado_cod
0,56,1968-01-19,Pará,13550.54,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4,15
1,49,1975-01-31,Rio Grande do Norte,3124.72,Ensino Médio,3,Casado,Indústria,True,False,False,False,True,False,False,False,2,2,18
2,54,1969-08-26,Minas Gerais,7534.6,Ensino Médio,0,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4,12
3,61,1963-03-19,Amapá,4067.73,Ensino Fundamental,1,Solteiro,Comércio,False,False,True,False,False,False,True,False,1,0,2
4,30,1993-12-09,Alagoas,6809.94,Ensino Médio,1,Casado,Tecnologia,True,False,False,False,True,False,False,False,2,4,1
5,54,1969-06-24,Pará,9025.74,Ensino Médio,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,2,2,15
6,28,1996-03-25,Tocantins,9493.67,Ensino Superior,1,Casado,Comércio,True,False,False,False,True,False,False,False,3,0,26
7,30,1993-06-20,Tocantins,4072.6,Ensino Médio,0,Solteiro,Educação,False,False,True,False,False,False,True,False,2,1,26
8,24,2000-02-21,Rio Grande do Norte,4039.96,Ensino Fundamental,1,Solteiro,Indústria,False,False,True,False,False,False,True,False,1,2,18
9,35,1988-08-02,Amazonas,3457.97,Ensino Fundamental,1,Viúvo,Indústria,False,False,False,True,False,False,False,True,1,2,3
