# Encoders

Transformam os dados de texto em algum formato numérico.

## Ordinal Encoder

Transforma atributos categóricos em atributos numéricos. Utiliza números inteiros para corresponder a cada categoria.

In [1]:
# Instalando a biblioteca category_encoders

!pip install category_encoders



In [2]:
# Importando as bibliotecas necessárias

# Criação e manipulação de Series e DataFrames
import pandas as pd

# Módulo para codificação de atributos de texto com números ordinais
from category_encoders import OrdinalEncoder

# Módulo para codificação de atributos de texto com números binários (0/1)
from category_encoders import OneHotEncoder

In [3]:
# Criando um DataFrame com profissões

dados = [
    'professor',
    'médico',
    'advogado',
    'médico',
    'professor',
    'policial',
    'engenheiro',
    'engenheiro',
    'policial',
    'advogado'
]

df = pd.DataFrame({
    'profissao': dados
})

In [4]:
# Definindo a coluna do dataframe para realizar o encoder
ordinal = OrdinalEncoder(cols='profissao')
ordinal

In [5]:
# Treinando o DataFrame através da coluna profissao
ordinal.fit(df)

In [6]:
# Transformando o DataFrame codificado
ordinal.transform(df)

Unnamed: 0,profissao
0,1
1,2
2,3
3,2
4,1
5,4
6,5
7,5
8,4
9,3


In [7]:
dfCodificado = ordinal.transform(df)
dfCodificado

Unnamed: 0,profissao
0,1
1,2
2,3
3,2
4,1
5,4
6,5
7,5
8,4
9,3


In [8]:
# Criando uma nova coluna do DataFrame para ver a codifição lado a lado com os atributos
# categóricos

df['ordinal_encoder'] = dfCodificado
df

Unnamed: 0,profissao,ordinal_encoder
0,professor,1
1,médico,2
2,advogado,3
3,médico,2
4,professor,1
5,policial,4
6,engenheiro,5
7,engenheiro,5
8,policial,4
9,advogado,3


## One hot Encoder (ohe)

Também conhecido como dummy, produz uma coluna binária (0 ou 1) para cada categoria.

In [12]:
# Definindo a coluna do DataFrame para a codificação
one_hot = OneHotEncoder(cols='profissao', use_cat_names=True) # use_cat_names para aparecer o sufixo da profissão
# categórica de forma categórica
one_hot

In [13]:
# Treinando o codificador
one_hot.fit(df)

In [14]:
# Transformando o DataFrame
one_hot.transform(df)

Unnamed: 0,profissao_professor,profissao_médico,profissao_advogado,profissao_policial,profissao_engenheiro,ordinal_encoder
0,1,0,0,0,0,1
1,0,1,0,0,0,2
2,0,0,1,0,0,3
3,0,1,0,0,0,2
4,1,0,0,0,0,1
5,0,0,0,1,0,4
6,0,0,0,0,1,5
7,0,0,0,0,1,5
8,0,0,0,1,0,4
9,0,0,1,0,0,3


In [23]:
# Concatenando o DataFrame df com os resultados obtidos acima
pd.concat([df['profissao'],
           one_hot.transform(df).drop('ordinal_encoder', axis=1) # axis=1 para definir a remoção no eixo de colunas
], axis=1) # axis=1 para concatenar na horizontal (adicionando colunas)

Unnamed: 0,profissao,profissao_professor,profissao_médico,profissao_advogado,profissao_policial,profissao_engenheiro
0,professor,1,0,0,0,0
1,médico,0,1,0,0,0
2,advogado,0,0,1,0,0
3,médico,0,1,0,0,0
4,professor,1,0,0,0,0
5,policial,0,0,0,1,0
6,engenheiro,0,0,0,0,1
7,engenheiro,0,0,0,0,1
8,policial,0,0,0,1,0
9,advogado,0,0,1,0,0


##Binary Encoder

Similiar ao One Hot Encoder, porém cria algumas colunas para representar os dados categóricos utilizando um sistema binário;

Esse codificador ajuda com o problema da alta adição de colunas gerada pelo One Hot Encoder (alta dimensionalidade);

Geralmente utilizado quando não existe uma relação entre os dados e há várias categorias.


In [24]:
# Importando o método BinaryEncoder
from category_encoders import BinaryEncoder

In [26]:
# Criando um DataFrame com profissões

dados = [
    'professor',
    'médico',
    'advogado',
    'médico',
    'professor',
    'policial',
    'engenheiro',
    'engenheiro',
    'policial',
    'advogado'
]

df = pd.DataFrame({
    'profissao': dados
})

In [28]:
# Definindo o método BinaryEncoder na variável binary e passando a coluna
# profissao como parâmetro
binary = BinaryEncoder(cols=['profissao'])
binary

In [29]:
# Treinando o modelo com o DataFrame df
binary.fit(df)


In [30]:
# Transformando os dados categórios em binários
binary.transform(df)

Unnamed: 0,profissao_0,profissao_1,profissao_2
0,0,0,1
1,0,1,0
2,0,1,1
3,0,1,0
4,0,0,1
5,1,0,0
6,1,0,1
7,1,0,1
8,1,0,0
9,0,1,1


In [31]:
# Concatenando o df e a transformação do mesmo só para comparação e visualização
pd.concat([df,
           binary.transform(df)], axis=1)

Unnamed: 0,profissao,profissao_0,profissao_1,profissao_2
0,professor,0,0,1
1,médico,0,1,0
2,advogado,0,1,1
3,médico,0,1,0
4,professor,0,0,1
5,policial,1,0,0
6,engenheiro,1,0,1
7,engenheiro,1,0,1
8,policial,1,0,0
9,advogado,0,1,1
