Conversão simbólico-numérico
============================



## DataFrame



Vamos iniciar criando um `DataFrame`. Observe que neste conjunto de dados temos 3



In [1]:
import pandas as pd

dicionario_contendo_os_dados = {
    "Nome": ["Platão", "Sócrates", "Descartes", "Nietzsche"],
    "Cor favorita": ["preto", "azul", "vermelho", "vermelho"],
    "Gosta de dorama?": ["muito", "pouco", "pouco", "mais ou menos"],
}

df = pd.DataFrame.from_dict(dicionario_contendo_os_dados)

print(df)

        Nome Cor favorita Gosta de dorama?
0     Platão        preto            muito
1   Sócrates         azul            pouco
2  Descartes     vermelho            pouco
3  Nietzsche     vermelho    mais ou menos


## One-hot encoder



O codificador one-hot (também conhecido como *codificação 1-de-c*) converte dados categóricos em numéricos criando uma coluna para cada categoria obserdava. Estas colunas armazenam apenas 0 ou 1 (dados binários) sendo que o valor 1 indica qual era o rótulo original antes de se aplicar esta operação.



In [2]:
from sklearn.preprocessing import OneHotEncoder

# Passo 1: só é necessário se os dados tem apenas uma dimensão
# Se seus dados já tem duas dimensões, não precisa fazer isso!
x = df["Cor favorita"].values.reshape(-1, 1)

# Passo 2: criar uma instância do encoder
encoder = OneHotEncoder(sparse_output=False)

# Passo 3: ajustar o  aos dados
encoder.fit(x)

# Passo 3.5: coletar informações úteis do ajuste
colunas = encoder.categories_

# Passo 4: aplicar o encoder usando o método `transform`
dados_convertidos = encoder.transform(x)

# Passo 5: se desejamos recuperar os valores iniciais, usamos o `inverse_transform`
idade_desnormalizada = encoder.inverse_transform(dados_convertidos)

# Ver resultados
print("Dados originais")
print(x)
print()

print("Dados convertidos:")
print(colunas)
print(dados_convertidos)
print()

print("Dados desconvertidos:")
print(idade_desnormalizada)

Dados originais
[['preto']
 ['azul']
 ['vermelho']
 ['vermelho']]

Dados convertidos:
[array(['azul', 'preto', 'vermelho'], dtype=object)]
[[0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]]

Dados desconvertidos:
[['preto']
 ['azul']
 ['vermelho']
 ['vermelho']]


## Ordinal encoder



O codificador ordinal converte dados categóricos em numéricos ordenando eles de zero até $n-1$ (onde $n$ é o número de rótulos diferentes).



In [3]:
from sklearn.preprocessing import OrdinalEncoder

# Passo 1: só é necessário se os dados tem apenas uma dimensão
# Se seus dados já tem duas dimensões, não precisa fazer isso!
x = df["Gosta de dorama?"].values.reshape(-1, 1)

# Passo 2: criar uma instância do encoder
ordem = [["pouco", "mais ou menos", "muito"]] # uma lista para cada coluna
encoder = OrdinalEncoder(categories=ordem)

# Passo 3: ajustar o  aos dados
encoder.fit(x)

# Passo 4: aplicar o encoder usando o método `transform`
dados_convertidos = encoder.transform(x)

# Passo 5: se desejamos recuperar os valores iniciais, usamos o `inverse_transform`
idade_desnormalizada = encoder.inverse_transform(dados_convertidos)

# Ver resultados
print("Dados originais")
print(x)
print()

print("Dados convertidos:")
print(dados_convertidos)
print()

print("Dados desconvertidos:")
print(idade_desnormalizada)

Dados originais
[['muito']
 ['pouco']
 ['pouco']
 ['mais ou menos']]

Dados convertidos:
[[2.]
 [0.]
 [0.]
 [1.]]

Dados desconvertidos:
[['muito']
 ['pouco']
 ['pouco']
 ['mais ou menos']]
