Ordinal ou OneHot?
===================



## Introdução



Após escolher um dataset específico contendo pelo menos uma coluna com dados categóricos que não sejam binários, o objetivo é fazer uma conversão simbólico-numérica neste conjunto de dados utilizando o codificador ordinal se possível. Se não for
possível, utilizaremos o codificador one-hot. É importante determinar se nossa variável categórica é ordinal ou nominal [1]

## Desenvolvimento



Importando as bibliotecas necessárias:

In [1]:
import seaborn as sns

Esse dataset apresenta informações sobre voos:
- *year:* Indica o ano do voo
- *month:* Indica o mês do voo
- *passengers:* Indica a quantidade de passageiros

Carregando o dataframe disponibilizado no github [2,3]

In [2]:
df = sns.load_dataset('flights')
# Deixando as colunas no formato correto
df = df.convert_dtypes()
df

Unnamed: 0,year,month,passengers
0,1949,Jan,112
1,1949,Feb,118
2,1949,Mar,132
3,1949,Apr,129
4,1949,May,121
...,...,...,...
139,1960,Aug,606
140,1960,Sep,508
141,1960,Oct,461
142,1960,Nov,390


#### Fazendo a conversão simbólica-numérica [4]

Como a coluna "month" mostra os meses, que são ordenados de "Jan" a "Dec" (Janeiro a Dezembro), é possível utilizar o codificador ordinal [5], os valores variam de 1 a 12, ordenados em ordem crescente por passagem de tempo. Ex: Jan - 1, Fev - 2, Mar - 3 ... Nov - 11, Dez - 12. Dessa forma, transformaremos os dados categóricos nominais, e de certa forma ordinais - já que tem ordem dos meses - simbólicos em dados categóricos ordinais numéricos.

In [8]:
X = df["month"].values.reshape(-1, 1)
X

[['Jan'], ['Feb'], ['Mar'], ['Apr'], ['May'], ..., ['Aug'], ['Sep'], ['Oct'], ['Nov'], ['Dec']]
Length: 144
Categories (12, object): ['Jan', 'Feb', 'Mar', 'Apr', ..., 'Sep', 'Oct', 'Nov', 'Dec']

In [9]:
from sklearn.preprocessing import OrdinalEncoder
 
ordem = [["","Jan","Feb","Mar","Apr","May","Jun","Jul","Aug","Sep","Oct","Nov","Dec"]] # uma lista para cada coluna
 
encoder = OrdinalEncoder(categories=ordem)
 
encoder.fit(X) # ajustar aos dados
 
dados_convertidos = encoder.transform(X) # aplicando o encoder, que ordena as listas acima
 
print("Dados originais")
print(X)
print()
 
print("Dados convertidos:")
print(dados_convertidos)
print()

Dados originais
[['Jan'], ['Feb'], ['Mar'], ['Apr'], ['May'], ..., ['Aug'], ['Sep'], ['Oct'], ['Nov'], ['Dec']]
Length: 144
Categories (12, object): ['Jan', 'Feb', 'Mar', 'Apr', ..., 'Sep', 'Oct', 'Nov', 'Dec']

Dados convertidos:
[[ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]
 [ 3.]
 [ 4.]
 [ 5.]
 [ 6.]
 [ 7.]
 [ 8.]
 [ 9.]
 [10.]
 [11.]
 [12.]
 [ 1.]
 [ 2.]

## Conclusão



A partir do código, conseguimos ordenar dados categóricos, estabelecendo valores numéricos para representá-los, o que pode ser útil para treinar alguns modelos de aprendizado de máquina que necessitam de valores númericos para prever resultados, como o material de aula em seguida ilustra. [6]

## Referências



- [1] Daniel Cassar, material de aula: 'LMA-203 1.0 - Estatística descritiva'
- [2] Método do Seaborn: https://seaborn.pydata.org/generated/seaborn.load_dataset.html
- [3] Github com datasets didáticos: https://github.com/mwaskom/seaborn-data
- [4] Daniel Cassar, material de aula: 'ATP-203 1.1 - Tratamento de dados'
- [5] Função OrdinalEncoder: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder
- [6] Daniel Cassar, material de aula: 'ATP-203 2.1 - Aprendizado de máquina, k-NN e métricas'