# **Quests 1 - Ordinal ou one-hot?**

Grupo: Júlia Guedes Almeida dos Santos, Raquel de Godoy Vianna e Thalles José de Souza Cansi

> Água mole, pedra dura, tanto bate até que fura.

## **Enunciado**

Escolha um conjunto de dados qualquer que contenha pelo menos uma coluna com dados categóricos que não sejam binários (isto é, não podem ser dados com apenas dois rótulos possíveis). Faça uma conversão simbólico-numérica neste conjunto de dados utilizando o codificador ordinal se possível. Se não for possível, utilize o codificador one-hot.

## **Introdução**

### Diário 3 da missão

Após conseguir normalizar os dados na nossa última missão (nada fácil), é hora da gente continuar trantado os dados que não são inteiramente numéricos, mas que existe uma relação de ordem entre eles. Essa é a missão da guilda **Supernova**. Mas, por que é importante a gente categorizar nossos dados que estão em formato de texto para um formato numérico?

Observando a Biblioteca Real, achamos o tópico de **Conversão simbólico-numérico com codificador ordinal**.

Nessa missão, o principal objetivo é converter dados categóricos em dados numéricos. Para isso, vamos utilizar o codificador ordinal, que é uma técnica que converte dados categóricos em dados numéricos, respeitando a ordem dos dados. Sua importância é que, ao converter dados categóricos em dados numéricos, podemos aplicar algoritmos de aprendizado de máquina que só aceitam dados numéricos.

## **Códigos**

### Importação das bibliotecas

In [6]:
from sklearn.preprocessing import OrdinalEncoder
import pandas as pd
import plotly.express as px
import seaborn as sns

### Definição do dataset

In [7]:
df_diamonds = sns.load_dataset('diamonds')

In [8]:
df_diamonds = df_diamonds.dropna()
display(df_diamonds)

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


### Aplicação do codificador ordinal

In [9]:
# Passo 1: transformar os dados em um array 2D
x = df_diamonds["cut"].values.reshape(-1, 1)

# Passo 2: criar uma instância do encoder
ordem = [["Fair", "Good", "Very Good", "Premium", "Ideal"]]
encoder = OrdinalEncoder(categories=ordem)

# Passo 3: ajustar o  aos dados
encoder.fit(x)

# Passo 4: aplicar o encoder usando o método `transform`
dados_convertidos = encoder.transform(x)

# Passo 5: se desejamos recuperar os valores iniciais, usamos o `inverse_transform`
idade_desnormalizada = encoder.inverse_transform(dados_convertidos)

# Ver resultados
print("Dados convertidos:")
print(dados_convertidos)

Dados convertidos:
[[4.]
 [3.]
 [1.]
 ...
 [2.]
 [3.]
 [4.]]


Nesses dados convertidos, podemos observar na parametrização que ocorreu a conversão dos dados categóricos em dados numéricos, respeitando a ordem dos dados. Esses dados convertidos podem ser utilizados em algoritmos de aprendizado de máquina que só aceitam dados numéricos. Isso só foi possível graças ao codificador ordinal que está presente na biblioteca `scikit-learn`. Foi definido uma lista em ordem crescente para a conversão dos dados categóricos em dados numéricos, sendo esta gradação a seguinte:

- 0 - Fair
- 1 - Good
- 2 - Very Good
- 3 - Premium
- 4 - Ideal

### Gráfico de barras

In [10]:
df = pd.DataFrame(dados_convertidos, columns=["cut"])
fig = px.histogram(df, x="cut")

fig.update_layout(bargap=0.1)

fig.update_xaxes(tickvals=[0, 1, 2, 3, 4], ticktext=["Fair", "Good", "Very Good", "Premium", "Ideal"])

fig.show()

Neste gráfico de barras é possível observar a quantidade de cada tipo de corte de diamante. Através desse gráfico, podemos observar que o tipo de corte de diamante mais comum é o Ideal (21551), seguido por Premium (13791), Very Good (12082), Good (4906) e Fair (1610).

## **Conclusão**

Nesta missão, conseguimos converter dados categóricos em dados numéricos, respeitando a ordem dos dados. Essa conversão foi possível utilizando o codificador ordinal presente no pacote `scikit-learn`. Através dessa conversão, podemos aplicar algoritmos de aprendizado de máquina que só aceitam dados numéricos. Além disso, conseguimos visualizar a quantidade de cada tipo de corte de diamante através de um gráfico de barras.

## **Bibliografia**

[1] Cassar, Daniel Roberto, "ATP-203 - Tratamento de dados". 5 de agosto de 2024.