## Carta para Senhorita Creizuda

Neste caderno iremos fazer uma conversão simbólico-numérica de um conjunto de dados categóricos não-binários. Escolhemos o conjunto de dados do censo da turma 2024 da Ilum e fizemos a conversão dos valores de cores favoritas e áreas de conhecimento menos e mais favoritas dos alunos por meio do codificador one-hot. Utilizamos o codificador one-hot porque, nesse caso, os dados não são ordinais.

In [38]:
import pandas as pd

In [39]:
df = pd.read_csv('Censo turma 2024(Sheet1).csv', encoding='latin1', sep=',')
df.head(10)

Unnamed: 0,Qual é a sua altura em centímetros?,Qual é o número de sapato que você calça?,Qual o mês do seu aniversário?,Quantos irmãos você tem?,Quantos livros você leu no ano passado?\n,"Das cores abaixo, qual é a sua favorita (ou a cor que mais gosta se sua cor favorita não estiver na lista)?",Qual a sua opinião sobre azeitona?,Qual destas linhas de estudo é a que você tem mais afinidade?,Qual destas linhas de estudo é a que você tem menos afinidade?,Cachorros ou gatos?,Escolha um número aleatório entre 0 e 100\n
0,181,42,7,1,3.0,Verde,5.0,Ciências da vida,Ciências da matéria,Gatos!,77
1,163,34,6,1,4.0,Azul,1.0,Ciências da vida,Ciências humanas,Cachorros!,7
2,178,40,11,1,16.0,Vermelho,4.0,Ciências da matéria,Ciências humanas,Cachorros!,69
3,153,36,3,2,12.0,Preto,1.0,Ciências da matéria,Ciências humanas,Gatos!,13
4,195,43,2,0,20.0,Azul,3.0,Ciências da vida,Ciências humanas,Cachorros!,38
5,184,43,5,1,6.0,Roxo,4.0,Ciências da matéria,Ciências humanas,Gatos!,93
6,164,39,11,2,3.0,Azul,5.0,Ciências da matéria,Ciências humanas,Cachorros!,89
7,158,35,9,2,4.0,Azul,5.0,Ciências da matéria,Ciências da vida,Gatos!,77
8,169,41,5,1,6.0,Azul,2.0,Ciências da matéria,Ciências da vida,Gatos!,7
9,173,43,4,2,1.0,Azul,4.0,Ciências da vida,Ciências da vida,Gatos!,71


In [40]:
df_ = df.convert_dtypes()

print(df_.dtypes)

Qual é a sua altura em centímetros?                                                                                     Int64
Qual é o número de sapato que você calça?                                                                               Int64
Qual o mês do seu aniversário?                                                                                          Int64
Quantos irmãos você tem?                                                                                                Int64
Quantos livros você leu no ano passado?\n                                                                               Int64
Das cores abaixo, qual é a sua favorita (ou a cor que mais gosta se sua cor favorita não estiver na lista)?    string[python]
Qual a sua opinião sobre azeitona?                                                                                      Int64
Qual destas linhas de estudo é a que você tem mais afinidade?                                                  string[

In [41]:
#Não escolhemos cachorros ou gatos porque era binário

print(df['Das cores abaixo, qual é a sua favorita (ou a cor que mais gosta se sua cor favorita não estiver na lista)?'].isnull().sum())
print(df['Qual destas linhas de estudo é a que você tem mais afinidade?'].isnull().sum())
print(df['Qual destas linhas de estudo é a que você tem menos afinidade?'].isnull().sum())

1
0
1


In [42]:
df_cores = df['Das cores abaixo, qual é a sua favorita (ou a cor que mais gosta se sua cor favorita não estiver na lista)?'].dropna()
df_gosta = df['Qual destas linhas de estudo é a que você tem mais afinidade?']
df_nao_gosta = df['Qual destas linhas de estudo é a que você tem menos afinidade?'].dropna()

In [43]:
df_cores.shape, df_gosta.shape, df_nao_gosta.shape

((35,), (36,), (35,))

In [44]:
c = df_cores.values.reshape(-1, 1)
g = df_gosta.values.reshape(-1, 1)
ng = df_nao_gosta.values.reshape(-1, 1)

In [45]:
from sklearn.preprocessing import OneHotEncoder

encoder_c = OneHotEncoder(sparse_output=False)
encoder_g = OneHotEncoder(sparse_output=False)
encoder_ng = OneHotEncoder(sparse_output=False)

encoder_c.fit(c)
encoder_g.fit(g)
encoder_ng.fit(ng)

colunas_c = encoder_c.categories_
colunas_g = encoder_g.categories_
colunas_ng = encoder_ng.categories_

dados_convertidos_c = encoder_c.transform(c)
dados_convertidos_g = encoder_g.transform(g)
dados_convertidos_ng = encoder_ng.transform(ng)

In [46]:
print("Dados convertidos sobre cores favoritas:")
print(colunas_c)
print(dados_convertidos_c)

Dados convertidos sobre cores favoritas:
[array(['Amarelo', 'Azul', 'Cinza', 'Preto', 'Rosa', 'Roxo', 'Verde',
       'Vermelho'], dtype=object)]
[[0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 

In [47]:
print("Dados convertidos sobre a área do conhecimento que gosta:")
print(colunas_g)
print(dados_convertidos_g)

Dados convertidos sobre a área do conhecimento que gosta:
[array(['Ciências da matéria', 'Ciências da vida', 'Ciências humanas'],
      dtype=object)]
[[0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]]


In [48]:
print("Dados convertidos sobre a área do conhecimento que não gosta:")
print(colunas_ng)
print(dados_convertidos_ng)

Dados convertidos sobre a área do conhecimento que não gosta:
[array(['Ciências da matéria', 'Ciências da vida', 'Ciências humanas'],
      dtype=object)]
[[1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 1. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [1. 0. 0.]
 [0. 0. 1.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 1.]
 [1. 0. 0.]]


## Conclusão

Por meio do codificador conseguimos obter os dados categóricos convertidos em numéricos, o que facilita a análise dos dados, o que geralmente é necessário para a aplicação de algoritmos de aprendizado de máquina.

## Referências

1. CASSAR, Daniel. ATP-203 1.1 - Tratamento de dados. [Material de aula]. Aprendizado de Máquinas. Campinas, SP: Ilum - Escola de Ciência, ago. 2024

<img src="Brasão.png" alt="Brasão" width="396.5" height="561">