# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

Criando um DataFrame 'df' a partir de uma lista de listas

Em seguida, usamos o atributo columns do DataFrame 'df' para criar os rótulos das colunas

Com isso, temos rótulos nominais nas colunas e rótulos ordinais nas linhas(os índices)

In [11]:
import pandas as pd

df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

Primeiro, criamos um dicionário 'size_mapping' que mapeia os tamanhos M, G e XG  nos números 1, 2 e 3

Então, usamos o método map e 'size_mapping' para mapear os valores da coluna 'tamanho' (que são M, G e XG) nos valores 1, 2 e 3, atribuindo o resultado do mapamento para a coluna 'tamanho' do DataFrame 'df'

In [12]:
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}
                
df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


Criamos um novo dicionário 'inv_size_mapping' que inverte o mapeamento do dicionário 'size_mapping'

Dessa forma, conseguimos retornar os valores da coluna 'tamanho' para os  seus valores originais usando 'inv_size_mapping' e o método map

In [16]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

## Codificando rótulos de classe

Já que no DataFrame 'df' temos um mesmo rótulo de classe aparecendo mais de uma vez, usamos o método unique para obter um array com todos os diferentes rótulos de classe únicos (sem que um mesmo rótulo se repita)

A partir desse array, usamos a função enumerate para enumerar os seus elementos

Com isso, criamos um dicionário 'class_mapping' que mapeia os rótulos únicos nos seus respectivos índices 

In [21]:
import numpy as np

# Criando um dicionario para converter rótulos de classe de strings para inteiros
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
class_mapping

{'classe1': 0, 'classe2': 1}

Agora, usamos o dicionário 'class_mapping' e o método map para mapear os rótulos de classe do DataFrame 'df' (que eram strings) nos seus respectivos índices (que são inteiros), atribuindo o resultado do mapamento para a coluna 'rotuloclasse' do DataFrame 'df'

In [22]:
# to convert class labels from strings to integers
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


Criamos um novo dicionário 'inv_class_mapping' que inverte o mapeamento do dicionário 'class_mapping'

Assim, utilizando 'inv_class_mapping' e o método map, conseguimos retornar os valores da coluna 'rotuloclasse' para seus valores originais

In [23]:
# reverse the class label mapping
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2
