# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

In [None]:
import pandas as pd

df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


**Comentário 01:** Na célula acima temos a importação da biblioteca pandas com o aliás 'pd' para a utilização de alguns dos seus recursos.

Após a importação do 'pandas', foi criado um DataFrame com os dados de uma matiz 3x4 e houve a atribuição de rótulos personalizados para as colunas.

## Mapeando *features* ordinais

In [None]:
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


**Comentário 02:** Na célula acima, os valores presentes na coluna 'tamanho' do DataFrame `df` são mapeados para novos valores atribuídos no objeto `size_mapping` (isso ocorre por meio do comando `df['tamanho'] = df['tamanho'].map(size_mapping)`). 

In [None]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

**Comentário 03:** Essa célula de código demonstra como fazer o caminho inverso que a célula de código anterior fez. Note que dessa vez estamos utilizando um laço `for` para coletar as informações do objeto `size_mapping`, onde os itens do objeto são coletados a cada interação do laço (por meio do método `.items()`) e seus `atributo: valor` são passados para `v: k` com os dados invertidos (`v` recebe o `valor` do atributo enquanto `k` recebe o `atributo`).

Se atribuirmos o valor de `df['tamanho'].map(inv_size_mapping)` para `df['tamanho']`, teremos o mesmo DataFrame da primeira célula de código desse documento.

## Codificando rótulos de classe

In [None]:
import numpy as np

# Criando um dicionario para converter rótulos de classe de strings para inteiros
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
class_mapping

{'classe1': 0, 'classe2': 1}

**Comentário 04:** Na célula acima temos alguns métodos e funções importantes que vamos analisar a seguir:  
1. O método numpy `.unique` retorna um numpy array dos elementos exclusivos que foram passados como parâmetro (ignora repetições de valores).
1. A função `enumerate` retorna um objeto que contém um contador como uma chave para cada valor em um objeto.

Com isso, `class_mapping` recebe por atribuição um objeto formado a partir de um laço `for` que define seus `atributo: valor` a partir dos dados armazenados em `idx` e `label` a cada interação do laço.

In [None]:
# to convert class labels from strings to integers
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


**Comentário 05:** Na célula acima, os valores presentes na coluna 'rotuloclasse' do DataFrame `df` são mapeados para novos valores atribuídos no objeto `class_mapping` (isso ocorre por meio do comando `df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)`). 

In [None]:
# reverse the class label mapping
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


**Comentário 06** Essa célula de código está fazendo o caminho inverso que a célula de código anterior fez. Nela é utilizado um laço `for` para coletar as informações do objeto `class_mapping`, onde os itens do objeto são coletados a cada interação do laço (por meio do método `.items()`) e seus `atributo: valor` são passados para `v: k` com os dados invertidos (`v` recebe o `valor` do atributo enquanto `k` recebe o `atributo`).

Ao final, temos a atualização da coluna 'rotuloclasse' do DataFrame com os novos valores obtidos através do comando `df['rotuloclasse'].map(inv_class_mapping)`.