# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

In [1]:
# Importa pandas
import pandas as pd

# Cria dataframe com atributos de algum tipo de produto/alimento
df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

# Nomeia colunas do dataframe e mostra dataframe
df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

In [2]:
# Cria um dicionário para mapeamento de atributos (no caso de tamanho)
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

# Cria e mostra um novo dataframe mapeando o antigo com o mapa criado anteriormente
df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


In [3]:
# Cria um mapa que faz o mapeamento inverso do anterior (mapeiavalores de volta para labels 'M', 'G' e 'XG')
inv_size_mapping = {v: k for k, v in size_mapping.items()}

# Faz o mapeamento com o mapa inverso
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

## Codificando rótulos de classe

In [4]:
# Importa numpy
import numpy as np

# Criando um dicionário para converter rótulos de classe de strings para inteiros
# Pega uma lista dos valores da coluna 'rotuloclasse' do dataframe sem repetições e para cada um desses pega o índice e o label deste e cria um mapa que mapeia do label para o índice (mapeando para inteiros)
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}

# Exibe o mapa
class_mapping

{'classe1': 0, 'classe2': 1}

In [5]:
# to convert class labels from strings to integers
# Usa o mapa anterior
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


In [6]:
# reverse the class label mapping
# Cria um mapa inverso ao anterior, reverte o dataframe para o original e exibe este
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2
