# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

Criando um dataframe com dados nominais e ordinais

In [1]:
import pandas as pd

df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

É possível trocar dados nominais por ordinais usando um dicionário do python

In [2]:
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


Ou trocar dados ordinais por nominais usando o mesmo dicionário

In [3]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

## Codificando rótulos de classe

Neste trecho do código, são realizadas as mesmas operações feitas acima

In [4]:
import numpy as np

# Criando um dicionario para converter rótulos de classe de strings para inteiros
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
class_mapping

{'classe1': 0, 'classe2': 1}

In [5]:
# to convert class labels from strings to integers
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


In [6]:
# reverse the class label mapping
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2
