# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

Importa a lib pandas como pd, cria um DataFrame com 3 conjuntos de dados, sendo o tipo de dados strings e valores inteiros. Logo após a criação do DataFrame, há a definição das colunas para cada dado criado no DataFrame.

In [7]:
import pandas as pd

df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

Cria um dictionary que define, para cada chave, um valor referente a um tamanho específico. Após isso, ao acessar a coluna 'tamanho' do DataFrame o dictionary é utilizado no método 'map', por conseguinte transformando os dados referentes aos símbolos dos tamanhos em valores numéricos.

In [8]:
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


É criado umn novo dictionary, todavia a partir dos dados da variável size_mapping, em que inverte a posição da chave e valor, dessa forma invertendo a relação criada no dictionary anterior. Com isso feito, ao acessar a coluna 'tamanho' e aplicar a variável inv_size_mapping no método 'map', os valores numéricos presentes na coluna se tornarão nos símbolos referente aos tamanhos.

In [9]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

## Codificando rótulos de classe

Importa a library numpy como np, cria um dictionary para converter os rótulos de classe de strings para valores inteiros

In [10]:
import numpy as np

class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
class_mapping

{'classe1': 0, 'classe2': 1}

In [11]:

df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


Reverte os valores inteiros na coluna rotuloclasse para strings contidos anteriormente no mapping

In [12]:

inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2
