# Lidando com atributos categóricos

## *Features* nominais e ordinais

In [6]:
import pandas as pd

df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

In [7]:
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

df['tamanho'] = df['tamanho'].map(size_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


In [8]:
inv_size_mapping = {v: k for k, v in size_mapping.items()}
df['tamanho'].map(inv_size_mapping)

0     M
1     G
2    XG
Name: tamanho, dtype: object

## Codificando rótulos de classe

In [9]:
import numpy as np

# Criando um dicionario para converter rótulos de classe de strings para inteiros
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
class_mapping

{'classe1': 0, 'classe2': 1}

In [10]:
# to convert class labels from strings to integers
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,1
1,vermelho,2,13.5,0
2,azul,3,15.3,1


In [6]:
# reverse the class label mapping
inv_class_mapping = {v: k for k, v in class_mapping.items()}
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


## One hot Encoding

cor_verde, cor_vermelho, cor_azul

In [11]:
pd.get_dummies(df["cor"],prefix='cor',drop_first=False)

Unnamed: 0,cor_azul,cor_verde,cor_vermelho
0,0,1,0
1,0,0,1
2,1,0,0


In [12]:
pd.concat([df[["tamanho","preco", "rotuloclasse"]] ,pd.get_dummies(df["cor"],prefix='cor',drop_first=False)],  axis=1)


Unnamed: 0,tamanho,preco,rotuloclasse,cor_azul,cor_verde,cor_vermelho
0,1,10.1,1,0,1,0
1,2,13.5,0,0,0,1
2,3,15.3,1,1,0,0


Unnamed: 0,tamanho,preco
0,M,10.1
1,G,13.5
2,XG,15.3
