# 5 - Lidando com atributos categóricos

## *Features* nominais e ordinais

In [43]:
import pandas as pd

# Criacao do data frame df a partir das listas
df = pd.DataFrame([['verde', 'M', 10.1, 'classe2'],
                   ['vermelho', 'G', 13.5, 'classe1'],
                   ['azul', 'XG', 15.3, 'classe2']])

# Definicao do nome das colunas do data frame df
df.columns = ['cor', 'tamanho', 'preco', 'rotuloclasse']
# Exibicao iterativa do data frame df
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Mapeando *features* ordinais

In [46]:
# dicionario que mapeia uma chava para um numero
size_mapping = {'XG': 3,
                'G': 2,
                'M': 1}

# Mapeamento para fazer a troca dos tamanhos para os numeros aos quais foram
# mapeados dentro do dicionario
df['tamanho'] = df['tamanho'].map(size_mapping)
# Exibe o data frame de forma iterativa
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,1,10.1,classe2
1,vermelho,2,13.5,classe1
2,azul,3,15.3,classe2


In [47]:
# Aqui e feito o mapeamento inverso do size mapping, pois a partir do dicionario
# size_mapping e definido um dicionario inverso inv_size_mapping a partir do uso
# de dictionary comprehension onde v = int : k = string sao iterados no for dentro
# do size_mapping.items() que retorna pares ordenados com a key k e o numero associado v
inv_size_mapping = {v: k for k, v in size_mapping.items()}
# Atualiza o mapeamento da coluna tamanho trocando os numeros pelas letras originais
df['tamanho'] = df['tamanho'].map(inv_size_mapping)
# Exibe o data frame de forma iterativa
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2


## Codificando rótulos de classe

In [48]:
import numpy as np

# Criando um dicionario para converter rótulos de classe de strings para inteiros
# np.unique() retorna de forma ordenada todos os valores dentro da coluna df['rotuloclasse']
# enumerate() retorna um iterador que retorna um par, portanto ha sempre um indice e o 
# valor dentro do container iterativo que esta sendo usado
class_mapping = {label: idx for idx, label in enumerate(np.unique(df['rotuloclasse']))}
# Dicionario com os nomes como keys e os indices do enumerate como dados
class_mapping

{'classe1': 0, 'classe2': 1}

In [49]:
# to convert class labels from strings to integers
# Converte os dados da coluna rotuloclasse de string para int de acordo
# com o que foi mapeado no dicionario class_mapping
df['rotuloclasse'] = df['rotuloclasse'].map(class_mapping)
# Exibe iterativamente o data frame alterado
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,1
1,vermelho,G,13.5,0
2,azul,XG,15.3,1


In [50]:
# reverse the class label mapping
# Usa o dictionary comprehension a partir do dicionario class_mapping para
# conseguir fazer o mapeamento inverso no dicionario inv_class_mapping
inv_class_mapping = {v: k for k, v in class_mapping.items()}
# Atualiza a coluna rotuloclasse com o mapeamento inverso
df['rotuloclasse'] = df['rotuloclasse'].map(inv_class_mapping)
# Exibe o data frame de forma iterativa
df

Unnamed: 0,cor,tamanho,preco,rotuloclasse
0,verde,M,10.1,classe2
1,vermelho,G,13.5,classe1
2,azul,XG,15.3,classe2
