# Numeralização de Variáveis Categóricas

Variáveis categóricas, em geral, representam grupos ou categorias, não possuindo na maioria das vezes uma ordem natural entre si e não podendo ser ordenadas de forma significativa. Alguns exemplos dessas variáveis são as cores (vermelho, azul, verde), os tipos de gênero (másculino e feminino), os tipos de animais (cachorro, gato, pássaro) ou os níveis de educação (fundamental, médio, superior).

Para aplicação dessas variáveis em métodos de aprendizado de máquinas como o agrupamento (cluster) ou a predição, se faz necessário a numeralização delas. Neste notebook serão apresentados dois tipos, a binarização e a percentualização de variáveis.

## Configuração dos dados

In [1]:
# Importando a biblioteca random
import random

# Importando a biblioteca pandas
import pandas as pd

# Definindo lista de estados brasileiros
estados_nordeste = ['alagoas', 'bahia', 'ceará', 
                    'maranhão', 'paraíba', 'pernambuco', 
                    'piauí', 'rio grande do norte', 'sergipe']

# Definindo lista de gêneros
generos = ['masculino', 'feminino']

# Definindo lista de níveis de educação
educacao = ['fundamental', 'médio', 'superior']

# Definindo lista de dados vazia
dados = []

# Laço de 101 repetições
for i in range(101):

    # Incluindo na lista de dados, biblioteca com gênero e educação aleatórios com base nas listas dos mesmos
    dados.append({'Estado': random.choice(estados_nordeste), 'Gênero': random.choice(generos), 'Educação': random.choice(educacao)})

# Criando planilha de dados pandas a partir de lista de dados
df = pd.DataFrame(dados)

# Exibindo 5 primeiras linhas da planilha de dados
df.head(5)

Unnamed: 0,Estado,Gênero,Educação
0,pernambuco,masculino,superior
1,paraíba,masculino,fundamental
2,pernambuco,masculino,médio
3,paraíba,masculino,superior
4,piauí,feminino,fundamental


## Binarização de variáveis

A binarização das variáveis, ocorre quando elas são transformadas em 0 e 1. Quando uma coluna possui apenas duas variáveis, essa binarização ocorre de maneira que o 0 ocupa a posição de uma das variáveis, e o 1 da outra. Já quando a coluna possui mais que duas variáveis, se faz necessária a criação de uma coluna para cada variáveil, onde o 0 assumirá a posição de ocorrência da variável, e o 1 da não ocorrência, ou vice-versa.

#### Coluna com duas variáveis

In [2]:
# Clonando DataFrame para teste
df_test = df.copy()

# Binarizando coluna Gênero
df_test['Gênero'] = df_test['Gênero'].map({'masculino': 0, 'feminino': 1})

# Exibindo 5 primeiras linhas da planilha de dados
df_test.head(5)

Unnamed: 0,Estado,Gênero,Educação
0,pernambuco,0,superior
1,paraíba,0,fundamental
2,pernambuco,0,médio
3,paraíba,0,superior
4,piauí,1,fundamental


#### Coluna com mais de duas variáveis

In [3]:
# Clonando DataFrame para teste
df_test = df.copy()

# Binarizando coluna Gênero
df_test = pd.get_dummies(df_test, columns=['Gênero'], dtype=int)

# Exibindo 5 primeiras linhas da planilha de dados
df_test.head(5)

Unnamed: 0,Estado,Educação,Gênero_feminino,Gênero_masculino
0,pernambuco,superior,0,1
1,paraíba,fundamental,0,1
2,pernambuco,médio,0,1
3,paraíba,superior,0,1
4,piauí,fundamental,1,0


## Percentualização de variáveis

A percentualização das variáveis, ocorre quando elas são transformadas no percentual das vezes em que aparecem na coluna. O método possui um bom uso para colunas que possuem multiplas variáveis, visto que apenas uma coluna é criada, e só é recomendado seu uso quando a coluna não possui variáveis com o mesmo número de repetições entre si.

In [4]:
# Clonando DataFrame para demonstração
df_test = df.copy()

# Calculando a frequência relativa das variáveis
frequencia_relativa = df_test['Estado'].value_counts(normalize=True).to_dict()

# Substituindo os valores categóricos pelos valores numéricos correspondentes
df_test['Estado'] = df_test['Estado'].map(frequencia_relativa)

# Exibindo 5 primeiras linhas da planilha de dados
df_test.head(5)

Unnamed: 0,Estado,Gênero,Educação
0,0.09901,masculino,superior
1,0.138614,masculino,fundamental
2,0.09901,masculino,médio
3,0.138614,masculino,superior
4,0.108911,feminino,fundamental


## Considerações finais

O método a ser utilizado dependerá da disposição dos dados, e o indicativo de qual utilizar sempre partirá da interpretação do analista, e da precisão que os resultados do uso apresentarão.