### Introdução

Variáveis categóricas são comuns em muitos conjuntos de dados e precisam ser convertidas para um formato numérico para que possam ser utilizadas por algoritmos de machine learning. Vamos explorar como aplicar essas técnicas usando Python e a biblioteca `pandas` para manipulação de dados, bem como `scikit-learn` para pré-processamento.

### Preparação do Ambiente

Primeiro, vamos importar as bibliotecas necessárias:

In [29]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer


### Criando um DataFrame de Exemplo

Vamos criar um DataFrame simples contendo algumas variáveis categóricas:


In [30]:
data = {
    'Cor': ['Vermelho', 'Azul', 'Verde', 'Azul', 'Verde'],
    'Tamanho': ['P', 'M', 'G', 'GG', 'P'],
    'Produto': ['Camiseta', 'Calça', 'Bermuda', 'Camiseta', 'Bermuda']
}

df = pd.DataFrame(data)
print(df)


        Cor Tamanho   Produto
0  Vermelho       P  Camiseta
1      Azul       M     Calça
2     Verde       G   Bermuda
3      Azul      GG  Camiseta
4     Verde       P   Bermuda



### 1. Codificação de Labels

A codificação de labels transforma categorias em números. Útil para variáveis categóricas ordinais.

In [31]:
label_encoder = LabelEncoder()
df['Tamanho_Codificado'] = label_encoder.fit_transform(df['Tamanho'])

print(df[['Tamanho', 'Tamanho_Codificado']])

  Tamanho  Tamanho_Codificado
0       P                   3
1       M                   2
2       G                   0
3      GG                   1
4       P                   3


### 2. Codificação One-Hot

A codificação one-hot cria novas colunas indicando a presença (ou ausência) de cada possível valor da variável original

In [34]:
# Aplicando One-Hot Encoding
df = pd.get_dummies(df, columns=['Cor', ], dtype=float )
# Concatenando com o DataFrame original

In [35]:
df

Unnamed: 0,Tamanho,Produto,Tamanho_Codificado,Cor_Azul,Cor_Verde,Cor_Vermelho
0,P,Camiseta,3,0.0,0.0,1.0
1,M,Calça,2,1.0,0.0,0.0
2,G,Bermuda,0,0.0,1.0,0.0
3,GG,Camiseta,1,1.0,0.0,0.0
4,P,Bermuda,3,0.0,1.0,0.0


### 3. Codificação de Frequência

Esta técnica substitui as categorias pela frequência (ou proporção) de cada categoria.


In [37]:
frequency_encoding = df.groupby('Produto').size() / len(df)
df['Produto_Frequencia'] = df['Produto'].map(frequency_encoding)

print(df[['Produto', 'Produto_Frequencia']])

    Produto  Produto_Frequencia
0  Camiseta                 0.4
1     Calça                 0.2
2   Bermuda                 0.4
3  Camiseta                 0.4
4   Bermuda                 0.4


Transformar variáveis categóricas em numéricas é uma etapa essencial no pré-processamento de dados para machine learning. A escolha do método de codificação depende da natureza da variável categórica (ordinal ou nominal) e do modelo de machine learning a ser utilizado. Codificação de labels é mais simples e direta, adequada para variáveis ordinais. Codificação one-hot é útil para variáveis nominais sem ordem inerente, enquanto a codificação de frequência pode ser benéfica quando a frequência das categorias em si pode ser informativa para o modelo.