# Codificação de Variáveis Categóricas

#### Neste notebook, aplicamos diferentes técnicas de codificação para transformar variáveis categóricas em representações numéricas. Isso é necessário para que algoritmos de machine learning possam interpretar essas variáveis corretamente.

## 1. Leitura dos

Importamos bibliotecas essenciais e carregamos o dataset tratado.

In [None]:
import pandas as pd
from pathlib import Path

pd.set_option('display.width', None)

data_path = Path('../data/clientes-v2-tratados.csv')
df = pd.read_csv(data_path)

print(df.head())

C##  2. Codificação One-Hot (estado_civil)

- Cria uma coluna binária para cada categoria.
- Evita atribuição de variáveis nominais sem ordem.

In [None]:
df = pd.concat([df, pd.get_dummies(df['estado_civil'], prefix='estado_civil')], axis=1)

print("\nDataFrame após codificação one-hot para 'estado_civil':\n", df.head())

## 3. Codificação Ordinal (nivel_educacao)

- Atribui valores numéricos com base em uma ordem lógica.
- Aqui, assumimos que 'Pós-graduação' > 'Ensino Superior' > 'Ensino Médio' > 'Ensino Fundamental'.

In [None]:
educacao_ordem = {
    'Ensino Fundamental': 1,
    'Ensino Médio': 2,
    'Ensino Superior': 3,
    'Pós-graduação': 4
}
df['nivel_educacao_ordinal'] = df['nivel_educacao'].map(educacao_ordem)

print("\nDataFrame após codificação ordinal para 'nivel_educacao':\n", df.head())

## 4. Codificação com .cat.codes (area_atuacao)

- Converte a variável em tipo 'category' e aplica códigos numéricos.
- Útil para representar categorias sem ordem explícita

In [None]:
df['area_atuacao_cod'] = df['area_atuacao'].astype('category').cat.codes

print("\nDataFrame após transformar 'area_atuacao' em códigos numéricos:\n", df.head())

## 5. Codificação com LabelEncoder (estado)

In [None]:
from sklearn.preprocessing import LabelEncoder

- LabelEncoder atribui um número inteiro para cada categoria.
- LabelEncoder converte cada valor único em números de 0 a n_classes-1
- Pode ser problemático em variáveis nominais, pois impõe uma ordem artificial.

In [None]:
label_encoder = LabelEncoder()
df['estado_cod'] = label_encoder.fit_transform(df['estado'])

print("\nDataFrame após aplicar LabelEncoder em 'estado':\n", df.head())

## Considerações Técnicas

- A escolha da técnica de codificação depende do tipo de variável e do modelo que será utilizado.
- One-hot encoding é ideal para variáveis nominais sem ordem.
- Codificação ordinal deve ser usada apenas quando há hierarquia clara entre categorias.
- LabelEncoder pode ser útil, mas deve ser usado com cautela em variáveis nominais.
- `.cat.codes` é uma alternativa leve para codificação simples, mas não preserva ordem.



> Em modelos baseados em árvore (Random Forest, XGBoost), codificações numéricas funcionam bem.
> Em modelos lineares, one-hot encoding costuma ser mais eficaz.