# Aula 4.12 – Lidando com Variáveis Categóricas (Encoding)

## 🧠 Por que precisamos codificar variáveis categóricas?


Modelos matemáticos e estatísticos **só trabalham com números**.

Ou seja, variáveis como `"sexo"`, `"estado"`, `"plano"` precisam ser transformadas de texto para número antes de usar em modelos de machine learning ou análises estatísticas.


## 📦 Criando dados de exemplo

In [13]:

import pandas as pd

df = pd.DataFrame({
    'cliente': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Edu'],
    'sexo': ['F', 'M', 'M', 'F', 'F'],
    'plano': ['básico', 'premium', 'intermediário', 'premium', 'lux']
})

df


Unnamed: 0,cliente,sexo,plano
0,Ana,F,básico
1,Bruno,M,premium
2,Carlos,M,intermediário
3,Diana,F,premium
4,Edu,F,lux


## 🔤 Label Encoding


**Label Encoding** transforma cada categoria em um número.  
Exemplo:
- 'básico' → 0
- 'intermediário' → 1
- 'premium' → 2

📌 Útil para variáveis com **ordem lógica**, como: escolaridade, tamanho, risco.

⚠️ Cuidado: usar Label Encoding com variáveis **sem ordem** pode **confundir modelos**.


In [14]:

df['plano_label'] = df['plano'].astype('category').cat.codes #Ordem alfabética
df[['plano', 'plano_label']]


Unnamed: 0,plano,plano_label
0,básico,0
1,premium,3
2,intermediário,1
3,premium,3
4,lux,2


In [15]:
df['plano_label_2'] = pd.Categorical(df['plano'], categories=['básico', 'intermediário', 'premium', 'lux'], ordered=True)
df['plano_label_2'] = df['plano_label_2'].cat.codes
df[['plano', 'plano_label_2', 'plano_label']]

Unnamed: 0,plano,plano_label_2,plano_label
0,básico,0,0
1,premium,2,3
2,intermediário,1,1
3,premium,2,3
4,lux,3,2


## 🔥 One-Hot Encoding


**One-Hot Encoding** cria **uma nova coluna para cada categoria**, com 0 ou 1 indicando se o valor pertence àquela categoria.

📌 Ideal para variáveis **sem ordem** (nominais), como: cidade, gênero, produto.

Desvantagem: pode criar muitas colunas se houver muitas categorias diferentes.


In [16]:
df

Unnamed: 0,cliente,sexo,plano,plano_label,plano_label_2
0,Ana,F,básico,0,0
1,Bruno,M,premium,3,2
2,Carlos,M,intermediário,1,1
3,Diana,F,premium,3,2
4,Edu,F,lux,2,3


In [18]:

df_onehot = pd.get_dummies(df, columns=['sexo'])
df_onehot


Unnamed: 0,cliente,plano,plano_label,plano_label_2,sexo_F,sexo_M
0,Ana,básico,0,0,True,False
1,Bruno,premium,3,2,False,True
2,Carlos,intermediário,1,1,False,True
3,Diana,premium,3,2,True,False
4,Edu,lux,2,3,True,False


## 🤔 Quando usar cada tipo?


| Tipo              | Melhor para...                  | Cuidado |
|-------------------|----------------------------------|---------|
| Label Encoding    | Variáveis com ordem              | Pode confundir modelos se não houver ordem real |
| One-Hot Encoding  | Variáveis nominais (sem ordem)   | Pode gerar muitas colunas se tiver muitas categorias |


## 🎯 Atividade prática


1. Crie uma coluna `categoria_cliente` com os valores de genêro
2. Aplique **Label Encoding** e depois **One-Hot Encoding**
3. Compare os resultados e interprete quando cada um seria melhor


## ✅ Conclusão


- Variáveis categóricas precisam ser convertidas para números antes de modelos
- Label Encoding é simples, mas só funciona bem quando há **ordem**
- One-Hot Encoding é mais seguro para variáveis nominais, mas pode gerar muitas colunas
