# Aula 4.12 ‚Äì Lidando com Vari√°veis Categ√≥ricas (Encoding)

## üß† Por que precisamos codificar vari√°veis categ√≥ricas?


Modelos matem√°ticos e estat√≠sticos **s√≥ trabalham com n√∫meros**.

Ou seja, vari√°veis como `"sexo"`, `"estado"`, `"plano"` precisam ser transformadas de texto para n√∫mero antes de usar em modelos de machine learning ou an√°lises estat√≠sticas.


## üì¶ Criando dados de exemplo

In [13]:

import pandas as pd

df = pd.DataFrame({
    'cliente': ['Ana', 'Bruno', 'Carlos', 'Diana', 'Edu'],
    'sexo': ['F', 'M', 'M', 'F', 'F'],
    'plano': ['b√°sico', 'premium', 'intermedi√°rio', 'premium', 'lux']
})

df


Unnamed: 0,cliente,sexo,plano
0,Ana,F,b√°sico
1,Bruno,M,premium
2,Carlos,M,intermedi√°rio
3,Diana,F,premium
4,Edu,F,lux


## üî§ Label Encoding


**Label Encoding** transforma cada categoria em um n√∫mero.  
Exemplo:
- 'b√°sico' ‚Üí 0
- 'intermedi√°rio' ‚Üí 1
- 'premium' ‚Üí 2

üìå √ötil para vari√°veis com **ordem l√≥gica**, como: escolaridade, tamanho, risco.

‚ö†Ô∏è Cuidado: usar Label Encoding com vari√°veis **sem ordem** pode **confundir modelos**.


In [14]:

df['plano_label'] = df['plano'].astype('category').cat.codes #Ordem alfab√©tica
df[['plano', 'plano_label']]


Unnamed: 0,plano,plano_label
0,b√°sico,0
1,premium,3
2,intermedi√°rio,1
3,premium,3
4,lux,2


In [15]:
df['plano_label_2'] = pd.Categorical(df['plano'], categories=['b√°sico', 'intermedi√°rio', 'premium', 'lux'], ordered=True)
df['plano_label_2'] = df['plano_label_2'].cat.codes
df[['plano', 'plano_label_2', 'plano_label']]

Unnamed: 0,plano,plano_label_2,plano_label
0,b√°sico,0,0
1,premium,2,3
2,intermedi√°rio,1,1
3,premium,2,3
4,lux,3,2


## üî• One-Hot Encoding


**One-Hot Encoding** cria **uma nova coluna para cada categoria**, com 0 ou 1 indicando se o valor pertence √†quela categoria.

üìå Ideal para vari√°veis **sem ordem** (nominais), como: cidade, g√™nero, produto.

Desvantagem: pode criar muitas colunas se houver muitas categorias diferentes.


In [16]:
df

Unnamed: 0,cliente,sexo,plano,plano_label,plano_label_2
0,Ana,F,b√°sico,0,0
1,Bruno,M,premium,3,2
2,Carlos,M,intermedi√°rio,1,1
3,Diana,F,premium,3,2
4,Edu,F,lux,2,3


In [18]:

df_onehot = pd.get_dummies(df, columns=['sexo'])
df_onehot


Unnamed: 0,cliente,plano,plano_label,plano_label_2,sexo_F,sexo_M
0,Ana,b√°sico,0,0,True,False
1,Bruno,premium,3,2,False,True
2,Carlos,intermedi√°rio,1,1,False,True
3,Diana,premium,3,2,True,False
4,Edu,lux,2,3,True,False


## ü§î Quando usar cada tipo?


| Tipo              | Melhor para...                  | Cuidado |
|-------------------|----------------------------------|---------|
| Label Encoding    | Vari√°veis com ordem              | Pode confundir modelos se n√£o houver ordem real |
| One-Hot Encoding  | Vari√°veis nominais (sem ordem)   | Pode gerar muitas colunas se tiver muitas categorias |


## üéØ Atividade pr√°tica


1. Crie uma coluna `categoria_cliente` com os valores de gen√™ro
2. Aplique **Label Encoding** e depois **One-Hot Encoding**
3. Compare os resultados e interprete quando cada um seria melhor


## ‚úÖ Conclus√£o


- Vari√°veis categ√≥ricas precisam ser convertidas para n√∫meros antes de modelos
- Label Encoding √© simples, mas s√≥ funciona bem quando h√° **ordem**
- One-Hot Encoding √© mais seguro para vari√°veis nominais, mas pode gerar muitas colunas
