<a href="https://colab.research.google.com/github/Diego251Fagundes/Data-Science-Machine-Learning-Studies/blob/main/notebook_encoding_didatico_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# üß© Notebook Did√°tico ‚Äî *Encoding* de Vari√°veis Categ√≥ricas (conceitos + exemplos claros)

**Enunciado (leia antes de come√ßar):**  
Este notebook foi feito para **ensinar** (n√£o apenas mostrar c√≥digo). Voc√™ vai:
1) Entender **por que** precisamos codificar vari√°veis categ√≥ricas;  
2) Ver **quatro encodings** comuns (One-Hot, Ordinal, Frequ√™ncia, Target Mean) com exemplos simples;  
3) Interpretar os **resultados transformados** (tabelas e nomes de colunas);  
4) Responder **perguntas curtas** ao final de cada se√ß√£o para checar sua compreens√£o.

> **Importante:** aqui **n√£o treinamos modelos**; o foco √© **compreens√£o conceitual** e **transforma√ß√µes**.  
> Pr√©‚Äërequisitos: no√ß√µes b√°sicas de `pandas` e `scikit-learn`.



## üéØ Objetivos de Aprendizagem
Ao concluir este notebook, voc√™ ser√° capaz de:
- Explicar, em suas palavras, o que √© *encoding* e por que ele √© necess√°rio em ML/DS;  
- Aplicar **One-Hot** e **Ordinal** com `scikit-learn` e **interpretar** o resultado;  
- Implementar **Frequency** e **Target Mean** manualmente com `pandas` em exemplos controlados;  
- Identificar **riscos** como **ordem artificial** (Ordinal) e **data leakage** (Target Mean).



## üîé Nosso *dataset* did√°tico
Vamos usar um conjunto **fabricado** de poucas linhas para visualizar claramente as transforma√ß√µes.  
Ele representa produtos de vestu√°rio com tr√™s atributos **categ√≥ricos**:
- **`cor`**: `azul`, `verde`, `vermelho` (nominal, **sem** ordem natural)
- **`tamanho`**: `P`, `M`, `G` (pode ser ordinal: P < M < G)
- **`material`**: `algodao`, `l√£`, `sintetico` (nominal, **sem** ordem natural)

Cada linha √© um produto. N√£o h√° valores num√©ricos originalmente ‚Äî perfeito para estudar *encoding*.


In [None]:

import numpy as np
import pandas as pd

from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder
from sklearn.compose import ColumnTransformer

# Criando o DataFrame did√°tico
df = pd.DataFrame({
    'cor': ['azul', 'verde', 'vermelho', 'azul', 'vermelho', 'verde'],
    'tamanho': ['P', 'M', 'G', 'P', 'G', 'M'],
    'material': ['algodao', 'l√£', 'sintetico', 'algodao', 'sintetico', 'l√£']
})
display(df)
print('Formato:', df.shape)


Unnamed: 0,cor,tamanho,material
0,azul,P,algodao
1,verde,M,l√£
2,vermelho,G,sintetico
3,azul,P,algodao
4,vermelho,G,sintetico
5,verde,M,l√£


Formato: (6, 3)



---
## 1) One-Hot Encoding (**OHE**)
**O que √©:** cria uma coluna bin√°ria (0/1) para **cada categoria** observada em cada coluna categ√≥rica.  
**Por que usar:** n√£o imp√µe ordem fict√≠cia e funciona bem com muitos modelos.  
**Cuidado:** pode **aumentar muito** o n√∫mero de colunas se houver **muitas categorias √∫nicas**.


In [None]:

# One-Hot com scikit-learn (sem treinar modelo)
ohe = OneHotEncoder(sparse_output=False, handle_unknown='ignore')
ohe_array = ohe.fit_transform(df[['cor','tamanho','material']])
ohe_cols = ohe.get_feature_names_out(['cor','tamanho','material'])

df_ohe = pd.DataFrame(ohe_array, columns=ohe_cols, index=df.index)
display(df_ohe)
print('Colunas geradas (OHE):')
print(list(df_ohe.columns))


Unnamed: 0,cor_azul,cor_verde,cor_vermelho,tamanho_G,tamanho_M,tamanho_P,material_algodao,material_l√£,material_sintetico
0,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
1,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0
2,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0
3,1.0,0.0,0.0,0.0,0.0,1.0,1.0,0.0,0.0
4,0.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,1.0
5,0.0,1.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0


Colunas geradas (OHE):
['cor_azul', 'cor_verde', 'cor_vermelho', 'tamanho_G', 'tamanho_M', 'tamanho_P', 'material_algodao', 'material_l√£', 'material_sintetico']



**Como interpretar o resultado:**  
- Se `cor=azul`, a linha ter√° `cor_azul=1` e `cor_verde=0`, `cor_vermelho=0`.  
- Para `tamanho`, surgem colunas `tamanho_G`, `tamanho_M`, `tamanho_P`; a linha ativa apenas **uma** delas.  
- Para `material`, surgem `material_algodao`, `material_l√£`, `material_sintetico`.

**Pergunta‚Äëcheque (responda mentalmente):**  
1. Se uma linha tiver `cor=vermelho`, quais colunas de `cor_...` ficam em 1 e 0?



---
## 2) Ordinal Encoding (**OE**)
**O que √©:** mapeia cada categoria para um **inteiro** (0,1,2, ‚Ä¶).  
**Quando usar:** quando existe **ordem natural** entre categorias (ex.: P < M < G).  
**Risco:** em vari√°veis **nominais** (sem ordem), cria **ordem artificial** que pode induzir vieses.


In [None]:

# Ordinal simples (apenas exemplo). Aqui N√ÉO definimos uma ordem sem√¢ntica manualmente.
oe = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
oe_array = oe.fit_transform(df[['cor','tamanho','material']])

df_oe = pd.DataFrame(oe_array, columns=['cor_ord','tamanho_ord','material_ord'], index=df.index)
display(df_oe)

print('Categorias aprendidas pelo OE (na ordem que o encoder viu no fit):')
for col, cats in zip(['cor','tamanho','material'], oe.categories_):
    print(f'{col}: {list(cats)} -> √≠ndices 0..{len(cats)-1}')


Unnamed: 0,cor_ord,tamanho_ord,material_ord
0,0.0,2.0,0.0
1,1.0,1.0,1.0
2,2.0,0.0,2.0
3,0.0,2.0,0.0
4,2.0,0.0,2.0
5,1.0,1.0,1.0


Categorias aprendidas pelo OE (na ordem que o encoder viu no fit):
cor: ['azul', 'verde', 'vermelho'] -> √≠ndices 0..2
tamanho: ['G', 'M', 'P'] -> √≠ndices 0..2
material: ['algodao', 'l√£', 'sintetico'] -> √≠ndices 0..2



**Como interpretar o resultado:**  
- `tamanho_ord` pode ser lido como um **ranqueamento** (ex.: P=0, M=1, G=2).  
- J√° para `cor` e `material` **n√£o h√° ordem natural**. A codifica√ß√£o num√©rica pode levar modelos a "achar" que `vermelho > verde > azul`.

**Pergunta‚Äëcheque:**  
2. Em qual(is) coluna(s) deste dataset o **Ordinal** faz sentido, e por qu√™?


**Resposta:** apenas a coluna Tamanho faz sentido porque h√° uma ordem natural entre as categorias de p,m,g.


---
## 3) Frequency Encoding (**FE**) ‚Äî manual, passo a passo
**O que √©:** substitui cada categoria pela sua **frequ√™ncia relativa** na coluna.  
**Por que usar:** simples, funciona bem com **muitas categorias**.  
**Cuidado:** se voc√™ calcular a frequ√™ncia usando **todo o dataset** e avaliar no mesmo, pode ocorrer **data leakage**.


In [None]:

# Implementa√ß√£o manual SEM fun√ß√µes
df_freq = df.copy()

for c in df_freq.columns:
    freq_map = df_freq[c].value_counts(normalize=True)  # frequ√™ncia por categoria (0..1)
    df_freq[c] = df_freq[c].map(freq_map).fillna(0.0)

display(df_freq)

print('Interpreta√ß√£o do exemplo:')
for c in df.columns:
    freq_map = df[c].value_counts(normalize=True)
    print(f'Coluna {c} -> frequ√™ncias: {freq_map.to_dict()}')


Unnamed: 0,cor,tamanho,material
0,0.333333,0.333333,0.333333
1,0.333333,0.333333,0.333333
2,0.333333,0.333333,0.333333
3,0.333333,0.333333,0.333333
4,0.333333,0.333333,0.333333
5,0.333333,0.333333,0.333333


Interpreta√ß√£o do exemplo:
Coluna cor -> frequ√™ncias: {'azul': 0.3333333333333333, 'verde': 0.3333333333333333, 'vermelho': 0.3333333333333333}
Coluna tamanho -> frequ√™ncias: {'P': 0.3333333333333333, 'M': 0.3333333333333333, 'G': 0.3333333333333333}
Coluna material -> frequ√™ncias: {'algodao': 0.3333333333333333, 'l√£': 0.3333333333333333, 'sintetico': 0.3333333333333333}



**Como interpretar o resultado:**  
- Se `azul` aparece em 2/6 linhas, `cor=azul` vira `0.3333`.  
- Itens **raros** recebem valores menores; **comuns**, valores maiores.

**Pergunta‚Äëcheque:**  
3. Se `material=algodao` aparece em 2 de 6 linhas, qual valor num√©rico voc√™ espera ap√≥s o FE?


**Resposta:** esperaro o valor num√©rico 0.3333 para as linhas onde material √© algodao


---
## 4) Target Mean Encoding (**TME**) ‚Äî manual e did√°tico
**O que √©:** substitui a categoria pela **m√©dia do alvo** (\(\bar y\)) observada para aquela categoria.  
**Por que usar:** injeta informa√ß√£o **direta** da rela√ß√£o categoria ‚Üí alvo.  
**Risco cr√≠tico:** **overfitting**/**leakage** se a m√©dia for calculada com dados que o modelo n√£o deveria "ver". Em pr√°tica, faz‚Äëse por *fold* no treino, com *smoothing*.


In [None]:

# Vamos criar um alvo did√°tico y (0/1) apenas para ilustrar o c√°lculo do TME
y = pd.Series([0, 1, 1, 0, 1, 0], name='y')

df_tmean = df.copy()
for c in df_tmean.columns:
    means = y.groupby(df_tmean[c]).mean()    # m√©dia de y por categoria dessa coluna
    df_tmean[c] = df_tmean[c].map(means).fillna(y.mean())

display(pd.concat([df, y, df_tmean.add_prefix('tmean_')], axis=1))


Unnamed: 0,cor,tamanho,material,y,tmean_cor,tmean_tamanho,tmean_material
0,azul,P,algodao,0,0.0,0.0,0.0
1,verde,M,l√£,1,0.5,0.5,0.5
2,vermelho,G,sintetico,1,1.0,1.0,1.0
3,azul,P,algodao,0,0.0,0.0,0.0
4,vermelho,G,sintetico,1,1.0,1.0,1.0
5,verde,M,l√£,0,0.5,0.5,0.5



**Como interpretar o resultado:**  
- Se, no nosso `y` did√°tico, itens `material=algodao` t√™m m√©dia 0.5 e `material=l√£` t√™m 1.0, ent√£o `tmean_material` vira 0.5 ou 1.0 conforme a categoria da linha.  
- Esses valores **j√°** carregam sinal do alvo ‚Äî √≥timo para alguns modelos, mas **perigoso** se calculado de forma ing√™nua.

**Pergunta‚Äëcheque:**  
4. Por que o TME √© especialmente suscet√≠vel a *data leakage*? Qual seria uma pr√°tica correta para evit√°‚Äëlo?


**Resposta:** O Target Mean Encoding √© suscet√≠vel a data leakage porque ele usa a m√©dia do alvo (y) para substituir as categorias. Se voc√™ calcular essa m√©dia usando todo o dataset (conjuntos de treino e teste juntos), o modelo ter√° acesso a informa√ß√µes do conjunto de teste durante a fase de treinamento atrav√©s dos valores codificados. Isso faz com que o modelo pare√ßa ter um desempenho melhor do que realmente teria em dados n√£o vistos.

Uma pr√°tica correta para evitar o data leakage com TME seria:
Dividir os dados em conjuntos de treino e teste antes de aplicar o TME.


---
## 5) Misturando encoders por coluna com `ColumnTransformer` (somente transforma√ß√£o)
Ex.: aplicar **One-Hot** em `cor` e `material` (nominais) e **Ordinal** em `tamanho` (ordinal).


In [None]:

cols_ohe = ['cor', 'material']
cols_ord = ['tamanho']

ct = ColumnTransformer([
    ('ohe', OneHotEncoder(sparse_output=False, handle_unknown='ignore'), cols_ohe),
    ('ord', OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1), cols_ord)
], remainder='drop')

arr = ct.fit_transform(df)
col_names = list(ct.named_transformers_['ohe'].get_feature_names_out(cols_ohe)) + ['tamanho_ord']

df_mix = pd.DataFrame(arr, columns=col_names, index=df.index)
display(df_mix)
print('Colunas finais (mix OHE + OE):', list(df_mix.columns))


Unnamed: 0,cor_azul,cor_verde,cor_vermelho,material_algodao,material_l√£,material_sintetico,tamanho_ord
0,1.0,0.0,0.0,1.0,0.0,0.0,2.0
1,0.0,1.0,0.0,0.0,1.0,0.0,1.0
2,0.0,0.0,1.0,0.0,0.0,1.0,0.0
3,1.0,0.0,0.0,1.0,0.0,0.0,2.0
4,0.0,0.0,1.0,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0,1.0,0.0,1.0


Colunas finais (mix OHE + OE): ['cor_azul', 'cor_verde', 'cor_vermelho', 'material_algodao', 'material_l√£', 'material_sintetico', 'tamanho_ord']



---
## ‚úÖ Recap ‚Äî quando usar qual encoding?
- **One-Hot**: padr√£o seguro para vari√°veis **nominais**; aten√ß√£o √† **dimensionalidade**.  
- **Ordinal**: apenas quando h√° **ordem natural** comprovada (ex.: P < M < G).  
- **Frequ√™ncia**: √∫til em **alta cardinalidade**; cuidado com *leakage*.  
- **Target Mean**: poderoso, mas **suscet√≠vel a leakage**; use **dentro do treino por fold** e com *smoothing*.

> **Dica pr√°tica**: em projetos reais, integre *encoders* a **Pipelines** (com valida√ß√£o correta) antes de avaliar modelos.



---
## üìù Mini‚Äëexerc√≠cios (responda no pr√≥prio notebook)

1. **Explique** com suas palavras por que o One‚ÄëHot **n√£o** imp√µe ordem entre categorias.  
2. No nosso dataset, substitua manualmente a ordem de `tamanho` para refletir `P < M < G` **antes** de aplicar o `OrdinalEncoder`. Mostre o resultado.  
3. Recrie o **Frequency Encoding** **apenas** para a coluna `cor` e explique o que muda se adicionarmos mais linhas com `vermelho`.  
4. No TME, imagine que `y` √© altamente desequilibrado. **O que aconteceria** com as m√©dias por categoria? D√™ um exemplo com duas categorias e proponha uma **mitiga√ß√£o**.
5. Analise abaixo o dataset Mushroom do Kaggle (https://www.kaggle.com/datasets/uciml/mushroom-classification) aplicando o conceito de Encoding.

> Dica: adicione c√©lulas abaixo desta se√ß√£o para suas respostas/c√≥digos.


1.  n√£o imp√µe uma ordem entre as categorias porque ele transforma cada categoria em uma coluna bin√°ria separada o One-Hot cria uma nova coluna para cada valor √∫nico da vari√°vel original

2.

In [None]:
tamanho_order = ['P', 'M', 'G']

oe = OrdinalEncoder(handle_unknown='use_encoded_value', unknown_value=-1)
oe.fit(df[['cor','tamanho','material']])

oe_ordered = OrdinalEncoder(categories=[oe.categories_[0], tamanho_order, oe.categories_[2]],
                            handle_unknown='use_encoded_value',
                            unknown_value=-1)

oe_ordered_array = oe_ordered.fit_transform(df[['cor','tamanho','material']])

df_oe_ordered = pd.DataFrame(oe_ordered_array, columns=['cor_ord','tamanho_ord','material_ord'], index=df.index)
display(df_oe_ordered)

print('Categorias aprendidas pelo OE (com ordem especificada para tamanho):')
for col, cats in zip(['cor','tamanho','material'], oe_ordered.categories_):
    print(f'{col}: {list(cats)} -> √≠ndices 0..{len(cats)-1}')

Unnamed: 0,cor_ord,tamanho_ord,material_ord
0,0.0,0.0,0.0
1,1.0,1.0,1.0
2,2.0,2.0,2.0
3,0.0,0.0,0.0
4,2.0,2.0,2.0
5,1.0,1.0,1.0


Categorias aprendidas pelo OE (com ordem especificada para tamanho):
cor: ['azul', 'verde', 'vermelho'] -> √≠ndices 0..2
tamanho: ['P', 'M', 'G'] -> √≠ndices 0..2
material: ['algodao', 'l√£', 'sintetico'] -> √≠ndices 0..2


# 3.

In [None]:
# Recriando o Frequency Encoding apenas para a coluna 'cor'
df_freq_cor = df.copy()

freq_map_cor = df_freq_cor['cor'].value_counts(normalize=True)  # frequ√™ncia por categoria (0..1)
df_freq_cor['cor_freq'] = df_freq_cor['cor'].map(freq_map_cor).fillna(0.0)

display(df_freq_cor[['cor', 'cor_freq']])

print('Frequ√™ncias originais para a coluna "cor":')
print(freq_map_cor.to_dict())

**Explica√ß√£o sobre a adi√ß√£o de mais linhas com 'vermelho':**

Se adicionarmos mais linhas com a cor 'vermelho' ao dataset **original** e ent√£o aplicarmos o Frequency Encoding na coluna 'cor' **novamente**, as frequ√™ncias relativas mudar√£o.

Especificamente a frequ√™ncia da categoria vermelho aumentar√° e as frequ√™ncias das categorias azul e verde diminuir√£o, pois o n√∫mero total de linhas no dataset aumentou, mas a contagem de 'azul' e 'verde' permaneceu a mesma.

Isso demonstra como o Frequency Encoding reflete a distribui√ß√£o das categorias nos dados. Categorias que aparecem com mais frequ√™ncia receber√£o valores codificados maiores, e categorias menos frequentes receber√£o valores menores.

# 4.

Quando o alvo (y) √© muito desequilibrado, o TME para categorias com poucas ocorr√™ncias pode ser muito influenciado por essas poucas observa√ß√µes, tornando o valor codificado menos confi√°vel e podendo levar a overfitting.

Para mitigar: Usar o smoothing (suaviza√ß√£o). O smoothing mistura a m√©dia da categoria com a m√©dia global do alvo, dando mais peso √† m√©dia global para categorias com poucas amostras. Isso torna os valores codificados mais est√°veis e menos suscet√≠veis a flutua√ß√µes em categorias raras, especialmente quando o alvo √© desequilibrado.