In [None]:
#Questão 5 
#Considerando A tabela vetorizada com One-Hot Encoding
# Sim : 1
# Não : 0

import pandas as pd

caminho_entrada = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset.csv'
caminho_saida = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_one_hot.csv'

df = pd.read_csv(caminho_entrada)

# Aplicar One-Hot Encoding nas colunas categóricas (exceto 'Dia' e 'Jogar Tênis')
df_one_hot = pd.get_dummies(df.drop(columns=['Dia', 'Jogar Tênis']), prefix_sep='=', dtype=int)

df_one_hot['Jogar_Tênis'] = df['Jogar Tênis'].map({'Sim': 1, 'Não': 0})

df_one_hot.to_csv(caminho_saida, index=False)

print(f"Arquivo salvo com sucesso em: {caminho_saida}")


Arquivo salvo com sucesso em: C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_one_hot.csv


In [None]:
#Questão 6
caminho_saida = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_dummy.csv'
df_dummy = pd.get_dummies(df.drop(columns=['Dia', 'Jogar Tênis']), drop_first=True, prefix_sep='=', dtype=int)
# Adicionar a variável de saída convertida para numérica (0 = Não, 1 = Sim)
df_dummy['Jogar_Tênis'] = df['Jogar Tênis'].map({'Sim': 1, 'Não': 0})

# Salvar o resultado em CSV
df_dummy.to_csv(caminho_saida, index=False)

print(f"Arquivo salvo com sucesso em: {caminho_saida}")


Arquivo salvo com sucesso em: C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_dummy.csv


In [3]:
caminho_saida = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_effect.csv'
colunas_categoricas = ['Aspecto', 'Temp.', 'Humidade', 'Vento']
df_effect = pd.DataFrame()

# Aplica Effect Encoding para cada coluna categórica
for coluna in colunas_categoricas:
    categorias = df[coluna].unique()
    referencia = categorias[-1]  # última categoria é a referência (-1)
    for cat in categorias[:-1]:  # ignora a última
        nova_coluna = f"{coluna}={cat}"
        df_effect[nova_coluna] = df[coluna].apply(lambda x: 1 if x == cat else (-1 if x == referencia else 0))

# Adiciona a variável de saída binária
df_effect['Jogar_Tênis'] = df['Jogar Tênis'].map({'Sim': 1, 'Não': 0})

# Salva o novo dataset
df_effect.to_csv(caminho_saida, index=False)

print(f"Arquivo salvo com sucesso em: {caminho_saida}")

Arquivo salvo com sucesso em: C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset_effect.csv


## 📊 Tabela Comparativa: Técnicas de Codificação Categórica

| Critério                       | One-Hot Encoding                                                | Dummy Encoding                                                   | Effect Encoding (Contraste de Soma)                                      |
|-------------------------------|------------------------------------------------------------------|------------------------------------------------------------------|---------------------------------------------------------------------------|
| Nº de colunas criadas         | Igual ao nº de categorias                                       | Nº de categorias menos 1                                         | Nº de categorias menos 1                                                 |
| Coluna de referência          | Nenhuma (todas as categorias representadas)                     | Sim (a primeira categoria é excluída por padrão)                 | Sim (a última categoria é referência e representada por -1)              |
| Valores atribuídos            | 0 ou 1                                                          | 0 ou 1                                                           | 1, 0, ou -1                                                               |
| Interpretação estatística     | Fácil para algoritmos preditivos, mas redundante                | Remove multicolinearidade para regressões lineares              | Coeficientes representam diferença em relação à média global             |
| Multicolinearidade            | Sim (colunas somam 1 por linha)                                 | Não                                                              | Não                                                                       |
| Indicado para                 | Modelos de árvore, redes neurais, etc.                          | Modelos lineares (regressão, etc.)                               | Análises estatísticas com interpretação centrada (ex: ANOVA, regressão)  |
| Complexidade interpretativa   | Baixa                                                           | Média                                                            | Alta (requer conhecimento estatístico sobre contrastes e médias)         |

### Analise Geral

One-Hot Encoding é a técnica mais direta e amplamente usada. 
Cria colunas binárias independentes para cada categoria. 
É ideal para algoritmos que não assumem independência linear entre variáveis, como árvores de decisão e redes neurais. 
Porém, introduz multicolinearidade, o que pode ser um problema em modelos lineares.

Dummy Encoding é semelhante ao One-Hot, mas remove uma coluna por variável, eliminando a multicolinearidade. 
É especialmente útil em regressão linear e logística, onde redundância afeta os coeficientes e seus testes estatísticos.

Effect Encoding é menos comum, mas muito poderoso em análises estatísticas. 
Ao invés de comparar cada categoria com uma referência arbitrária, compara com a média geral, permitindo interpretar os coeficientes como desvios em relação ao efeito médio. 
É usada principalmente em contextos de modelagem interpretativa, como ANOVA, regressão com contrastes, etc.

#Questão 10 

## ⚠️ Possíveis Desvantagens da Vetorização de Variáveis Categóricas

A vetorização de variáveis categóricas é uma etapa essencial na preparação de dados para algoritmos de aprendizado de máquina. No entanto, cada método possui limitações que podem impactar o desempenho do modelo ou a interpretação dos resultados:

---

### 🔹 One-Hot Encoding

- **Alta dimensionalidade:** Para variáveis com muitas categorias, o número de colunas cresce significativamente, aumentando o custo computacional e a complexidade do modelo.
- **Multicolinearidade:** As colunas criadas são linearmente dependentes (somam 1 em cada linha), o que prejudica modelos lineares e estatísticos clássicos (como regressões).
- **Desinformação contextual:** Cada categoria é tratada como independente, ignorando possíveis relações ou ordens entre elas.

---

### 🔹 Dummy Encoding

- **Perda de referência explícita:** Uma das categorias é excluída, o que pode dificultar a interpretação direta dos coeficientes.
- **Ainda assume independência entre categorias:** Relações implícitas ou ordens (ex: `baixo`, `médio`, `alto`) não são representadas.
- **Interpretação comparativa:** Coeficientes representam o efeito em relação à categoria omitida, o que exige atenção na análise estatística.

---

### 🔹 Effect Encoding (Contraste de Soma)

- **Complexidade interpretativa:** Os coeficientes indicam o desvio em relação à média global da variável, o que pode confundir analistas não familiarizados com modelos explicativos.
- **Sensível à escolha da categoria de referência:** Embora todos os efeitos sejam centrados, a categoria omitida (representada indiretamente com -1) pode influenciar a forma como o modelo é interpretado.
- **Pouco usado em frameworks de machine learning:** É mais comum em contextos estatísticos, o que pode dificultar a implementação com bibliotecas padrão de ML.

---

### ✅ Considerações Finais

A escolha da técnica de vetorização deve considerar:
- O tipo de modelo a ser utilizado (exploratório, estatístico ou preditivo).
- A interpretabilidade desejada.
- A quantidade e natureza das categorias.

Ignorar essas limitações pode levar a modelos com baixo desempenho, dificuldades interpretativas ou inferências equivocadas.
