## O que é Feature Hashing?

Feature Hashing (também conhecido como Hashing Trick) é uma técnica que transforma variáveis categóricas em vetores numéricos usando uma função de hash para mapear os valores diretamente para índices de um vetor de tamanho fixo.
## Características:

Evita alta dimensionalidade de One-Hot Encoding em variáveis com muitas categorias.

Não requer armazenar nomes de categorias, pois usa apenas a função hash.

Pode haver colisões (duas categorias diferentes caindo no mesmo índice), mas isso é aceitável em muitos contextos.

In [3]:
#Questão 11

import pandas as pd
from sklearn.feature_extraction import FeatureHasher

# Caminho do arquivo original
caminho_entrada = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset.csv'

# Leitura do dataset
df = pd.read_csv(caminho_entrada)

# Seleção das colunas categóricas (excluindo 'Dia' e 'Jogar Tênis')
colunas_categoricas = ['Aspecto', 'Temp.', 'Humidade', 'Vento']

# Criação de um dicionário por linha (necessário para FeatureHasher)
dados_dict = df[colunas_categoricas].astype(str).to_dict(orient='records')

# Inicializa o FeatureHasher com número fixo de features (ex: 10)
hasher = FeatureHasher(n_features=10, input_type='dict')
X_hashed = hasher.fit_transform(dados_dict)

# Converte para DataFrame
df_hashed = pd.DataFrame(X_hashed.toarray())
df_hashed['Jogar_Tênis'] = df['Jogar Tênis'].map({'Sim': 1, 'Não': 0})

# Exibir as 5 primeiras linhas
print(df_hashed.head())


     0    1    2    3    4    5    6    7    8    9  Jogar_Tênis
0  0.0  0.0  1.0  0.0 -1.0  0.0 -1.0  0.0  0.0 -1.0            0
1  0.0  0.0  1.0  0.0 -1.0  0.0  1.0  0.0  0.0 -1.0            0
2  0.0  0.0  1.0  0.0  0.0  1.0 -1.0  0.0  0.0 -1.0            1
3  0.0  2.0  0.0  0.0  0.0  0.0 -1.0  0.0  0.0 -1.0            1
4  0.0  1.0  0.0  0.0 -1.0  0.0 -1.0  0.0  0.0  1.0            1



## 📊 Técnica de Codificação: Bin Counting

### 📌 Bin Counting

Consiste em uma técnica de codificação de variáveis categóricas baseada em contagem. Ela transforma valores categóricos em números inteiros, substituindo cada categoria pela **frequência com que ela aparece** no conjunto de dados.

---

### ✅ Características:

| Característica        | Descrição                                                                 |
|------------------------|--------------------------------------------------------------------------|
| Simples                | Cada valor categórico vira um número inteiro representando sua frequência. |
| Rápido                 | Boa performance computacional, ideal para variáveis com poucas categorias. |
| Perda de semântica     | Não diferencia entre os valores das categorias, apenas suas contagens.     |
| Pode introduzir viés   | Categorias mais comuns terão maior valor, mesmo que não sejam mais relevantes. |

---

### 💡 Exemplo com `toy_dataset.csv`

Suponha a variável `Aspecto` com os seguintes valores:

- `Sol`: aparece 4 vezes → vira **4**  
- `Chuva`: aparece 5 vezes → vira **5**  
- `Nuvens`: aparece 4 vezes → vira **4**  
- `Fresco`: aparece 1 vez → vira **1**  

---

### 🧪 Quando usar Bin Counting?

| ✅ Útil quando:                          | ❌ Evitar quando:                                |
|-----------------------------------------|--------------------------------------------------|
| Você quer codificar rapidamente         | Há relação semântica importante na categoria     |
| Há poucas categorias distintas          | Frequência não representa importância da classe  |

In [4]:

# Carregar o dataset
df = pd.read_csv(caminho_entrada)

# Colunas categóricas a aplicar bin counting
colunas_categoricas = ['Aspecto', 'Temp.', 'Humidade', 'Vento']

# Aplica Bin Counting (substitui categorias por suas contagens)
df_bin_count = df.copy()
for coluna in colunas_categoricas:
    frequencia = df[coluna].value_counts()
    df_bin_count[coluna + '_bin'] = df[coluna].map(frequencia)

# Mantém a variável alvo como binária
df_bin_count['Jogar_Tênis'] = df['Jogar Tênis'].map({'Sim': 1, 'Não': 0})

# Remove colunas originais categóricas (opcional)
df_bin_count = df_bin_count.drop(columns=colunas_categoricas + ['Dia', 'Jogar Tênis'])

# Visualizar resultado
print(df_bin_count.head())


   Aspecto_bin  Temp._bin  Humidade_bin  Vento_bin  Jogar_Tênis
0            4          4             8          9            0
1            4          4             8          5            0
2            4          4             8          9            1
3            5          6             8          9            1
4            5          4             6          9            1
