## O que √© Feature Hashing?

Feature Hashing (tamb√©m conhecido como Hashing Trick) √© uma t√©cnica que transforma vari√°veis categ√≥ricas em vetores num√©ricos usando uma fun√ß√£o de hash para mapear os valores diretamente para √≠ndices de um vetor de tamanho fixo.
## Caracter√≠sticas:

Evita alta dimensionalidade de One-Hot Encoding em vari√°veis com muitas categorias.

N√£o requer armazenar nomes de categorias, pois usa apenas a fun√ß√£o hash.

Pode haver colis√µes (duas categorias diferentes caindo no mesmo √≠ndice), mas isso √© aceit√°vel em muitos contextos.

In [3]:
#Quest√£o 11

import pandas as pd
from sklearn.feature_extraction import FeatureHasher

# Caminho do arquivo original
caminho_entrada = r'C:\Faculdade\FeatureAndML\FeatureEngineering_tp3\toy_dataset.csv'

# Leitura do dataset
df = pd.read_csv(caminho_entrada)

# Sele√ß√£o das colunas categ√≥ricas (excluindo 'Dia' e 'Jogar T√™nis')
colunas_categoricas = ['Aspecto', 'Temp.', 'Humidade', 'Vento']

# Cria√ß√£o de um dicion√°rio por linha (necess√°rio para FeatureHasher)
dados_dict = df[colunas_categoricas].astype(str).to_dict(orient='records')

# Inicializa o FeatureHasher com n√∫mero fixo de features (ex: 10)
hasher = FeatureHasher(n_features=10, input_type='dict')
X_hashed = hasher.fit_transform(dados_dict)

# Converte para DataFrame
df_hashed = pd.DataFrame(X_hashed.toarray())
df_hashed['Jogar_T√™nis'] = df['Jogar T√™nis'].map({'Sim': 1, 'N√£o': 0})

# Exibir as 5 primeiras linhas
print(df_hashed.head())


     0    1    2    3    4    5    6    7    8    9  Jogar_T√™nis
0  0.0  0.0  1.0  0.0 -1.0  0.0 -1.0  0.0  0.0 -1.0            0
1  0.0  0.0  1.0  0.0 -1.0  0.0  1.0  0.0  0.0 -1.0            0
2  0.0  0.0  1.0  0.0  0.0  1.0 -1.0  0.0  0.0 -1.0            1
3  0.0  2.0  0.0  0.0  0.0  0.0 -1.0  0.0  0.0 -1.0            1
4  0.0  1.0  0.0  0.0 -1.0  0.0 -1.0  0.0  0.0  1.0            1



## üìä T√©cnica de Codifica√ß√£o: Bin Counting

### üìå Bin Counting

Consiste em uma t√©cnica de codifica√ß√£o de vari√°veis categ√≥ricas baseada em contagem. Ela transforma valores categ√≥ricos em n√∫meros inteiros, substituindo cada categoria pela **frequ√™ncia com que ela aparece** no conjunto de dados.

---

### ‚úÖ Caracter√≠sticas:

| Caracter√≠stica        | Descri√ß√£o                                                                 |
|------------------------|--------------------------------------------------------------------------|
| Simples                | Cada valor categ√≥rico vira um n√∫mero inteiro representando sua frequ√™ncia. |
| R√°pido                 | Boa performance computacional, ideal para vari√°veis com poucas categorias. |
| Perda de sem√¢ntica     | N√£o diferencia entre os valores das categorias, apenas suas contagens.     |
| Pode introduzir vi√©s   | Categorias mais comuns ter√£o maior valor, mesmo que n√£o sejam mais relevantes. |

---

### üí° Exemplo com `toy_dataset.csv`

Suponha a vari√°vel `Aspecto` com os seguintes valores:

- `Sol`: aparece 4 vezes ‚Üí vira **4**  
- `Chuva`: aparece 5 vezes ‚Üí vira **5**  
- `Nuvens`: aparece 4 vezes ‚Üí vira **4**  
- `Fresco`: aparece 1 vez ‚Üí vira **1**  

---

### üß™ Quando usar Bin Counting?

| ‚úÖ √ötil quando:                          | ‚ùå Evitar quando:                                |
|-----------------------------------------|--------------------------------------------------|
| Voc√™ quer codificar rapidamente         | H√° rela√ß√£o sem√¢ntica importante na categoria     |
| H√° poucas categorias distintas          | Frequ√™ncia n√£o representa import√¢ncia da classe  |

In [4]:

# Carregar o dataset
df = pd.read_csv(caminho_entrada)

# Colunas categ√≥ricas a aplicar bin counting
colunas_categoricas = ['Aspecto', 'Temp.', 'Humidade', 'Vento']

# Aplica Bin Counting (substitui categorias por suas contagens)
df_bin_count = df.copy()
for coluna in colunas_categoricas:
    frequencia = df[coluna].value_counts()
    df_bin_count[coluna + '_bin'] = df[coluna].map(frequencia)

# Mant√©m a vari√°vel alvo como bin√°ria
df_bin_count['Jogar_T√™nis'] = df['Jogar T√™nis'].map({'Sim': 1, 'N√£o': 0})

# Remove colunas originais categ√≥ricas (opcional)
df_bin_count = df_bin_count.drop(columns=colunas_categoricas + ['Dia', 'Jogar T√™nis'])

# Visualizar resultado
print(df_bin_count.head())


   Aspecto_bin  Temp._bin  Humidade_bin  Vento_bin  Jogar_T√™nis
0            4          4             8          9            0
1            4          4             8          5            0
2            4          4             8          9            1
3            5          6             8          9            1
4            5          4             6          9            1
