# Exercício 5

In [7]:
# Importação
import pandas as pd
from sklearn.feature_extraction import FeatureHasher

In [2]:
# Criando o dataset
dados = {
    'Dia': ['D1','D2','D3','D4','D5','D6','D7','D8','D9','D10','D11','D12','D13','D14'],
    'Aspecto': ['Sol','Sol','Nuves','Chuva','Chuva','Chuva','Nuvens','Sol','Sol','Chuva','Sol','Nuvens','Nuvens','Chuva'],
    'Temperatura': ['Quente','Quente','Quente','Ameno','Fresco','Fresco','Fresco','Ameno','Fresco','Ameno','Ameno','Ameno','Quente','Ameno'],
    'Humanidade': ['Elevada','Elevada','Elevada','Elevada','Normal','Normal','Normal','Elevada','Normal','Normal','Normal','Elevada','Normal','Elevada'],
    'Vento': ['Fraco','Forte','Fraco','Fraco','Fraco','Forte','Fraco','Fraco','Fraco','Forte','Forte','Forte','Fraco','Forte'],
    'Jogar_Tenis': ['Não','Não','Sim','Sim','Sim','Não','Sim','Não','Sim','Sim','Sim','Sim','Sim','Não']
}

df = pd.DataFrame(dados)

In [3]:
# Removendo a coluna Dia
df = df.drop('Dia', axis=1)

In [4]:
# Aplicando o One-Hot Encoding nas variáveis categóricas (exceto a variável alvo)
df_onehot = pd.get_dummies(df, columns=['Aspecto', 'Temperatura', 'Humanidade', 'Vento'])

# Exibindo o resultado
print(df_onehot)

   Jogar_Tenis  Aspecto_Chuva  Aspecto_Nuvens  Aspecto_Nuves  Aspecto_Sol  \
0          Não          False           False          False         True   
1          Não          False           False          False         True   
2          Sim          False           False           True        False   
3          Sim           True           False          False        False   
4          Sim           True           False          False        False   
5          Não           True           False          False        False   
6          Sim          False            True          False        False   
7          Não          False           False          False         True   
8          Sim          False           False          False         True   
9          Sim           True           False          False        False   
10         Sim          False           False          False         True   
11         Sim          False            True          False        False   

# Exercício 6

In [5]:
# Aplicando Dummy Encoding
df_dummy = pd.get_dummies(df, columns=['Aspecto', 'Temperatura', 'Humanidade', 'Vento'], drop_first=True)

# Exibindo o resultado
print(df_dummy)

   Jogar_Tenis  Aspecto_Nuvens  Aspecto_Nuves  Aspecto_Sol  \
0          Não           False          False         True   
1          Não           False          False         True   
2          Sim           False           True        False   
3          Sim           False          False        False   
4          Sim           False          False        False   
5          Não           False          False        False   
6          Sim            True          False        False   
7          Não           False          False         True   
8          Sim           False          False         True   
9          Sim           False          False        False   
10         Sim           False          False         True   
11         Sim            True          False        False   
12         Sim            True          False        False   
13         Não           False          False        False   

    Temperatura_Fresco  Temperatura_Quente  Humanidade_Normal  Vento_

# Exercício 7

In [6]:
# Separar variável alvo
y = df['Jogar_Tenis']
X = df.drop('Jogar_Tenis', axis=1)

# Função para aplicar Effect Encoding
def effect_encode(df, col):
    dummies = pd.get_dummies(df[col])
    dummies = dummies.iloc[:, :-1]  # Remove a última categoria
    dummies = dummies.apply(lambda x: x.replace(0, -1))  # Substitui 0 por -1
    dummies.columns = [f'{col}_{cat}' for cat in dummies.columns]
    return dummies

# Aplicar Effect Encoding às colunas categóricas
efeitos = pd.concat([
    effect_encode(X, 'Aspecto'),
    effect_encode(X, 'Temperatura'),
    effect_encode(X, 'Humanidade'),
    effect_encode(X, 'Vento')
], axis=1)

# Exibir resultado
efeitos.head()

Unnamed: 0,Aspecto_Chuva,Aspecto_Nuvens,Aspecto_Nuves,Temperatura_Ameno,Temperatura_Fresco,Humanidade_Elevada,Vento_Forte
0,False,False,False,False,False,True,False
1,False,False,False,False,False,True,True
2,False,False,True,False,False,True,False
3,True,False,False,True,False,True,False
4,True,False,False,False,True,False,False


# Exercício 11

In [8]:
# Transformação das colunas categóricas em um dicionário
features = df.to_dict(orient='records')

# Criar o FeatureHasher
hasher = FeatureHasher(n_features=8, input_type='string')

# Criando uma lista de strings combinando nome e valor para cada coluna
features_hashed = []
for item in features:
    hashed_features = [f"{key}={value}" for key, value in item.items()]
    features_hashed.append(hashed_features)

# FeatureHasher
X_hashed = hasher.transform(features_hashed)

# Resultado
print(X_hashed.toarray())

[[ 0. -1. -1.  0. -2.  0.  0. -1.]
 [ 0. -1. -1.  0. -1.  0.  1. -1.]
 [ 0.  0.  1.  0. -2.  0.  0.  0.]
 [ 0.  0.  0.  0. -1.  0.  0.  0.]
 [ 0. -1.  1.  0. -1.  0.  0.  2.]
 [ 0. -2.  1.  0.  0.  0.  1.  1.]
 [ 0. -1.  1.  0. -1.  1.  0.  1.]
 [ 0. -1. -1.  0. -1.  0.  0. -2.]
 [ 0. -1.  0.  0. -1.  0.  0.  1.]
 [ 0.  0.  1.  0.  0.  0.  1.  1.]
 [ 0.  0.  0.  0.  0.  0.  1.  0.]
 [ 0.  0.  0.  0.  0.  1.  1. -1.]
 [ 0.  0.  1.  0. -2.  1.  0.  1.]
 [ 0. -1.  0.  0.  0.  0.  1. -1.]]


# Exercício 12

In [9]:
# Contagem das categorias para cada coluna
aspecto_counts = df['Aspecto'].value_counts()
temperatura_counts = df['Temperatura'].value_counts()
humanidade_counts = df['Humanidade'].value_counts()
vento_counts = df['Vento'].value_counts()

# Função para mapear a contagem em cada categoria
def bin_count_encoding(column, counts):
    return column.map(counts)

# Aplicando a contagem nos dados
df['Aspecto_bin_count'] = bin_count_encoding(df['Aspecto'], aspecto_counts)
df['Temperatura_bin_count'] = bin_count_encoding(df['Temperatura'], temperatura_counts)
df['Humanidade_bin_count'] = bin_count_encoding(df['Humanidade'], humanidade_counts)
df['Vento_bin_count'] = bin_count_encoding(df['Vento'], vento_counts)

print(df[['Aspecto', 'Aspecto_bin_count', 'Temperatura', 'Temperatura_bin_count', 
          'Humanidade', 'Humanidade_bin_count', 'Vento', 'Vento_bin_count']])

   Aspecto  Aspecto_bin_count Temperatura  Temperatura_bin_count Humanidade  \
0      Sol                  5      Quente                      4    Elevada   
1      Sol                  5      Quente                      4    Elevada   
2    Nuves                  1      Quente                      4    Elevada   
3    Chuva                  5       Ameno                      6    Elevada   
4    Chuva                  5      Fresco                      4     Normal   
5    Chuva                  5      Fresco                      4     Normal   
6   Nuvens                  3      Fresco                      4     Normal   
7      Sol                  5       Ameno                      6    Elevada   
8      Sol                  5      Fresco                      4     Normal   
9    Chuva                  5       Ameno                      6     Normal   
10     Sol                  5       Ameno                      6     Normal   
11  Nuvens                  3       Ameno           