## Enconding das Variáveis

## 1. Importação de Bibliotecas

In [3]:
import category_encoders as ce
import pandas as pd

## 2. Encoding

In [2]:
def target_encoding(data, columns, target='price'):
    """
    Realiza target encoding nas colunas especificadas e salva a associação
    entre os valores originais e os valores codificados para serem usados posteriormente nos testes do modelo.
    
    Args:
        data (pd.DataFrame): Dataframe de entrada
        columns (list): Colunas para encodar
        target (str): Variável alvo para encoding
    
    Returns:
        pd.DataFrame: Dataframe com colunas encodadas por target
        dict: Dicionário contendo as associações entre valores originais e encodados
    """
    mappings = {}
    
    for col in columns:
        # cria um codificador de target para a coluna
        encoder = ce.TargetEncoder()
        
        # aplica o target encoding e salva o mapeamento dos valores
        encoded_values = encoder.fit_transform(data[col], data[target])
        mappings[col] = dict(zip(data[col], encoded_values[col]))
        
        # substitui a coluna original pelos valores encodados
        data[col] = encoded_values[col]
    
    return data, mappings

---

In [1]:
def one_hot_encoding(data, columns):
    """
    Realiza one-hot encoding nas colunas de menores dimensionalidade e converte 
    as colunas criadas para binário (0 e 1).
    
    Args:
        data (pd.DataFrame): Dataframe de entrada.
        columns (list): Colunas para one-hot encoding.
    
    Returns:
        pd.DataFrame: Dataframe com colunas one-hot encodadas.
    """
    # mantém o índice das colunas antes do encoding
    colunas_originais = set(data.columns)
    
    # aplica get_dummies para criar encodings one-hot
    data = pd.get_dummies(data, columns=columns)
    
    # identifica as novas colunas geradas pelo one-hot encoding
    novas_colunas = list(set(data.columns) - colunas_originais)
    
    # converte as novas colunas para int (binário) pois antes estava saindo em True ou False
    data[novas_colunas] = data[novas_colunas].astype(int)
    
    return data