# Scripts de pré-processamento

In [2]:
import pandas as pd
import numpy as np
from imblearn.under_sampling import TomekLinks
from imblearn.over_sampling import SMOTE
from sklearn.preprocessing import OneHotEncoder

In [3]:
def hybrid_balancing(X: pd.DataFrame, y: pd.Series, tomek: str = 'majority', smote: str = 'not majority') -> pd.DataFrame:
    """
    Retorna um DataFrame com as classes balanceadas das seguinte forma:
    1. Reduz a classe majoritária usando liagacoes de TOMEK (remover instancias que nao adicionam muita informacao).
    2. Equaliza as demais classes usando SMOTE para ficarem com a mesma quantidade de instancias que a classe majoritaria.

    :param X: DataFrame com as variaveis independentes
    :X type: pd.DataFrame
    :param y: Series com a variavel dependente
    :y type: pd.Series
    :param tomek: tipo de undersampling a ser feito pelo TOMEK
    :tomek type: str
    :param smote: tipo de oversampling a ser feito pelo SMOTE
    :smote type: str
    :return: DataFrame transformado
    :rtype: pd.Dataframe
    """
    X_cp = X.copy()
    y_cp = y.copy()
    tl = TomekLinks(sampling_strategy=tomek)
    X_tl, y_tl = tl.fit_resample(X_cp, y_cp)
    sm = SMOTE(sampling_strategy=smote)
    X_tl_sm, y_tl_sm = sm.fit_resample(X_tl, y_tl)
    df_tl_sm = pd.concat([X_tl_sm, y_tl_sm], axis=1)
    return df_tl_sm

In [4]:
def one_hot_encoding(df: pd.DataFrame, cols: list) -> pd.DataFrame:
    """
    Executa o One Hot Encoding em cada coluna fornecida de um DataFrame.

    :param df: DataFrame alvo das transformacoes
    :df type: pd.DataFrame
    :param cols: Lista de colunas que devem ser transformadas
    :cols type: list
    :return: DataFrame transformado
    :rtype: pd.Dataframe
    """
    df_cp = df.copy()
    df_encoded = df.copy()
    encoder = OneHotEncoder()
    for col in cols:
        encoded_data = encoder.fit_transform(df_cp[[col]])
        encoded_cols = pd.DataFrame(encoded_data.toarray(), columns=encoder.get_feature_names_out([col]))
        df_encoded = pd.concat([df_encoded, encoded_cols], axis=1)
    return df_encoded