In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

class DataPrep:
  def __init__(self, data):
    """Insatancia a classe com o conjunto de dados que precisa ser processado."""
    self.data= data

  @staticmethod
  def _one_hot_encoder(
    df: pd.DataFrame,
    variavel: str) -> pd.DataFrame:
    """Transforma uma variável categórica utilizando One Hot Encoder."""
    dummies= pd.get_dummies(df[variavel], prefix= variavel)
    df= pd.concat([df, dummies], axis= 1)
    df.drop(columns= variavel, inplace= True)
    return df

  def _tratar_variaveis_categoricas(self) -> None:
    """Usar One Hot Encoder para tratar as variáveis categóricas"""
    self.data= DataPrep._one_hot_encoder(
        self.data, "Warehouse_block")

    self.data= DataPrep._one_hot_encoder(
        self.data, "Mode_of_Shipment")

    self.data= DataPrep._one_hot_encoder(
        self.data, "Product_importance")

    self.data= DataPrep._one_hot_encoder(
        self.data, "Gender")

  def _remover_variaveis(self) -> None:
    """Remove as variáveis que não serão utilizadas pelo modelo."""
    self.data.drop(columns= "ID", inplace= True)

  def _dimensionar_dados(self) -> None:
    variaveis = self.data.drop(columns='Reached.on.Time_Y.N')
    var_cols = variaveis.columns
    resposta = self.data['Reached.on.Time_Y.N']

    scaler = MinMaxScaler()
    variaveis = scaler.fit_transform(variaveis)
    variaveis = pd.DataFrame(variaveis, columns=var_cols)

    self.data = pd.concat([variaveis, resposta], axis=1)

  def _separar_treino_teste(self):
    """Divide o dataset em conjunto de treino e teste."""
    treino, teste= train_test_split(
        self.data,
        test_size= 0.3,
        random_state= 2021)
    return treino, teste

  def preparar_dados(self):
    """Aplica todas as transformações de dados."""
    self._tratar_variaveis_categoricas()
    self._remover_variaveis()
    self._dimensionar_dados()
    treino, teste= self._separar_treino_teste()
    return treino, teste