# Case Neoway - Preprocessamento

In [1]:
import os, sys

sys.path.append('../')
os.chdir('../')

In [2]:
import pandas as pd
import numpy as np

from src.base.commons import load_yaml
from src.base.logger import logging
from src.global_variables import FEATURE_PARAMETERS_FILE, FILEPATHS_FILE, PARAMETERS_FILE

from src.model import preprocessing, data

In [3]:
%config IPCompleter.use_jedi=False

pd.options.display.max_columns = None

### Operações de Preprocessamento

Pela análise exploratória de dados, fo

**Operações de Construção e Remoção de Features**

* [x] Passo 1: converter a coluna `grau` em uma dummy que marca família ou não 
* [x] Passo 2: aplicar one-hot-encode na coluna `Proximidade` excluindo uma das classes
* [x] Passo 3: discretizar a coluna `V1_idade` pela faixa geracional, criando `V1_geracao`
* [x] Passo 5: discretizar a coluna `V2_idade` pela faixa geracional, criando `V2_geracao`
* [x] Passo 8: criar classe `casado_ou_divorciado`
* [x] Passo 9: aplicar one-hot-encode à `V1_estado_civil` com exclusão de uma classe
* [x] Passo 10: remover coluna `V2_estado_civil`
* [x] Passo 11: criar variável dummy para categoria `V1_tem_filhos` a partir da coluna `V1_qt_filhos`
* [x] Passo 13: excluir coluna `V2_qt_filhos`
* [x] Passo 15: desconsiderar a coluna `V2_estuda`
* [x] Passo 17: desconsiderar a coluna `V2_trabalha`
* [x] Passo 19: negligenciar a coluna `V2_pratica_esportes`
* [x] Passo 21: aplicar one-hot-encode na coluna `V1_transporte_mais_utilizado` excluindo uma categoria
* [x] Passo 23: aplicar one-hot-encode na coluna `V2_transporte_mais_utilizado` excluindo uma categoria
* [x] Passo 24: discretizar a coluna `V1_IMC`, criando `V1_IMC_disc`
* [x] Passo 26: discretizar a coluna `V2_IMC`, criando `V2_IMC_disc`

**Operações de Transformação de Features**


* [x] Passo 4: imputar o valor mais frequente na feature `V1_geracao`
* [x] Passo 6: imputar o valor mais frequente na feature `V2_geracao`
* [x] Passo 7: aplicar a imputação de `nao_informado` nos faltantes de  `V1_estado_civil`
* [x] Passo 12: preencher valores faltantes com a moda `V2_estado_civil`
* [x] Passo 14: preencher valores fantantes da coluna `V1_estuda` com o valor mais frequente
* [x] Passo 16: preencher valores faltantes da coluna `V1_trabalha` com o valor mais frequente
* [x] Passo 18: preencher valores faltantes da coluna `V1_pratica_esportes` com o valor mais frequente
* [x] Passo 20: subsituir valores faltantes da coluna `V1_transporte_mais_utilizado` pela moda
* [x] Passo 22: subsituir valores fantantes da coluna `V2_transporte_mais_utilizado` pela moda
* [x] Passo 25: imputar o valor mais frequente na feature `V1_IMC_disc`
* [x] Passo 27: imputar o valor mais frequente na feature `V2_IMC_disc`

Essas operações foram implementadas no module `src.model.preprocessing` e os artefatos das operações são armazenados em `config.feature_parameters`

In [5]:
# Importando endereçamentos
filepaths = load_yaml(FILEPATHS_FILE)

# Dados de treino
logging.info("Importing train and validation interim tables")
data_train = pd.read_parquet(
    os.path.join(
        filepaths["interim_directory_path"],
        "data_train.parquet",
    )
)

# Dados de Validação
data_validation = pd.read_parquet(
    os.path.join(
        filepaths["interim_directory_path"],
        "data_validation.parquet",
    )
)

# Separando as variáveis explicativas da variável resposta
logging.info("Splitting target from features")
X_train = data_train.drop(columns='prob_V1_V2')
y_test = data_train['prob_V1_V2']
X_validation = data_validation.drop(columns='prob_V1_V2')
y_validation = data_validation['prob_V1_V2']

# Aplicando preprocessamento
logging.info("Applying preprocessing transformations")
X_train_transf = preprocessing.transform(X_train)
X_validation_transf = preprocessing.transform(X_validation)

# Persist transformed dataframes
logging.info("Persisting transformed features")
data.persist_processed_table(X_train_transf, "X_train_transf")
data.persist_processed_table(X_validation_transf, "X_validation_transf")

2022-06-27 23:24:31,363 [INFO] Importing train and validation interim tables
2022-06-27 23:24:32,078 [INFO] Splitting target from features
2022-06-27 23:24:32,159 [INFO] Applying preprocessing transformations
2022-06-27 23:24:35,535 [INFO] Persisting transformed features
