# Case Neoway - Preprocessamento

In [1]:
import os, sys

sys.path.append('../')
os.chdir('../')

In [2]:
import pandas as pd
import numpy as np

from src.base.commons import load_yaml
from src.base.logger import logging
from src.model.preprocessing import one_hot_encode

from src.global_variables import FEATURE_PARAMETERS_FILE, FILEPATHS_FILE

In [3]:
%config IPCompleter.use_jedi=False

pd.options.display.max_columns = None

In [15]:
# Get filepaths information
filepaths = load_yaml(FILEPATHS_FILE)
parameters = load_yaml(FEATURE_PARAMETERS_FILE)

In [16]:
data_train = pd.read_parquet(
    os.path.join(
        filepaths["interim_directory_path"],
        "data_train.parquet",
    )
)

X_train = data_train.drop(columns='prob_V1_V2')
y_test = data_train['prob_V1_V2']

Pela análise exploratória de dados, foi possível identificar as seguintes etapas de processamento de dados:

* Passo 1: converter a coluna `grau` em uma dummy que marca família ou não 
* Passo 2: aplicar one-hot-encode na coluna `Proximidade` excluindo uma das classes
* Passo 3: discretizar a coluna `V1_idade` pela faixa geracional, criando `V1_geracao`
* Passo 4: imputar o valor mais frequente na feature `V1_geracao`
* Passo 5: discretizar a coluna `V2_idade` pela faixa geracional, criando `V2_geracao`
* Passo 6: imputar o valor mais frequente na feature `V2_geracao`
* Passo 7: aplicar a imputação de `nao_informado` nos faltantes de  `V1_estado_civil`
* Passo 8: criar classe `casado_ou_divorciado`
* Passo 9: aplicar one-hot-encode à `V1_estado_civil` com exclusão de uma classe
* Passo 10: remover coluna `V2_estado_civil`
* Passo 11: criar variável dummy para categoria `V1_tem_filhos` a partir da coluna `V1_qt_filhos`
* Passo 12: preencher valores faltantes com a moda `V2_estado_civil`
* Passo 13: excluir coluna `V2_qt_filhos`
* Passo 14: preencher valores fantantes da coluna `V1_estuda` com o valor mais frequente
* Passo 15: desconsiderar a coluna `V2_estuda`
* Passo 16: preencher valores faltantes da coluna `V1_trabalha` com o valor mais frequente
* Passo 17: desconsiderar a coluna `V2_trabalha`
* Passo 18: preencher valores faltantes da coluna `V1_pratica_esportes` com o valor mais frequente
* Passo 19: negligenciar a coluna `V2_pratica_esportes`
* Passo 20: subsituir valores faltantes da coluna `V1_transporte_mais_utilizado` pela moda
* Passo 21: aplicar one-hot-encode na coluna `V1_transporte_mais_utilizado` excluindo uma categoria
* Passo 22: subsituir valores fantantes da coluna `V2_transporte_mais_utilizado` pela moda
* Passo 23: aplicar one-hot-encode na coluna `V2_transporte_mais_utilizado` excluindo uma categoria
* Passo 24: discretizar a coluna `V1_IMC`, criando `V1_IMC_disc`
* Passo 25: imputar o valor mais frequente na feature `V1_IMC_disc`
* Passo 26: discretizar a coluna `V2_IMC`, criando `V2_IMC_disc`
* Passo 27: imputar o valor mais frequente na feature `V2_IMC_disc`

Pela análise exploratória de dados, foi possível identificar as seguintes etapas de processamento de dados:

**Operações de Construção e Remoção de Features**

* [x] Passo 1: converter a coluna `grau` em uma dummy que marca família ou não 
* [x] Passo 2: aplicar one-hot-encode na coluna `Proximidade` excluindo uma das classes
* [ ] Passo 3: discretizar a coluna `V1_idade` pela faixa geracional, criando `V1_geracao`
* [ ] Passo 5: discretizar a coluna `V2_idade` pela faixa geracional, criando `V2_geracao`
* [ ] Passo 8: criar classe `casado_ou_divorciado`
* [ ] Passo 9: aplicar one-hot-encode à `V1_estado_civil` com exclusão de uma classe
* [ ] Passo 10: remover coluna `V2_estado_civil`
* [ ] Passo 11: criar variável dummy para categoria `V1_tem_filhos` a partir da coluna `V1_qt_filhos`
* [ ] Passo 13: excluir coluna `V2_qt_filhos`
* [ ] Passo 15: desconsiderar a coluna `V2_estuda`
* [ ] Passo 17: desconsiderar a coluna `V2_trabalha`
* [ ] Passo 19: negligenciar a coluna `V2_pratica_esportes`
* [ ] Passo 21: aplicar one-hot-encode na coluna `V1_transporte_mais_utilizado` excluindo uma categoria
* [ ] Passo 23: aplicar one-hot-encode na coluna `V2_transporte_mais_utilizado` excluindo uma categoria
* [ ] Passo 24: discretizar a coluna `V1_IMC`, criando `V1_IMC_disc`
* [ ] Passo 26: discretizar a coluna `V2_IMC`, criando `V2_IMC_disc`

**Operações de Transformação de Features**


* [ ] Passo 4: imputar o valor mais frequente na feature `V1_geracao`
* [ ] Passo 6: imputar o valor mais frequente na feature `V2_geracao`
* [ ] Passo 7: aplicar a imputação de `nao_informado` nos faltantes de  `V1_estado_civil`
* [ ] Passo 12: preencher valores faltantes com a moda `V2_estado_civil`
* [ ] Passo 14: preencher valores fantantes da coluna `V1_estuda` com o valor mais frequente
* [ ] Passo 16: preencher valores faltantes da coluna `V1_trabalha` com o valor mais frequente
* [ ] Passo 18: preencher valores faltantes da coluna `V1_pratica_esportes` com o valor mais frequente
* [ ] Passo 20: subsituir valores faltantes da coluna `V1_transporte_mais_utilizado` pela moda
* [ ] Passo 22: subsituir valores fantantes da coluna `V2_transporte_mais_utilizado` pela moda
* [ ] Passo 25: imputar o valor mais frequente na feature `V1_IMC_disc`
* [ ] Passo 27: imputar o valor mais frequente na feature `V2_IMC_disc`

In [17]:
X = data_train.drop(columns='prob_V1_V2')
y = data_train['prob_V1_V2']

X = one_hot_encode(X, 'grau')

X = one_hot_encode(X, 'proximidade')

X = discretize(X,'V1_idade', 'V1_geracao')

Unnamed: 0_level_0,Unnamed: 1_level_0,V1_estado_civil,V1_qt_filhos,V1_estuda,V1_trabalha,V1_pratica_esportes,V1_transporte_mais_utilizado,V1_IMC,V2_idade,V2_estado_civil,V2_qt_filhos,V2_estuda,V2_trabalha,V2_pratica_esportes,V2_transporte_mais_utilizado,V2_IMC,grau_familia,proximidade_visita_frequente,proximidade_visita_casual,proximidade_mora_junto,V1_geracao
V1,V2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
359633,719266,divorciado,2.0,1.0,1.0,1.0,publico,15.197849,23.0,divorciado,1.0,1.0,1.0,0.0,taxi,13.806661,0,1,0,0,gen_x
236289,472579,viuvo,3.0,0.0,0.0,1.0,particular,25.423565,33.0,solteiro,0.0,0.0,1.0,,particular,22.086553,0,1,0,0,baby_boomer
452653,905306,casado,3.0,1.0,1.0,0.0,taxi,36.020256,10.0,,0.0,1.0,0.0,1.0,particular,17.293550,0,1,0,0,gen_y
34286,68573,solteiro,0.0,0.0,1.0,0.0,publico,15.032345,,divorciado,1.0,1.0,0.0,0.0,particular,32.188224,0,0,1,0,
374135,748270,solteiro,1.0,0.0,1.0,0.0,particular,14.724254,41.0,divorciado,4.0,0.0,1.0,0.0,publico,13.596064,1,0,1,0,gen_x
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259587,519175,solteiro,1.0,0.0,1.0,1.0,particular,31.734106,16.0,divorciado,3.0,0.0,1.0,1.0,publico,23.047688,0,0,1,0,gen_y
366062,732124,divorciado,,1.0,1.0,1.0,publico,27.102412,35.0,casado,0.0,1.0,1.0,1.0,publico,18.627886,1,0,0,0,gen_x
132000,264000,casado,0.0,0.0,1.0,,particular,,28.0,solteiro,1.0,0.0,1.0,1.0,publico,,0,0,0,0,gen_x
146945,293890,,1.0,0.0,1.0,,publico,19.923203,,solteiro,0.0,1.0,0.0,,particular,29.845558,0,0,1,0,


In [24]:
def discretize(X: pd.DataFrame, column: str, output_column_name: str) -> pd.DataFrame:
    """Discretize a continuos variable accorsing to predefined bins.

    Parameters
    ----------
    X : pd.DataFrame
        Pandas dataframe with the column to be encoded
    column : str
        Continuos column to be discretized
    output_column_name : str
        Name of discretized columns

    Returns
    -------
    pd.DataFrame
        Dataframe with the column discretized
    """    

    feature_parameters = load_yaml(FEATURE_PARAMETERS_FILE)

    try:
        generation_discretizer = feature_parameters[column]["discretize"]['bins']

        bins = sorted([0] + [elem[1] for elem in generation_discretizer.values()])

        X[output_column_name] = pd.cut(
            X[column], bins=bins, right=False, labels=generation_discretizer.keys()
        )

        X = X.drop(columns = column)
        
        return X

    except KeyError as err:
        error_mesage = (
            f"Column {err.__str__()} not found in file {FEATURE_PARAMETERS_FILE}."
        )
        logging.error(error_mesage)
        raise KeyError(error_mesage)

    return X

In [44]:
feature_parameters = load_yaml('config/feature_parameters.yaml')
column = 'grau'
    
categories = feature_parameters[column]['encode']['categories']
prefix = feature_parameters[column]['encode']['prefix']
drop_columns = feature_parameters[column]['encode']['drop_columns']

for column in categories:
    X['grau_' + 'familia'] = (X['grau']=='familia').astype(int)


In [45]:
X

Unnamed: 0_level_0,Unnamed: 1_level_0,grau,proximidade,V1_idade,V1_estado_civil,V1_qt_filhos,V1_estuda,V1_trabalha,V1_pratica_esportes,V1_transporte_mais_utilizado,V1_IMC,V2_idade,V2_estado_civil,V2_qt_filhos,V2_estuda,V2_trabalha,V2_pratica_esportes,V2_transporte_mais_utilizado,V2_IMC,grau_familia
V1,V2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
359633,719266,trabalho,visita_frequente,33.0,divorciado,2.0,1.0,1.0,1.0,publico,15.197849,23.0,divorciado,1.0,1.0,1.0,0.0,taxi,13.806661,0
236289,472579,trabalho,visita_frequente,25.0,viuvo,3.0,0.0,0.0,1.0,particular,25.423565,33.0,solteiro,0.0,0.0,1.0,,particular,22.086553,0
452653,905306,trabalho,visita_frequente,49.0,casado,3.0,1.0,1.0,0.0,taxi,36.020256,10.0,,0.0,1.0,0.0,1.0,particular,17.293550,0
34286,68573,amigos,visita_casual,,solteiro,0.0,0.0,1.0,0.0,publico,15.032345,,divorciado,1.0,1.0,0.0,0.0,particular,32.188224,0
374135,748270,familia,visita_casual,32.0,solteiro,1.0,0.0,1.0,0.0,particular,14.724254,41.0,divorciado,4.0,0.0,1.0,0.0,publico,13.596064,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
259587,519175,amigos,visita_casual,50.0,solteiro,1.0,0.0,1.0,1.0,particular,31.734106,16.0,divorciado,3.0,0.0,1.0,1.0,publico,23.047688,0
366062,732124,familia,visita_rara,29.0,divorciado,,1.0,1.0,1.0,publico,27.102412,35.0,casado,0.0,1.0,1.0,1.0,publico,18.627886,1
132000,264000,amigos,visita_rara,40.0,casado,0.0,0.0,1.0,,particular,,28.0,solteiro,1.0,0.0,1.0,1.0,publico,,0
146945,293890,amigos,visita_casual,,,1.0,0.0,1.0,,publico,19.923203,,solteiro,0.0,1.0,0.0,,particular,29.845558,0
