# 0. Importação de Biblíotecas e Funções de Ajuda

## 0.1 Bibliotecas

In [1]:
import joblib
import pandera

import pandas as pd

from IPython.display               import display, HTML
from pandera                       import Check, Column, DataFrameSchema
from sklearn.model_selection       import train_test_split
from sklearn.pipeline              import Pipeline
from sklearn.preprocessing         import RobustScaler, StandardScaler
from sklearn.metrics               import roc_auc_score
from sklearn.linear_model          import LogisticRegression
from feature_engine.discretisation import EqualFrequencyDiscretiser, EqualWidthDiscretiser
from feature_engine.imputation     import MeanMedianImputer
from feature_engine.wrappers       import SklearnTransformerWrapper

## 0.2 Funções de Ajuda

In [29]:
columns_to_use = ['target',
                  'TaxaDeUtilizacaoDeLinhasNaoGarantidas',
                  'Idade',
                  'NumeroDeVezes30-59DiasAtrasoNaoPior',
                  'TaxaDeEndividamento',
                  'RendaMensal',
                  'NumeroDeLinhasDeCreditoEEmprestimosAbertos',
                  'NumeroDeVezes90DiasAtraso',
                  'NumeroDeEmprestimosOuLinhasImobiliarias',
                  'NumeroDeVezes60-89DiasAtrasoNaoPior',
                  'NumeroDeDependentes']

## 0.3 Configurações do Jupyter

In [2]:
# Deixar o jupyper em widescreen
display(HTML("<style>.container { width:90% !important; }</style>"))

# Seta o máximo de colunas e linhas que o pandas vai exibir
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 60)

# 1.0 Carregamento de Dados

In [31]:
class DataLoad:
    """Classe responsável pelo carregamento dos dados"""
    
    def __init__(self) -> None:
        pass
    
    def load_data(self) -> pd.DataFrame:
        """Esta função vai retornar os dados carregados
        
            return:
                pandas.DataFrame"""
        
        dataframe = pd.read_csv('../dataset/raw/train.csv', index_col=0)
        return dataframe

In [37]:
df = DataLoad().load_data()

# 2.0 Validação dos Dados

In [35]:
class DataValidation:
    """Classe responsável pela validação dos dados"""
    
    def __init__(self, columns_to_use) -> None:
        self.columns_to_use = columns_to_use
        
    def check_data_shape(self, dataframe: pd.DataFrame) -> bool:
        """Esta função checa se todas as colunas estão presentes no DataFrame"""
        try:
            print('A Validação Começou')
            dataframe.columns = self.columns_to_use
            return True
        except Exception as e:
            print(f'A Validação Falhou \n {e}')
            return False
    
    def check_columns(self, dataframe: pd.DataFrame) -> bool:
        """Esta função checa se os tipos de dados são os esperados"""
        schema = DataFrameSchema(
            {
            "target": Column(int, Check.isin([0,1 ]), Check(lambda x: x>0), coerce=True),
            "TaxaDeUtilizacaoDeLinhasNaoGarantidas": Column(float, nullable=True),
            "Idade": Column(int, nullable=True),
            "NumeroDeVezes30-59DiasAtrasoNaoPior": Column(int, nullable=True),
            "TaxaDeEndividamento": Column(float, nullable=True),
            "RendaMensal": Column(float, nullable=True),
            "NumeroDeLinhasDeCreditoEEmprestimosAbertos": Column(int, nullable=True),
            "NumeroDeVezes90DiasAtraso": Column(int, nullable=True),
            "NumeroDeEmprestimosOuLinhasImobiliarias": Column(int, nullable=True),
            "NumeroDeVezes60-89DiasAtrasoNaoPior": Column(int, nullable=True),
            "NumeroDeDependentes": Column(float, nullable=True)
            }
        )
        try:
            schema.validate(dataframe)
            print('Validação das colunas passou')
            return True
        except Exception as e:
            print(f"Validação das colunas falhou \n {e}")
            return False
    def run(self, dataframe: pd.DataFrame) -> bool:
        if self.check_data_shape(dataframe) and  self.check_columns(dataframe):
            print('Validação concluida com sucesso!')
            return True
        else:
            print('Validação falhou')
            return False

In [39]:
dv = DataValidation(columns_to_use).run(df)
dv

A Validação Começou
Validação das colunas passou
Validação concluida com sucesso!


True

# 3. DataTransformation

In [47]:
class DataTransformation:
    """Classe responsável pela transformação dos dados"""
    def __init__(self, 
                 dataframe: pd.DataFrame,
                 target_name: str):
        self.dataframe = dataframe
        self.target_name = target_name
    
    def train_test_spliting(self, t_size: float):
        """Esta função separa os dados para treinamento e teste do modelo"""
        X = self.dataframe.drop(columns=self.target_name)
        y = self.dataframe[self.target_name]
        
        X_train, X_val, y_train, y_val = train_test_split(X, y, test_size = t_size, stratify=y)
        
        return X_train, X_val, y_train, y_val

In [48]:
dt = DataTransformation(df, 'target').train_test_spliting(t_size=0.2)