# Organização da Pipeline de pré-processamento

A definição dos tratamentos e transformações dos dados foi realizada com base nos insights extraídos durante a análise exploratória (EDA). Para otimizar essa etapa, foi utilizada uma [planilha de organização](https://docs.google.com/spreadsheets/d/12IVVANl1VLA55f7QB15Y_hmrT_lGEXov8IsCHVvneR0/edit?usp=sharing), que ajudou a planejar os tratamentos e transformações necessários em cada variável.

Com o objetivo de melhorar a reprodutibilidade e escalabilidade do processo, foram desenvolvidas duas pipelines separadas: Pipeline de Tratamento e Pipeline de Transformação. Essas pipelines foram aplicadas separadamente no conjunto de treino e de teste para evitar o risco de data leakage.

### 2. Pipeline de tratamento:

Realizada para sanar problemas de ausência de engenharia de dados. Nessa pipeline, foi buscado resolver os seguintes problemas:

* 2.1 Gerais: Remoção de colunas desconsideradas para o modelo
* 2.1 Gerais: Remover underscore e espaços vazios
* 2.1 Gerais: Transformar dados nos tipos corretos
* 2.2 Outliers: Tratar outliers
* 2.3 Feature engineering: converter a variável categórica `Credit_History_Age` (tempo total de histórico de crédito do cliente) no total de meses.

### 3. Pipeline de transformação:

Realizada para preparar os dados para os diferentes modelos de machine learning.

* Dados numéricos: substituir dados ausentes pela média
* Dados categóricos: substituir ausentes por "missing"
* Dados categóricos (encoder): passar um encoder (ex: Target Encoder)
* Todas as variáveis (scale): passar um scaler (ex: MinMax ou Robust Scaler)

# Bibliotecas

In [1]:
# Data manipulation

import pandas as pd
import numpy as np

# Data viz

import matplotlib.pyplot as plt
import seaborn as sns

# ML (split)

from sklearn.model_selection import train_test_split

# Preparação e Pré-processamento de Dados

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.impute import SimpleImputer
from category_encoders import TargetEncoder

# 1. Importação dos dados

In [2]:
df = pd.read_csv('data/train.csv', low_memory=False)

**OBS (1):** nos dados de teste há uma variável a menos, que é a 'Credit_Score', inicialmente definida como o target.  
**OBS (2):** o alvo da base de dados era a variável Credit_Score, que consiste na pontuação de crédito do cliente. Nessa classificação, haviam indivíduos classificados como: Poor, Standard e Good. Para deixar o problema ainda mais próximo do proposto na concessão de crédito, optou-se por modificar as classes, como indicado abaixo.  

* Clientes classificados como `Poor` ➡ `Classe 1` (maus pagadores)  
* Clientes classifiados como `Standard` ➡ `Classe 0` (bons pagadores)  
* Clientes classifiados como `Good` ➡ `Classe 0` (bons pagadores)

**OBS (3):** o objetivo original da base de dados era prever a variável Credit_Score, que reflete a pontuação de crédito do cliente, com base em variáveis como comportamento de pagamento e dívida pendente. No entanto, o foco foi ajustado para classificar futuros clientes em bons ou maus pagadores, visando prevenir inadimplências durante o processo de concessão de crédito. As variáveis relacionadas ao comportamento dos clientes, que já constavam na base de dados, foram consideradas como informações complementares, hipoteticamente fornecidas por outro birô de crédito (ex: Serasa, SPC, etc).

In [3]:
# Modificando as classes para bons e maus pagadores

df['target'] = df['Credit_Score'].apply(lambda x: 1 if x == 'Poor' else 0)
df = df.drop('Credit_Score', axis=1)

In [4]:
# Base de dados adaptada

df.head()

Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,...,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,target
0,0x1602,CUS_0xd40,January,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,...,_,809.98,26.82262,22 Years and 1 Months,No,49.574949,80.41529543900253,High_spent_Small_value_payments,312.49408867943663,0
1,0x1603,CUS_0xd40,February,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,31.94496,,No,49.574949,118.28022162236736,Low_spent_Large_value_payments,284.62916249607184,0
2,0x1604,CUS_0xd40,March,Aaron Maashoh,-500,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,28.609352,22 Years and 3 Months,No,49.574949,81.699521264648,Low_spent_Medium_value_payments,331.2098628537912,0
3,0x1605,CUS_0xd40,April,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,...,Good,809.98,31.377862,22 Years and 4 Months,No,49.574949,199.4580743910713,Low_spent_Small_value_payments,223.45130972736783,0
4,0x1606,CUS_0xd40,May,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,...,Good,809.98,24.797347,22 Years and 5 Months,No,49.574949,41.420153086217326,High_spent_Medium_value_payments,341.48923103222177,0


# 2. Split dos dados

In [5]:
X = df.drop('target', axis=1)
y = df['target']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42, stratify=y)

In [7]:
# Dimensionalidade dos dados de treino

X_train.shape

(80000, 27)

In [8]:
# Dimensionalidade dos dados de teste

X_test.shape

(20000, 27)

# 2. Pipeline de tratamento

#### 2.1 Tratamentos gerais

In [9]:
# Remoção de colunas desnecessárias

def drop_variaveis(df):
    lista_variaveis = ['ID', 'Customer_ID', 'SSN', 'Name', 'Delay_from_due_date', 'Num_of_Delayed_Payment']
    return df.drop(columns=lista_variaveis, axis=1)

X_train = drop_variaveis(X_train)
X_test = drop_variaveis(X_test)

print(f'Total de colunas: {X_test.shape[1]}')

Total de colunas: 21


In [10]:
# Tratamento de NaNs e conversão de dados

col_treat_num = ['Age','Num_Bank_Accounts','Num_Credit_Card', 'Interest_Rate', 'Num_of_Loan','Num_Credit_Inquiries','Annual_Income',
                 'Monthly_Inhand_Salary','Changed_Credit_Limit', 'Outstanding_Debt', 'Credit_Utilization_Ratio', 'Total_EMI_per_month',
                 'Amount_invested_monthly', 'Monthly_Balance']


def tratar_dados(df, colunas):
    # Passa todas as features para object; todas as que possuem caractere != número são substituídas por NaN; depois passa todas para float
    
    df[colunas] = df[colunas].astype('object')
    
    for col in colunas:
        # Converte os valores para string para aplicar a substituição de caracteres
        df[col] = df[col].astype(str).replace(r'[^0-9.-]', '', regex=True)
        # Converte a coluna para float, transformando valores inválidos em NaN
        df[col] = pd.to_numeric(df[col], errors='coerce')
    
    return df


X_train = tratar_dados(X_train, col_treat_num)
X_test = tratar_dados(X_test, col_treat_num)

#### 2.2 Outliers

* Para cada variável numérica do dataset, foram calculados os percentis 1 e 99;
* Valores de uma observação maiores que o percentil 99 da variável, foram substituídos pelo valor do percentil 99;
* Valores de uma observação menores que o percentil 1 da variável, foram substituídos pelo valor do percentil 1
  
Esse processo limitou a influência de valores extremos sem removê-los, preservando a integridade do dataset.

In [11]:
# Demonstração dos outliers

for col in X_train.columns:
    # Verificando se a coluna é numérica
    if X_train[col].dtype in ['int64', 'float64']:
        # Exibindo o valor mínimo e máximo para cada coluna numérica
        print(f'Coluna: {col}')
        print(f'Mínimo: {X_train[col].min()}')
        print(f'Máximo: {X_train[col].max()}')
        print('-' * 30)

Coluna: Age
Mínimo: -500
Máximo: 8698
------------------------------
Coluna: Annual_Income
Mínimo: 7005.93
Máximo: 24177153.0
------------------------------
Coluna: Monthly_Inhand_Salary
Mínimo: 303.6454166666666
Máximo: 15204.633333333331
------------------------------
Coluna: Num_Bank_Accounts
Mínimo: -1
Máximo: 1798
------------------------------
Coluna: Num_Credit_Card
Mínimo: 0
Máximo: 1499
------------------------------
Coluna: Interest_Rate
Mínimo: 1
Máximo: 5797
------------------------------
Coluna: Num_of_Loan
Mínimo: -100
Máximo: 1496
------------------------------
Coluna: Changed_Credit_Limit
Mínimo: -6.49
Máximo: 36.97
------------------------------
Coluna: Num_Credit_Inquiries
Mínimo: 0.0
Máximo: 2594.0
------------------------------
Coluna: Outstanding_Debt
Mínimo: 0.23
Máximo: 4998.07
------------------------------
Coluna: Credit_Utilization_Ratio
Mínimo: 20.0
Máximo: 50.00000000000001
------------------------------
Coluna: Total_EMI_per_month
Mínimo: 0.0
Máximo: 82331.

In [12]:
def treat_outliers(df):
    # Selecionando todas as colunas numéricas
    numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns
    
    for col in numeric_cols:
        # Calculando os percentis 1 e 99
        p1 = np.percentile(df[col], q=1)
        p99 = np.percentile(df[col], q=99)
        
        # Garantir que os percentis sejam do mesmo tipo da coluna
        dtype_col = df[col].dtype
        
        # Substituindo os valores menores que o percentil 1 pelo próprio percentil 1
        df.loc[df[col] < p1, col] = dtype_col.type(p1)
        # Substituindo os valores maiores que o percentil 99 pelo próprio percentil 99
        df.loc[df[col] > p99, col] = dtype_col.type(p99)
    
    return df

In [13]:
# Aplicando a função nos dados de treino e de teste

X_train = treat_outliers(X_train)
X_test = treat_outliers(X_test)

In [14]:
# Checagem

for col in X_train.columns:
    # Verificando se a coluna é numérica
    if X_train[col].dtype in ['int64', 'float64']:
        # Exibindo o valor mínimo e máximo para cada coluna numérica
        print(f'Coluna: {col}')
        print(f'Mínimo: {X_train[col].min()}')
        print(f'Máximo: {X_train[col].max()}')
        print('-' * 30)

Coluna: Age
Mínimo: 14
Máximo: 4135
------------------------------
Coluna: Annual_Income
Mínimo: 7531.855
Máximo: 180706.29719962334
------------------------------
Coluna: Monthly_Inhand_Salary
Mínimo: 303.6454166666666
Máximo: 15204.633333333331
------------------------------
Coluna: Num_Bank_Accounts
Mínimo: 0
Máximo: 442
------------------------------
Coluna: Num_Credit_Card
Mínimo: 1
Máximo: 847
------------------------------
Coluna: Interest_Rate
Mínimo: 1
Máximo: 2874
------------------------------
Coluna: Num_of_Loan
Mínimo: -100
Máximo: 9
------------------------------
Coluna: Changed_Credit_Limit
Mínimo: -6.49
Máximo: 36.97
------------------------------
Coluna: Num_Credit_Inquiries
Mínimo: 0.0
Máximo: 2594.0
------------------------------
Coluna: Outstanding_Debt
Mínimo: 25.78
Máximo: 4809.566799999991
------------------------------
Coluna: Credit_Utilization_Ratio
Mínimo: 22.74691725808216
Máximo: 42.460793482677815
------------------------------
Coluna: Total_EMI_per_month


In [15]:
# Tratamento extra para a variável de idade

X_train.loc[X_train['Age'] > 100, 'Age'] = np.nan
X_test.loc[X_test['Age'] > 100, 'Age'] = np.nan

In [16]:
print(f'Idade mínima: {X_train['Age'].min()}')
print(f'Idade mínima: {X_train['Age'].max()}')

Idade mínima: 14.0
Idade mínima: 99.0


In [17]:
# Salvando para utilizar na análise de negócio

X_test.to_csv('outputs/X_test.csv')

#### 2.3 Feature engineering

A coluna `Credit_History_Age` representa o tempo total de histórico de crédito do cliente. Era uma coluna do tipo 'object' contando anos e meses. Para fins de melhor interpretabilidade, foi transformada no número total de meses.

In [18]:
X_train['Credit_History_Age'].head()

60844    17 Years and 11 Months
63839     30 Years and 8 Months
42805      5 Years and 8 Months
37912    30 Years and 10 Months
46652      9 Years and 9 Months
Name: Credit_History_Age, dtype: object

In [19]:
# Transformando a coluna 'Credit_History_Age'

def convert_to_months(age):
    """Função para converter Years and months em meses"""

    if isinstance(age, str):
        years, months = age.split(' Years and ')
        return int(years) * 12 + int(months.split(' ')[0])
    else:
        return None

In [20]:
X_train['Credit_History_Age'] = X_train['Credit_History_Age'].apply(convert_to_months)
X_test['Credit_History_Age'] = X_test['Credit_History_Age'].apply(convert_to_months)

In [21]:
# Coluna convertida em total de meses

X_train['Credit_History_Age'].head()

60844    215.0
63839    368.0
42805     68.0
37912    370.0
46652    117.0
Name: Credit_History_Age, dtype: float64

# 3. Pipeline de transformação

* Dados numéricos: substituir ausentes pela média;

* Dados categórios: substituir ausentes por "missing" e passar o TargetEncoder;

* Todas: MinMaxScaler.

### 3.1 Variáveis numéricas

In [22]:
# Selecionando as variáveis numéricas

numeric_features = X_train.select_dtypes([int,float]).columns.tolist()
len(numeric_features)

15

Transformação: substituir numéricos ausentes pela média com `SimpleImputer`

In [23]:
# Criando um imputador numérico (transformer)

numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean'))])

### 3.2 Variáveis categóricas

In [24]:
# Selecionando as variáveis categóricas

categorical_features = X_train.select_dtypes([object]).columns.tolist()
len(categorical_features)

6

* Transformação: substituir dados categóricos ausentes por "missing" com o `SimpleImputer`
* Usar o `Target Encoder` para codificar as variáveis categóricas com base na média do target

In [25]:
# Criando um imputador categórico (transformer)

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('encoder', TargetEncoder())])

### 3.3 Transformações

Aplicação de transformações específicas das variáveis categóricas e numéricas com o `ColumnTransformer`

In [26]:
# Aplicando os transformadores (num e cat)

preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])

**Pipeline final:**

* Pré-processamento das variáveis (numéricas e categóricas) usando o preprocessor citado acima.
* Escalonamento dos dados para o intervalo [0, 1] usando o `MinMaxScaler`.

In [27]:
# Pipeline final

pipeline_tr = Pipeline(steps=[
    ('Preprocessor', preprocessor),
    ('MinMax', MinMaxScaler())
]).set_output(transform='pandas')

In [28]:
# Aplicando as transformações separadamente nos dados de treino e de teste

X_train_transformed = pipeline_tr.fit_transform(X_train, y_train)
X_test_transformed = pipeline_tr.transform(X_test)

In [29]:
# Base de dados final

X_train_transformed.head()

Unnamed: 0,num__Age,num__Annual_Income,num__Monthly_Inhand_Salary,num__Num_Bank_Accounts,num__Num_Credit_Card,num__Interest_Rate,num__Num_of_Loan,num__Changed_Credit_Limit,num__Num_Credit_Inquiries,num__Outstanding_Debt,...,num__Credit_History_Age,num__Total_EMI_per_month,num__Amount_invested_monthly,num__Monthly_Balance,cat__Month,cat__Occupation,cat__Type_of_Loan,cat__Credit_Mix,cat__Payment_of_Min_Amount,cat__Payment_Behaviour
60844,0.141176,0.246939,0.240899,0.015837,0.00591,0.006613,0.917431,0.336171,0.00347,0.104952,...,0.531017,0.0,0.047113,1.0,0.897317,0.81844,0.149342,0.123962,0.610979,1.0
63839,0.482353,0.041447,0.08101,0.002262,0.004728,0.002436,0.917431,0.388032,0.001542,0.110783,...,0.91067,0.0,0.010716,1.0,0.169958,0.580526,0.149342,0.0,0.0,1.0
42805,0.129412,0.066472,0.093704,0.0181,0.003546,0.006613,0.944954,0.275656,0.005012,0.402238,...,0.166253,0.000795,0.00406,1.0,1.0,0.580526,0.489989,0.28947,0.610979,0.365552
37912,0.305882,0.327573,0.319259,0.013575,0.00591,0.002436,0.93578,0.533364,0.001928,0.296368,...,0.915633,0.001405,0.03022,1.0,0.291172,0.575904,0.322103,0.28947,1.0,0.44457
46652,0.011765,0.074274,0.093475,0.00905,0.00591,0.005569,0.963303,0.497009,0.001542,0.102885,...,0.287841,0.001382,0.010276,1.0,0.897317,0.580526,0.520808,0.123962,1.0,0.44457


# Salvando as bases

In [30]:
import os

# Criando a pasta de output

os.makedirs('outputs', exist_ok=True)

# Salvando as bases
X_train_transformed.to_csv('outputs/X_train_transformed.csv', index=False)
X_test_transformed.to_csv('outputs/X_test_transformed.csv', index=False)
y_train.to_csv('outputs/y_train.csv', index=False)
y_test.to_csv('outputs/y_test.csv', index=False)