# Baseline Models

Vamos criar um modelo lightgbm default para avaliar qual a performance mínima que podemos atingir com um modelo básico. As principais razões para escolher o lightgbm são:

1. É capaz de tratar variáveis categóricas e missing values de forma nativa;
2. Treinamento rápido;
3. Permite uma boa margem para manipular parâmetros de regularização e assim evitar overfitting.

In [10]:
#importando as bibliotecas necessárias
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score, precision_score, recall_score

from lightgbm import LGBMClassifier

In [2]:
#carregando os dados para treinamento
df_train = pd.read_csv("../inputs/train.csv")
df_train.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,target
0,28104,50000.0,2,1,1,31,1,2,2,0,...,50332.0,29690.0,30246.0,2200.0,4.0,2300.0,1100.0,1400.0,1200.0,1
1,29094,330000.0,2,2,2,59,0,0,0,0,...,80589.0,76180.0,61693.0,20000.0,3500.0,19000.0,15000.0,3000.0,2139.0,0
2,11280,220000.0,2,1,2,41,-1,-1,-2,-2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
3,28435,50000.0,2,2,1,45,0,0,0,0,...,8469.0,8411.0,8361.0,2124.0,2037.0,1130.0,295.0,302.0,296.0,0
4,10873,480000.0,2,3,1,42,-2,-2,-2,-2,...,0.0,790.0,0.0,0.0,0.0,0.0,790.0,0.0,0.0,0


In [3]:
#selecionando as variáveis categóricas para definir no modelo
cat_cols = ['SEX',
 'EDUCATION',
 'MARRIAGE',
 'PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6']

In [4]:
#não usaremos a coluna ID para o treinamento, pois não há teor preditivo nessa informação
df_train = df_train.drop(columns="ID", axis=1)

In [5]:
#separando variáveis de entrada e target
X_train, y_train = df_train.drop(columns="target", axis=1), df_train.target.values

In [6]:
#o lightgbm só aceita index para identificação das colunas categoricas
cat_idx = []
for c in cat_cols:
    idx = X_train.columns.get_loc(c)
    cat_idx.append(idx)

In [7]:
#definindo o primeiro modelo baseline
model = LGBMClassifier(categorical_features=cat_idx,
                       random_state=42)

In [8]:
#para acelerar o treinamento, podemos evitar passar pandas dataframes aos modelos
X_train = X_train.to_numpy()

In [9]:
#treinando o modelo
model.fit(X_train, y_train)

LGBMClassifier(categorical_features=[1, 2, 3, 5, 6, 7, 8, 9, 10],
               random_state=42)

In [11]:
#carregando o dataset de validação para avaliar a performance do modelo
df_val = pd.read_csv("../inputs/validation.csv")
df_val = df_val.drop(columns="ID", axis=1)

In [12]:
#separando features de entrada e saída
X_val, y_val = df_val.drop(columns="target", axis=1), df_val.target.values

In [13]:
#gerando as predições
y_pred = model.predict(X_val)

In [14]:
#da análise dos dados, vimos que existe um desbalanceamento na base de dados, por isso, vamos usar recall, precisão e f1
#como métricas de avaliação de modelos
f1 = f1_score(y_val, y_pred)
recall = recall_score(y_val, y_pred)
precision = precision_score(y_val, y_pred)

print(f"f1 lgbm default na base de validação: {f1}")
print(f"recall lgbm default na base de validação: {recall}")
print(f"precisao lgbm default na base de validação: {precision}")

f1 lgbm default na base de validação: 0.46643417611159543
recall lgbm default na base de validação: 0.3583389149363697
precisao lgbm default na base de validação: 0.6679151061173533


# Colocando peso nas classes

Alguns algoritmos, como é o caso do lightgbm, permitem que as classes no target recebam pesos diferentes durante o treinamento de modo a compensar o desbalancemanto natural da distribuição dessas classes no dataset. Vamos avaliar o impacto desse parametro aqui.

In [15]:
#inicializando o modelo
model_balanc = LGBMClassifier(categorical_features=cat_idx,
                              class_weight="balanced",
                              random_state=42)

In [16]:
#treinando o novo modelo
model_balanc.fit(X_train, y_train)

LGBMClassifier(categorical_features=[1, 2, 3, 5, 6, 7, 8, 9, 10],
               class_weight='balanced', random_state=42)

In [17]:
#gerando as predições com o novo modelo
y_pred = model_balanc.predict(X_val)

In [18]:
#avaliando o novo modelo
f1 = f1_score(y_val, y_pred)
recall = recall_score(y_val, y_pred)
precision = precision_score(y_val, y_pred)

print(f"f1 lgbm balanceado na base de validação: {f1}")
print(f"recall lgbm balanceado na base de validação: {recall}")
print(f"precisao lgbm balanceado na base de validação: {precision}")

f1 lgbm balanceado na base de validação: 0.529685681024447
recall lgbm balanceado na base de validação: 0.6095110515740121
precisao lgbm balanceado na base de validação: 0.4683479155944416


Podemos notar que houve um ganho nas métricas de f1 e recall após o uso do class_weight="balanced", porém uma perda na precisao. Essa decisão fará parte de um processo futuro de tuning dos hiperparametros do modelo.