# Baseline Models

Vamos criar um modelo lightgbm default para avaliar qual a performance mínima que podemos atingir com um modelo básico. As principais razões para escolher o lightgbm são:

1. É capaz de tratar variáveis categóricas e missing values de forma nativa;
2. Treinamento rápido;
3. Permite uma boa margem para manipular parâmetros de regularização e assim evitar overfitting.

In [1]:
#importando as bibliotecas necessárias
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score, precision_score, recall_score
from sklearn.model_selection import cross_val_score, StratifiedKFold

from lightgbm import LGBMClassifier

In [2]:
#carregando os dados para treinamento
df_train = pd.read_csv("../inputs/train.csv")
df_train.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,target
0,28104,50000.0,2,1,1,31,1,2,2,0,...,50332.0,29690.0,30246.0,2200.0,4.0,2300.0,1100.0,1400.0,1200.0,1
1,29094,330000.0,2,2,2,59,0,0,0,0,...,80589.0,76180.0,61693.0,20000.0,3500.0,19000.0,15000.0,3000.0,2139.0,0
2,11280,220000.0,2,1,2,41,-1,-1,-2,-2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
3,28435,50000.0,2,2,1,45,0,0,0,0,...,8469.0,8411.0,8361.0,2124.0,2037.0,1130.0,295.0,302.0,296.0,0
4,10873,480000.0,2,3,1,42,-2,-2,-2,-2,...,0.0,790.0,0.0,0.0,0.0,0.0,790.0,0.0,0.0,0


In [3]:
#selecionando as variáveis categóricas para definir no modelo
cat_cols = ['SEX',
 'EDUCATION',
 'MARRIAGE',
 'PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6']

In [17]:
#o lightgbm irá converter para NaN todas as variáveis categóricas que forem menor que 0
#para esses casos, teremos que aplicar um tratamento diferente
#vamos escolher um valor qualquer negativo para multiplicar as categorias negativas e criar novas categorias positivas
def negative_cat(value):
    if value < 0:
        value = value*(-15)
        
    else:
        pass
    
    return value

In [5]:
#aplicando a função
for c in cat_cols:
    df_train[c] = df_train[c].apply(negative_cat)

In [6]:
#não usaremos a coluna ID para o treinamento, pois não há teor preditivo nessa informação
df_train = df_train.drop(columns="ID", axis=1)

In [7]:
#separando variáveis de entrada e target
X_train, y_train = df_train.drop(columns="target", axis=1), df_train.target.values

In [8]:
#o lightgbm só aceita index para identificação das colunas categoricas
cat_idx = []
for c in cat_cols:
    idx = X_train.columns.get_loc(c)
    cat_idx.append(idx)

In [9]:
#definindo o primeiro modelo baseline
model = LGBMClassifier(categorical_features=cat_idx,
                       random_state=42)

In [10]:
#para acelerar o treinamento, podemos evitar passar pandas dataframes aos modelos
X_train = X_train.to_numpy()

In [11]:
#vamos utilizar a validação cruzada para avaliar o modelo em diferentes partições do dataset
cross_val = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

In [12]:
#resultados da validação cruzada
print(cross_val_score(model, X_train, y_train, cv=cross_val, scoring="f1"))

[0.48585932 0.43884892 0.48350072 0.46297628 0.49857143]


In [13]:
#resultado médio da validação cruzada
np.mean([0.48585932, 0.43884892, 0.48350072, 0.46297628, 0.49857143])

0.473951334

### Classes balanceadas

Como nosso dataset possui um leve desbalanceamento entre as classes, vamos utilizar o parametro de balanceamento de classes do lightgbm para avliar o impacto no resultado.

In [14]:
#inicializando o modelo
model_balanc = LGBMClassifier(categorical_features=cat_idx,
                              class_weight="balanced",
                              random_state=42)

In [15]:
#resultados da validação cruzada
print(cross_val_score(model_balanc, X_train, y_train, cv=cross_val, scoring="f1"))

[0.53948014 0.50947982 0.54622642 0.52768416 0.5433414 ]


In [16]:
#resultado medio da validação cruzada
np.mean([0.53948014, 0.50947982, 0.54622642, 0.52768416, 0.5433414 ])

0.533242388

### Conclusão

Usar o parâmetro de balanceamento das classes trouxe um bom ganho no nosso f1, portanto vamos continuar utilizando daqui para frente.