In [28]:
import pandas as pd
df_train = pd.read_csv('./source/datasets/df_treino.csv')
df_test = pd.read_csv('./source/datasets/df_teste.csv')


In [29]:
print(df_train['Resultado'].value_counts())
print(df_test['Resultado'].value_counts())

0    5626
1     158
Name: Resultado, dtype: int64
0    1409
1      32
Name: Resultado, dtype: int64


In [30]:
y_train = df_train['Resultado'].to_numpy()
X_train = df_train.drop(['Resultado'], axis=1).to_numpy()

In [31]:
y_train_save = y_train
X_train_save = X_train

## 1) Balanceando as classes

Primeiramente, precisamos garantir representatividade de ao menos 1,5x da classe majoritária sobre a minoritária. Como temos consideravelmente mais instâncias de pessoas que não faleceram, vamos buscar utilizar diferentes técnicas tanto para selecionar instâncias da classe majoritária quanto para aumentar as instâncias da classe majoritária

Para isso, iremos utilizar a biblioteca imblearn

In [32]:
# !pip install imblearn

Primeiramente, aumentar a instância da classe minoritaria até atingir 20% da majoritária

In [33]:
from imblearn.over_sampling import SMOTE
import numpy as np

oversample = SMOTE(sampling_strategy=0.2, random_state=42)
print("Quantidade da classe minoritária antes da aumentação: ", np.unique(y_train, return_counts=True))

X_train, y_train = oversample.fit_resample(X_train, y_train)
print("Quantidade da classe minoritária após aumentação: ", np.unique(y_train, return_counts=True))

Quantidade da classe minoritária antes da aumentação:  (array([0, 1]), array([5626,  158]))
Quantidade da classe minoritária após aumentação:  (array([0, 1]), array([5626, 1125]))


Agora, vamos utilizar undersampling para reduzir a classe majoritária. 

In [34]:
from imblearn.under_sampling import NearMiss

nm = NearMiss(sampling_strategy={0:1687,1:1125})
X_train, y_train = nm.fit_resample(X_train, y_train)
print(X_train.shape)
print(y_train.shape)

(2812, 20)
(2812,)


In [35]:
import numpy as np
print(np.unique(y_train, return_counts=True))

(array([0, 1]), array([1687, 1125]))


## 2) Treinamento do modelo

A análise anterior foi usada apenas para demonstrar como devem ser balanceados os modelos. O balanceamento será realizado dentro dos folds de treinamento para cada iteração do k-fold, a fim de que a valicação reflita melhor os padrões que serão vistos nos conjuntos de teste

In [36]:
from sklearn.model_selection import GridSearchCV, cross_val_score, StratifiedKFold
from sklearn.pipeline import Pipeline as SKPipeline
from sklearn.metrics import classification_report

X_train = X_train_save
y_train = y_train_save

print(np.unique(y_train, return_counts=True))

(array([0, 1]), array([5626,  158]))


In [43]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

param_grids = {
    'kNN': {
        'n_neighbors': [1, 5, 10],
        'p': [1, 2],
        'weights': ['uniform', 'distance']
    },
    'Logistic Regression': {
        'class_weight': ['balanced', {0: 1, 1: 1}]
    },
    'Random Forest': {
        'n_estimators': [10, 100, 200],
        'max_depth': [10, 50],
        'min_samples_split': [2, 10, 30]
    }
}


Agora que já temos os parâmetros iniciais, instanciando os modelos:

In [44]:
# Modelos base
knn = KNeighborsClassifier()
lr = LogisticRegression(max_iter=1000)
rf = RandomForestClassifier(random_state=42)

models = [('kNN', knn), ('Logistic Regression', lr), ('Random Forest', rf)]

In [49]:
from sklearn.base import clone
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

all_reports = {}
for name, base_model in models:

    print(f"MODELO: {name}")
    all_reports[name] = []
    
    for fold, (train_idx, val_idx) in enumerate(cv.split(X_train, y_train)):
        print(f'Fold {fold+1}')
        X_train_fold, X_val = X_train[train_idx], X_train[val_idx]
        y_train_fold, y_val = y_train[train_idx], y_train[val_idx]

        # Transformando classe minoritária em 20% da classe majoritária
        oversample = SMOTE(sampling_strategy=0.2, random_state=42)
        X_train_fold, y_train_fold = oversample.fit_resample(X_train_fold, y_train_fold)

        # Transformando classe majoritária em 1.5x da minoritária
        nm = NearMiss(sampling_strategy=0.6)
        X_train_fold, y_train_fold = nm.fit_resample(X_train_fold, y_train_fold)

        # Mostrando a distribuição do y treino, para ver se o 60% foi respeitado
        print("Distribuição y treino: ", np.unique(y_train_fold, return_counts=True))

        # Clonando o modelo
        model = clone(base_model)

        # Definindo o GridSearch
        grid = GridSearchCV(
            model,
            param_grid=param_grids[name],
            scoring={'recall': 'recall', 'precision': 'precision'},
            refit='recall',  # Use 'recall' to refit the model
            cv=5,
            n_jobs=-1)

        # Ajustando o modelo com os dados balanceados
        grid.fit(X_train_fold, y_train_fold)

        # Usando o melhor modelo
        best_model = grid.best_estimator_

        # Avaliando o modelo
        y_pred = best_model.predict(X_val)

        # Gerando o classification report
        report = classification_report(y_val, y_pred, output_dict=True)
        all_reports[name].append(report)  
        print("Added report! ", len(all_reports[name]))
    

MODELO: kNN
Fold 1
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  1
Fold 2
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  2
Fold 3
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  3
Fold 4
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  4
Fold 5
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  5
MODELO: Logistic Regression
Fold 1
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  1
Fold 2
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  2
Fold 3
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  3
Fold 4
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  4
Fold 5
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  5
MODELO: Random Forest
Fold 1
Distribuição y treino:  (array([0, 1]), array([1500,  900]))
Added report!  1
Fol

In [50]:
print(len(all_reports))

3


In [57]:
print(f"KNN: {len(all_reports['kNN'])}")

KNN: 5


In [58]:
print("Macro AVG para cada modelo:")
print(f"KNN: {all_reports['kNN'][-1]['macro avg']}")
print(f"Logistic Regression: {all_reports['Logistic Regression'][-1]['macro avg']}")
print(f"Random Forest: {all_reports['Random Forest'][-1]['macro avg']}")

Macro AVG para cada modelo:
KNN: {'precision': 0.5939780953027936, 'recall': 0.8570035842293906, 'f1-score': 0.6306923791821561, 'support': 1156.0}
Logistic Regression: {'precision': 0.6379084967320261, 'recall': 0.8599856630824373, 'f1-score': 0.6914138559135733, 'support': 1156.0}
Random Forest: {'precision': 0.6551536806034393, 'recall': 0.7129175627240143, 'f1-score': 0.6789121561239524, 'support': 1156.0}


In [42]:
print("Métricas da classe minoritária para cada modelo:")
print(f"KNN: {all_reports[0]['1']}")
print(f"Logistic Regression: {all_reports[1]['1']}")
print(f"Random Forest: {all_reports[2]['1']}")

Métricas da classe minoritária para cada modelo:
KNN: {'precision': 0.2682926829268293, 'recall': 0.3548387096774194, 'f1-score': 0.3055555555555556, 'support': 31.0}
Logistic Regression: {'precision': 0.18181818181818182, 'recall': 0.1875, 'f1-score': 0.18461538461538463, 'support': 32.0}
Random Forest: {'precision': 0.3114754098360656, 'recall': 0.59375, 'f1-score': 0.40860215053763443, 'support': 32.0}
