In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, f1_score, balanced_accuracy_score, ConfusionMatrixDisplay, recall_score, precision_score
from sklearn.model_selection import train_test_split
import seaborn as sns
import os

In [None]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_row', None)

In [None]:
!pwd

In [None]:
path = '../data/data_processed/participants'
file = 'Participants_all.parquet'

In [None]:
df = pd.read_parquet(os.path.join(path, file))

In [None]:
df.head()

In [6]:
df_test = df[df["pid"] == "P001"]
df_train = df[df["pid"] != "P001"]

In [7]:
cols_to_drop = [
    "label:WillettsSpecific2018_enc",
    "label:WillettsMET2018",
    "label:WillettsMET2018_enc",
    "label:WillettsSpecific2018",
    "pid",
    "window_start",
    "window_end",
    "n_samples",
    "duration_seconds",
    "sex","age_group",
    "label:Walmsley2020_enc",
    "label:Walmsley2020",
    "magnitude_mean"

]


In [9]:
X_train = df_train.drop(columns=cols_to_drop)
y_train = df_train["label:Walmsley2020_enc"]

In [8]:
X_test = df_test.drop(columns=cols_to_drop)
y_test = df_test["label:Walmsley2020_enc"]

In [10]:
"""Faz o imputer com medianas para o SMOTE"""
imputer = SimpleImputer(strategy="median")
X_train_imputed = imputer.fit_transform(X_train)
X_test_imputed = imputer.fit_transform(X_test)

### Comparando antes e depois do imputer

In [None]:
print("NaNs no X_train antes:")
print(X_train.isna().sum())

print("NaNs no X_test antes:")
print(X_test.isna().sum())

In [None]:
print("Antes (train):")
print(X_train.describe())

print("Depois (train):")
print(X_train_imp.describe())

In [None]:
"""Smote vai criar novos dados sint√©ticos para as classes minorit√°rias a fim de diminuir o desbalancento. """
smote = SMOTE(random_state=42, k_neighbors=5)
X_train_resampled, y_train_resampled = smote.fit_resample(X_train_imputed, y_train)

### Comparando antes e depois do SMOTE

In [None]:
print("Distribui√ß√£o antes:", y_train.value_counts().to_dict())
print("Distribui√ß√£o depois:", pd.Series(y_train_res).value_counts().to_dict())

In [None]:
print("X_train antes:", X_train.shape)
print("X_train depois do imputer:", X_train_imp.shape)
print("X_train depois do SMOTE:", X_train_resampled.shape)

### Rodando o modelo

In [None]:
"""class_weight="balanced" => ajudaa o modelo a n√£o ignorar a classe minorit√°ria e corrige um pouco o desbalanceamento;
    oob_score=True => out of bag: 'mini conjunto de valida√ß√£o' que usa os dados que a aleatoriedade do random_forest nao usou para treinar o modelo;
    bootstrap=True => possibilita que o oob seja executado, pois cada amostra √© treinada com uma amostra com reposi√ß√£o (assim o X_train nao fica o mesmo)"""
rforest = RandomForestClassifier(
        n_estimators=150,
        max_depth=15,
        class_weight="balanced",
        bootstrap=True,
        oob_score=True,
        random_state=42,
        n_jobs=-1
)

In [None]:
rforest.fit(X_train_resampled, y_train_resampled)

### Checando o modelo

In [21]:
y_pred = rforest.predict(X_test_imputed)
y_pred

array([3, 3, 3, ..., 3, 3, 3], shape=(37381,))

In [22]:
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.79      0.77      0.78     10856
           1       0.05      0.71      0.09        84
           2       0.86      0.82      0.84     12509
           3       0.99      0.97      0.98     13932

    accuracy                           0.86     37381
   macro avg       0.67      0.82      0.67     37381
weighted avg       0.89      0.86      0.87     37381

[[ 8324  1189  1343     0]
 [   15    60     9     0]
 [ 2111    47 10255    96]
 [  106     4   306 13516]]


In [None]:
prec, rec, f1, sup = precision_recall_fscore_support(y_test, y_pred, average=None)
print("Per-class P/R/F1:", list(zip(prec, rec, f1, sup)))

In [16]:
### APAGAR OOB DEPOIS. fICA AQUI SO DE CURIOSIDADE. ELE NAO √â UM BOM MEIO PARA VALIDACAO EXTERNA
print("OOB Accuracy:", rforest.oob_score_)

OOB Accuracy: 0.852690922235511


In [24]:
classes = sorted(list(set(y_test)))  #classes presentes no y_test (no caso, P001)

#  calcula m√©tricas s√≥ para essas classes
precision = precision_score(y_test, y_pred, average=None, labels=classes)
recall    = recall_score(y_test, y_pred, average=None, labels=classes)
f1        = f1_score(y_test, y_pred, average=None, labels=classes)

#  traduzindo as classes
class_names = {
    0: "Light",
    1: "Moderate/Vigorous",
    2: "Sedentary",
    3: "Sleep"
}

#  dataframe final de m√©tricas por classe
df_metrics_test = pd.DataFrame({
    "Classe": classes,
    "Categoria": [class_names[c] for c in classes],
    "Precision": precision,
    "Recall": recall,
    "F1": f1
})

df_metrics_test

NameError: name 'y' is not defined

2. O que balanceia classes √©:

‚úî class_weight="balanced"
ou
‚úî class_weight={"classe1": peso1, ...}

E s√≥ isso.

O que voc√™ usou no modelo:

class_weight="balanced"


Isso sim afeta o treinamento.

Mas‚Ä¶

üü• 3. Por que mesmo com class_weight="balanced" a precision da classe 1 ficou 0.05?

Porque:

üîπ A classe 1 tem suporte absurdamente pequeno (s√≥ 84 amostras)

Mesmo com peso aumentado, o modelo:

n√£o tem exemplos suficientes para aprender padr√µes consistentes

ent√£o exagera nas previs√µes para tentar n√£o perder exemplos ‚Üí recall sobe

mas isso gera muitos falsos positivos ‚Üí precision cai

Isso √© t√≠pico de:

‚ÄúClasse rar√≠ssima + class_weight = recall bom, precision horr√≠vel‚Äù
üü© 4. Aumentar peso N√ÉO cria mais exemplos

Ele s√≥ aumenta o erro quando a classe √© mal classificada.

Mas se a classe √© muito pequena, o modelo:

aprende muito pouco

e tenta compensar aumentando previs√µes ‚Üí precision despenca

Nenhuma t√©cnica de reweighting resolve isso sozinha.

üü¶ 5. Como resolver precision baixa em classe muito rara?
‚úî 1. Oversampling da classe 1

SMOTE

RandomOversampler

ADASYN

‚úî 2. Threshold tuning

Trocar o limite de 0.5 por um threshold calibrado para reduzir falsos positivos.
Muito eficiente.

‚úî 3. Reduzir complexidade da floresta

(depth menor, min_samples_leaf maior) ‚Äî reduz falsos positivos.

‚úî 4. Agrupar classes muito parecidas

√Äs vezes, a classe √© t√£o rara e indistingu√≠vel que √© invi√°vel isol√°-la.

‚úî 5. Criar features espec√≠ficas para essa atividade

Ex.: spectral features, jerk, vari√¢ncia em janelas menores.

‚úî 6. Tentar modelos com melhor sensibilidade para minoria

XGBoost

CatBoost

Logistic regression com class_weight

Calibrated random forest

üüß 6. Conclus√£o pr√°tica, bem direta
‚ùó OOB n√£o resolve desbalanceamento
‚ùó class_weight="balanced" melhora, mas n√£o faz milagre
‚ùó Classe extremamente rara (support 84) ‚Üí precision tende a ser p√©ssima
‚úî Recall bom √© esperado
‚úî F1 baixo √© normal
‚úî A solu√ß√£o envolve mais dados, oversampling ou ajuste de threshold

Fazer SMOTE!