# Heart Disease Prediction - MLP (Multi-Layer Perceptron)

Notebook dedicado ao modelo **MLP (Rede Neural)** para a competição Kaggle Playground Series S6E2.
O MLP aprende fronteiras de decisão de forma diferente dos modelos baseados em árvore (XGBoost, LightGBM, CatBoost), trazendo **diversidade** para o ensemble final.

---

## Métrica: ROC-AUC

# 1. ENVIRONMENT SETUP

-------

## 1.1 Instalação de dependências

In [None]:
# Installation of all necessary dependencies
!pip install -q optuna scikit-learn pandas numpy matplotlib seaborn tqdm

## 1.2 Imports

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import KFold, StratifiedKFold, train_test_split, cross_val_score
from sklearn.metrics import roc_auc_score, roc_curve, confusion_matrix, classification_report
from sklearn.base import clone
from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import StandardScaler
import optuna
from optuna.samplers import TPESampler
import warnings
warnings.filterwarnings('ignore')

RANDOM_STATE = 42 #Random seed para repordutibilidade
np.random.seed(RANDOM_STATE)

## 1.3 Data Loading

In [None]:
test = pd.read_csv("data/test.csv") #carega dados de test
train = pd.read_csv("data/train.csv") #carrega dados de treino

print(f"Train shape: {train.shape}")
print(f"Test shape: {test.shape}")
print(f"\nTotal records: {train.shape[0] + test.shape[0]:,}") #quantidade todais de dados

In [None]:
train.head() #primeiras 5 linhas

In [None]:
train.columns

| Feature (Coluna) | Descrição | Tipo de Dado | Detalhes dos Valores |
| :--- | :--- | :--- | :--- |
| **Age** | Idade do paciente (em anos) | Numérico/Inteiro | Idade em anos. |
| **Sex** | Gênero do paciente | Categórico/Binário | 1 = Masculino<br>0 = Feminino |
| **Chest pain type** | Tipo de dor no peito | Categórico | 1 = Angina típica<br>2 = Angina atípica<br>3 = Dor não anginosa<br>4 = Assintomática |
| **BP** | Pressão arterial em repouso (mm Hg) | Numérico/Inteiro | Valor da pressão arterial em mm Hg. |
| **Cholesterol** | Nível de colesterol sérico (mg/dL) | Numérico/Inteiro | Valor do colesterol em mg/dL. |
| **FBS over 120** | Glicemia em jejum > 120 mg/dL | Categórico/Binário | 1 = Verdadeiro<br>0 = Falso |
| **EKG results** | Resultados de eletrocardiograma em repouso | Categórico | 0 = Normal<br>1 = Anormalidade da onda ST-T<br>2 = Hipertrofia ventricular esquerda |
| **Max HR** | Frequência cardíaca máxima alcançada | Numérico/Inteiro | Batimentos máximos alcançados. |
| **Exercise angina** | Angina induzida por exercício | Categórico/Binário | 1 = Sim<br>0 = Não |
| **ST depression** | Depressão do ST induzida por exercício em relação ao repouso | Numérico/Decimal | Valor da depressão do segmento ST. |
| **Slope of ST** | Inclinação do segmento ST do pico de exercício | Categórico | Descreve a inclinação do pico do exercício ST. |
| **Number of vessels fluro** | Número de vasos principais (0-3) coloridos por fluoroscopia | Numérico/Inteiro | Quantidade de vasos (0 a 3). |
| **Thallium** | Resultado do teste de estresse com Tálio (indicador médico categórico) | Categórico | Indicador médico categórico. |
| **Heart Disease** | Variável alvo | Categórico (Alvo) | Presence = Doença cardíaca detectada<br>Absence = Sem doença cardíaca |

In [None]:
train.info()

In [None]:
print(test.isnull().sum())

- Vemos a ausência de dados nulos, não necessitando de tratamento nessa etapa.

In [None]:
train.describe() #estatisticas básicas

- Separar os tipos de features e também o target(variavel alvo)

In [None]:
target = "Heart Disease"
id_col = "id"

numeric_features = [
    "Age",
    "BP",
    "Cholesterol",
    "Max HR",
    "ST depression"
]

categorical_features = [
    "Sex",
    "Chest pain type",
    "FBS over 120",
    "EKG results",
    "Exercise angina",
    "Slope of ST",
    "Number of vessels fluro",
    "Thallium"
]

print(f"Target variable: '{target}'")
print(f"ID column: '{id_col}'")
print(f"\nNumeric features ({len(numeric_features)}): {numeric_features}")
print(f"\nCategorical features ({len(categorical_features)}): {categorical_features}")
print(f"\nTotal features: {len(numeric_features) + len(categorical_features)}")

In [None]:
x_train = train.drop([id_col, target], axis=1) #x sendo os dados de treino sem o id (nao ajudara em nada no modelo e o target)
y_train = train[target] #y sendo o target
X_test = test.drop([id_col], axis=1) #x_teste sendo os dados sem ID, dados de teste não tem o targe (A nossa missão é descobrir)

print(x_train.shape, y_train.shape, X_test.shape)

# 2. EDA

------------------

## 2.1 Análise da variável Alvo

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(14, 5))
target_counts = y_train.value_counts() #contagem de dados target, devolverá a contagem de pessoas com doença e sem doença
target_pct = y_train.value_counts(normalize=True) * 100 #normaliza a contagem onde a soma total é 100%
print(target_pct)

axes[0].bar(target_counts.index, target_counts.values, color=['#2ecc71', '#e74c3c'], edgecolor='black') #Grafico de barra com os valores absoluotos de contagem
axes[0].set_title('Heart Disease Distribution (Counts)', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Heart Disease')
axes[0].set_ylabel('Count')
axes[0].set_xticks([0, 1])
axes[0].set_xticklabels(['No Disease (0)', 'Disease (1)'])
for i, v in enumerate(target_counts.values): #para aparecer o numero nas barras
    axes[0].text(i, v + 1000, f'{v:,}', ha='center', fontweight='bold')

axes[1].pie(target_counts.values, labels=['No Disease (0)', 'Disease (1)'], #grafico de pizza com os valores normalizados
            autopct='%1.1f%%', startangle=90, colors=['#2ecc71', '#e74c3c'])
axes[1].set_title('Heart Disease Distribution (%)', fontsize=14, fontweight='bold')

plt.tight_layout()
plt.show()

## 2.2. Correlação entre features numéricas e target

In [None]:
numeric_data = x_train[numeric_features].copy()
if y_train.dtype == 'object': #convert para dados numericas doneças ou sem doenças
    y_numeric = y_train.map({'Absence': 0, 'Presence': 1}).values #convert 0 e 1
    print(f"Unique values: {y_train.unique()} -> {np.unique(y_numeric)}")
else:
    y_numeric = y_train


numeric_data['Heart Disease'] = y_numeric
correlation_matrix = numeric_data.corr() #matriz de correlação
target_corr = correlation_matrix['Heart Disease'].drop('Heart Disease').sort_values(ascending=False)
fig, axes = plt.subplots(1, 2, figsize=(16, 6))
sns.heatmap(correlation_matrix, annot=True, fmt='.3f', cmap='coolwarm', center=0, 
            ax=axes[0], linewidths=0.5, cbar_kws={'label': 'Correlation'})
axes[0].set_title('Correlation Matrix (Numeric Features + Target)', fontsize=14, fontweight='bold')


target_corr.plot(kind='barh', ax=axes[1], color=['green' if x > 0 else 'red' for x in target_corr]) #para saber quas influenciam em doenças
axes[1].set_title('Feature Correlation with Heart Disease', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Correlation Coefficient')
axes[1].axvline(0, color='black', linewidth=0.8)


plt.tight_layout()
plt.show()

## 2.3 Categorical Features vs Target Analysis

In [None]:
n_categorical = len(categorical_features) #quantidade de variaveis categorias
n_cols = 3
n_rows = (n_categorical + n_cols - 1) // n_cols #quantidade de linha para plots , 3 linhas de graficos
fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, n_rows * 4)) #subplot 3x3
axes = axes.flatten()

for idx, feature in enumerate(categorical_features):
    ax = axes[idx]
    cross_tab = pd.crosstab(x_train[feature], y_train, normalize='index') * 100 #Cruza os dados para contar quantos pacientes existem em cada combinação
    #Transforma os números brutos em proporções dentro de cada categoria. 
    cross_tab.plot(kind='bar', stacked=True, ax=ax, color=['#2ecc71', '#e74c3c'],  #plot das barras
                   edgecolor='black', legend=False)
    ax.set_title(f'{feature} vs Heart Disease', fontweight='bold')#titulo grafico
    ax.set_xlabel(feature)
    ax.set_ylabel('Percentage (%)')
    ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
    ax.grid(alpha=0.3, axis='y')

for idx in range(n_categorical, len(axes)):
    axes[idx].axis('off')

handles = [plt.Rectangle((0,0),1,1, color='#2ecc71'), plt.Rectangle((0,0),1,1, color='#e74c3c')]#cores legenda
labels = ['No Disease (0)', 'Disease (1)'] #labels leganda
fig.legend(handles, labels, loc='upper right', fontsize=12)

plt.tight_layout()
plt.show()

### Análise das Variáveis Categóricas (Incidência de Doença)

* **Sex:** Apresenta uma disparidade significativa; o grupo masculino (1) demonstra uma taxa de incidência de doença consideravelmente superior ao grupo feminino (0), sendo um forte divisor demográfico no modelo.
* **Chest pain type:** O tipo 4 (Assintomática) é o indicador mais crítico, apresentando as maiores taxas de presença da doença, enquanto o tipo 2 (Angina atípica) apresenta a menor incidência proporcional.
* **FBS over 120:** Embora indique risco metabólico, a taxa de doença entre quem tem glicemia alta (>120) é muito similar à de quem tem glicemia normal, sugerindo ser o preditor categórico de menor impacto individual.
* **EKG results:** Pacientes com resultados tipo 2 (Hipertrofia ventricular esquerda) mostram uma probabilidade de doença cardíaca visivelmente maior em comparação aos que apresentam resultados normais (0).
* **Exercise angina:** Um dos preditores mais binários; a presença de angina induzida por exercício (1) eleva drasticamente a taxa de doença cardíaca positiva em comparação a quem não manifesta o sintoma (0).
* **Slope of ST:** A inclinação descendente ou plana no teste de esforço está fortemente correlacionada à presença da doença, enquanto a inclinação ascendente é um forte indicador de ausência (saúde cardíaca).
* **Thallium:** Variável de alta especificidade; o resultado "Reversível" apresenta uma taxa de doença muito superior ao resultado "Normal", tornando-se um dos filtros mais precisos para o diagnóstico final.

# 3. DATA PREPROCESSING

---------------

## 3.1 Categorical Variables Transformation

In [None]:
y_train_transformed = y_train.map({'Absence': 0, 'Presence': 1}).values #absence tera valor 0 e presença valor
print(f"\nTarget shape: {y_train_transformed.shape}")
print(f"Unique values: {np.unique(y_train_transformed)}")
print(f"Distribution: {np.bincount(y_train_transformed)}")

## 3.2 Feature Engineering

In [None]:
from sklearn.linear_model import LogisticRegression

scaler_lr = StandardScaler()# Treinar regressão logística simples
X_scaled = scaler_lr.fit_transform(x_train[numeric_features]) #normaliza dados numerricos
lr = LogisticRegression(random_state=42)
lr.fit(X_scaled, y_train_transformed) #treina modelo

# Extrair coeficientes para usar na criaçao e features
coefficients = dict(zip(numeric_features, lr.coef_[0]))
print("Coeficientes aprendidos:")
for feat, coef in coefficients.items():
    print(f"  {feat}: {coef:.4f}")

In [None]:
def create_features(df):
    df = df.copy()
    eps = 1e-6
    
    # 1. Polynomial features (Square)
    df["Age_sq"] = df["Age"] ** 2
    df["Cholesterol_sq"] = df["Cholesterol"] ** 2
    df["Max HR_sq"] = df["Max HR"] ** 2
    df["ST depression_sq"] = df["ST depression"] ** 2
    
    # 2. Mathematical transformations (Log/Sqrt)
    df["log_age"] = np.log1p(df["Age"])
    df["log_cholesterol"] = np.log1p(df["Cholesterol"])
    df["log_st_depression"] = np.log1p(df["ST depression"])
    df["sqrt_age"] = np.sqrt(df["Age"])
    df["sqrt_cholesterol"] = np.sqrt(df["Cholesterol"])
    df["sqrt_maxhr"] = np.sqrt(df["Max HR"])
    
    # 3. Interactions (Multiplications)
    df["age_x_st_depression"] = df["Age"] * df["ST depression"]
    df["maxhr_x_st_depression"] = df["Max HR"] * df["ST depression"]
    df["age_x_maxhr"] = df["Age"] * df["Max HR"]
    df["age_x_cholesterol"] = df["Age"] * df["Cholesterol"]
    df["cholesterol_x_st_depression"] = df["Cholesterol"] * df["ST depression"]

    # 4. Ratios (Divisions)
    df["cholesterol_per_age"] = df["Cholesterol"] / (df["Age"] + eps)
    df["maxhr_per_age"] = df["Max HR"] / (df["Age"] + eps)
 
    # 5. Differences (Deviation from mean)
    df["age_diff_mean"] = df["Age"] - df["Age"].mean()
    df["cholesterol_diff_mean"] = df["Cholesterol"] - df["Cholesterol"].mean()
    df["maxhr_diff_mean"] = df["Max HR"] - df["Max HR"].mean()
    
    # 6. Binning (Discretization)
    df["age_bin"] = pd.cut(df["Age"], bins=[-1, 40, 50, 60, 100], labels=False)
    df["cholesterol_bin"] = pd.cut(df["Cholesterol"], bins=[-1, 200, 240, 280, 600], labels=False)
    df["maxhr_bin"] = pd.cut(df["Max HR"], bins=[-1, 100, 130, 160, 250], labels=False)
    df["st_bin"] = pd.cut(df["ST depression"], bins=[-1, 0.5, 1.5, 3.0, 10], labels=False)
    
    # 7. Boolean Flags (Risk factors)
    df["elderly"] = (df["Age"] >= 60).astype(int)
    df["high_cholesterol"] = (df["Cholesterol"] >= 240).astype(int)
    df["high_st_depression"] = (df["ST depression"] > 2.0).astype(int)
    
    # 8. Risk Scores
    df["learned_risk_score"] = (
        df["Age"] * 0.4244 +
        df["BP"] * (-0.0044) +
        df["Cholesterol"] * 0.1441 +
        df["Max HR"] * (-1.0234) +
        df["ST depression"] * 0.9945
    )
    
    df["risk_factors_count"] = (
        df["elderly"] + 
        df["high_cholesterol"] + 
        df["high_st_depression"]
    )
    
    return df

In [None]:
x_train_features = create_features(x_train)
X_test_features  = create_features(X_test)
print(f"Features após create_features: {x_train_features.shape[1]}")

# --- 9. Frequency Encoding ---
all_data = pd.concat([x_train_features, X_test_features])
all_features = numeric_features + categorical_features
for col in all_features:
    freq = all_data[col].value_counts(normalize=True)
    x_train_features[col + "_freq"] = x_train_features[col].map(freq)
    X_test_features[col + "_freq"] = X_test_features[col].map(freq)
print(f"Features após Frequency Encoding: {x_train_features.shape[1]}")

## 3.3 Feature Quality Analysis

In [None]:
# Correlation with target
df_corr = x_train_features.copy()
df_corr['target'] = y_train_transformed
corr_target = df_corr.corr(numeric_only=True)['target'].drop('target') #calcula correlação com o target
corr_sorted = corr_target.abs().sort_values(ascending=False)

#Visualization Features
height = 12
plt.figure(figsize=(14, height))

top_corr = corr_target.loc[corr_sorted.head(42).index]
colors = ['green' if x > 0 else 'red' for x in top_corr.values]

bars = plt.barh(range(len(top_corr)), top_corr.values, color=colors)
plt.yticks(range(len(top_corr)), top_corr.index)
plt.xlabel('Correlation Coefficient', fontsize=12)
plt.title('Top Features - Correlation with Heart Disease', fontsize=14, fontweight='bold')
plt.axvline(0, color='black', linewidth=0.8)
plt.grid(alpha=0.3, axis='x')

for i, (feat, val) in enumerate(zip(top_corr.index, top_corr.values)):
    plt.text(val + 0.01 if val > 0 else val - 0.01, i, f'{val:.3f}', 
             va='center', ha='left' if val > 0 else 'right', fontsize=9)
plt.tight_layout()
plt.show()

## 3.4 Normalização (StandardScaler)

MLP é sensível à escala dos dados. Diferente de árvores (XGBoost, LightGBM), redes neurais precisam que todas as features estejam na mesma escala para convergir corretamente.

In [None]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(x_train_features)
X_test_scaled = scaler.transform(X_test_features)

print(f"X_train_scaled shape: {X_train_scaled.shape}")
print(f"X_test_scaled shape: {X_test_scaled.shape}")
print(f"\nMean (primeiras 5 features): {X_train_scaled[:, :5].mean(axis=0).round(4)}")
print(f"Std  (primeiras 5 features): {X_train_scaled[:, :5].std(axis=0).round(4)}")

## 3.5 Model Evaluation Function (Cross-Validation)

Adaptada para MLP - usa dados já normalizados e não usa `clone()` (MLP precisa de recriação manual para reset de pesos).

In [None]:
def evaluate_mlp_cv(model_params, X, y, X_test=None, cv=5):
    """
    Avalia MLP com cross-validation.
    Recebe params dict ao invés de modelo, pois MLP precisa ser recriado a cada fold
    para resetar os pesos da rede neural.
    """
    skf = StratifiedKFold(n_splits=cv, shuffle=True, random_state=42)
    roc_auc_scores = []
    oof_preds = np.zeros(len(y))
    
    if X_test is not None:
        test_preds_folds = np.zeros((len(X_test), cv))
    
    for fold, (train_idx, val_idx) in enumerate(skf.split(X, y)):
        X_train_fold = X[train_idx]
        X_val_fold = X[val_idx]
        y_train_fold = y[train_idx]
        y_val_fold = y[val_idx]
        
        # Cria novo MLP a cada fold (pesos resetados)
        model_fold = MLPClassifier(**model_params)
        model_fold.fit(X_train_fold, y_train_fold)
        
        oof_preds[val_idx] = model_fold.predict_proba(X_val_fold)[:, 1]
        
        if X_test is not None:
            test_preds_folds[:, fold] = model_fold.predict_proba(X_test)[:, 1]
        
        roc_auc = roc_auc_score(y_val_fold, oof_preds[val_idx])
        roc_auc_scores.append(roc_auc)
    
    if X_test is not None:
        test_preds = test_preds_folds.mean(axis=1)
        return np.array(roc_auc_scores), oof_preds, test_preds
    
    return np.array(roc_auc_scores), oof_preds

# 4. MLP - Otimização com Optuna

----------

O Optuna vai buscar a melhor arquitetura de rede neural:
- Número de camadas ocultas (1 a 3)
- Número de neurônios por camada
- Learning rate
- Regularização (alpha)
- Função de ativação
- Batch size

In [None]:
def objective_mlp(trial):
    # Arquitetura da rede
    n_layers = trial.suggest_int('n_layers', 1, 3)
    layers = []
    for i in range(n_layers):
        n_units = trial.suggest_int(f'n_units_l{i}', 64, 512)
        layers.append(n_units)
    
    params = {
        'hidden_layer_sizes': tuple(layers),
        'activation': trial.suggest_categorical('activation', ['relu', 'tanh']),
        'learning_rate_init': trial.suggest_float('learning_rate_init', 1e-4, 1e-2, log=True),
        'alpha': trial.suggest_float('alpha', 1e-6, 1e-1, log=True),
        'batch_size': trial.suggest_categorical('batch_size', [256, 512, 1024, 2048]),
        'max_iter': 300,
        'early_stopping': True,
        'validation_fraction': 0.1,
        'n_iter_no_change': 15,
        'random_state': 42,
        'solver': 'adam',
    }
    
    # CV com 3 folds para ser mais rápido na busca
    skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
    scores = []
    
    for train_idx, val_idx in skf.split(X_train_scaled, y_train_transformed):
        X_tr = X_train_scaled[train_idx]
        X_val = X_train_scaled[val_idx]
        y_tr = y_train_transformed[train_idx]
        y_val = y_train_transformed[val_idx]
        
        model = MLPClassifier(**params)
        model.fit(X_tr, y_tr)
        
        y_pred = model.predict_proba(X_val)[:, 1]
        scores.append(roc_auc_score(y_val, y_pred))
    
    return np.mean(scores)

# Rodar Optuna
sampler = TPESampler(seed=42)
study_mlp = optuna.create_study(direction='maximize', sampler=sampler)
study_mlp.optimize(objective_mlp, n_trials=50, show_progress_bar=True)

print(f"\nMelhor ROC-AUC: {study_mlp.best_value:.6f}")
print(f"Melhores parâmetros:")
for key, value in study_mlp.best_params.items():
    print(f"  {key}: {value}")

## 4.1 Visualização do Optuna

In [None]:
# Histórico de trials
fig, axes = plt.subplots(1, 2, figsize=(16, 5))

# Optimization history
trials = study_mlp.trials
values = [t.value for t in trials if t.value is not None]
axes[0].plot(values, 'o-', alpha=0.6, markersize=4)
axes[0].axhline(y=study_mlp.best_value, color='r', linestyle='--', label=f'Best: {study_mlp.best_value:.6f}')
axes[0].set_xlabel('Trial')
axes[0].set_ylabel('ROC-AUC')
axes[0].set_title('Optuna MLP - Optimization History', fontweight='bold')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Importância dos hiperparâmetros
importances = optuna.importance.get_param_importances(study_mlp)
params_names = list(importances.keys())[:10]
params_values = list(importances.values())[:10]
axes[1].barh(params_names, params_values, color='steelblue')
axes[1].set_xlabel('Importance')
axes[1].set_title('Hyperparameter Importance', fontweight='bold')
axes[1].grid(alpha=0.3, axis='x')

plt.tight_layout()
plt.show()

## 4.2 MLP com melhores parâmetros do Optuna

----------

Agora treina o MLP final com os melhores parâmetros encontrados, usando 5-fold CV completo.

In [None]:
# Reconstruir hidden_layer_sizes a partir dos best_params
best = study_mlp.best_params
n_layers = best['n_layers']
layers = tuple(best[f'n_units_l{i}'] for i in range(n_layers))

best_mlp_params = {
    'hidden_layer_sizes': layers,
    'activation': best['activation'],
    'learning_rate_init': best['learning_rate_init'],
    'alpha': best['alpha'],
    'batch_size': best['batch_size'],
    'max_iter': 500,
    'early_stopping': True,
    'validation_fraction': 0.1,
    'n_iter_no_change': 20,
    'random_state': 42,
    'solver': 'adam',
}

print(f"Arquitetura MLP: {layers}")
print(f"Activation: {best['activation']}")
print(f"Learning rate: {best['learning_rate_init']:.6f}")
print(f"Alpha: {best['alpha']:.6f}")
print(f"Batch size: {best['batch_size']}")

roc_scores_mlp, oof_mlp, y_test_proba_mlp = evaluate_mlp_cv(
    best_mlp_params, X_train_scaled, y_train_transformed, X_test_scaled, cv=5
)

for fold, score in enumerate(roc_scores_mlp, 1):
    print(f"  Fold {fold}: {score:.4f}")
print(f"\nMean ROC-AUC: {roc_scores_mlp.mean():.4f}")

In [None]:
submission_mlp = pd.DataFrame({
    'id': test['id'],
    'Heart Disease': y_test_proba_mlp
})

submission_mlp.to_csv('submission_MLP.csv', index=False)
print("MLP submission salvo: submission_MLP.csv")

# 5. Salvar parâmetros otimizados

Salva os melhores parâmetros para uso futuro no ensemble com os modelos boost.

In [None]:
import json
import os

os.makedirs('Optuna_results', exist_ok=True)

# Salvar parâmetros
mlp_results = {
    'best_params': {
        'hidden_layer_sizes': list(layers),
        'activation': best['activation'],
        'learning_rate_init': best['learning_rate_init'],
        'alpha': best['alpha'],
        'batch_size': best['batch_size'],
    },
    'best_roc_auc_optuna': study_mlp.best_value,
    'mean_roc_auc_5fold': float(roc_scores_mlp.mean()),
    'fold_scores': roc_scores_mlp.tolist(),
    'n_trials': len(study_mlp.trials),
}

with open('Optuna_results/mlp_best_params.json', 'w') as f:
    json.dump(mlp_results, f, indent=2)

print("Resultados salvos em Optuna_results/mlp_best_params.json")
print(f"\nResumo:")
print(f"  Arquitetura: {layers}")
print(f"  ROC-AUC (Optuna 3-fold): {study_mlp.best_value:.6f}")
print(f"  ROC-AUC (Final 5-fold):  {roc_scores_mlp.mean():.6f}")