## 4.2 Stop right now, thank you very much

#### Objetivo: 
implemente uma estratégia de Parada Antecipada (Early Stopping) no
processo de treino da rede neural feita em Python puro ou no processo de treino da rede
neural feita em PyTorch

## Introdução

O processo de treinamento de uma rede neural costuma envolver a otimização iterativa dos pesos até um número máximo de épocas seja alcançado. No entanto, treinar por muitas épocas pode levar a **overfitting**, que é quando o modelo começa a ajustar-se demais aos ruídos dos dados de treinamento e perde capacidade de generalização nos exemplos novos. Uma estratégia simples e eficiente para contornar esse problema é a **Parada Antecipada (Early Stopping)**, que interrompe o treino tão logo a performance em um conjunto de validação deixe de melhorar.

Neste notebook implementamos o Early Stopping em uma rede neural feita no Pytorch, aproveitando o mecanismo de `torch.nn` e `torch.optim`.  
Para esse trabalho, vamos usar um dataset associado a dados cardíacos onde será feito um tratamento dos dados(retirada de colunas que não são funcionais, normalização dos dados e divisão em dados de treino, validação e teste). Além disso, será necessários converter os dados em Tensores, que é uma necessidade para usar o Pytotch.
Vamos monitorar a **loss** no conjunto de validação a cada época, salvar o melhor estado de parâmetros e interromper o treino quando não houver melhora após um número fixo de épocas (paciencia), garantindo que não ocorra overfitting.


In [1]:
import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler


  from pandas.core import (


ModuleNotFoundError: No module named 'torch'

In [2]:
class MLP(nn.Module):
    def __init__(self, num_dados_entrada, neuronios_c1, neuronios_c2, num_targets):
        super().__init__()
        
        self.camadas = nn.Sequential(
            nn.Linear(num_dados_entrada, neuronios_c1),
            nn.Sigmoid(),
            nn.Linear(neuronios_c1, neuronios_c2),
            nn.Sigmoid(),
            nn.Linear(neuronios_c2, num_targets),
        )
        
    def forward(self, x):
        x = self.camadas(x)
        return x

In [None]:

df = pd.read_csv("C:/Users/marco24038/OneDrive - ILUM ESCOLA DE CIÊNCIA/Redes Neurais e Algoritmos Genéticos/Redes_Neurais_Trabalhos/Feras formidáveis/Fera 4.2/Medicaldataset.csv")
df


Unnamed: 0,Age,Gender,Heart rate,Systolic blood pressure,Diastolic blood pressure,Blood sugar,CK-MB,Troponin,Result
0,64,1,66,160,83,160.0,1.80,0.012,negative
1,21,1,94,98,46,296.0,6.75,1.060,positive
2,55,1,64,160,77,270.0,1.99,0.003,negative
3,64,1,70,120,55,270.0,13.87,0.122,positive
4,55,1,64,112,65,300.0,1.08,0.003,negative
...,...,...,...,...,...,...,...,...,...
1314,44,1,94,122,67,204.0,1.63,0.006,negative
1315,66,1,84,125,55,149.0,1.33,0.172,positive
1316,45,1,85,168,104,96.0,1.24,4.250,positive
1317,54,1,58,117,68,443.0,5.80,0.359,positive


In [4]:
X = df.drop(columns=["Blood sugar", "Result", "Gender"])
y = df["Blood sugar"].values.reshape(-1, 1)

X_temp, X_test, y_temp, y_test = train_test_split(X, y, test_size=0.1, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_temp, y_temp, test_size=0.1, random_state=42)

In [5]:
scaler_X = StandardScaler()
scaler_y = StandardScaler()

X_train = scaler_X.fit_transform(X_train)
X_val = scaler_X.transform(X_val)
X_test = scaler_X.transform(X_test)

y_train = scaler_y.fit_transform(y_train)
y_val = scaler_y.transform(y_val)
y_test = scaler_y.transform(y_test)
y_test

array([[-4.29050602e-02],
       [-7.37248828e-01],
       [-4.92186322e-01],
       [-1.92665481e-01],
       [-6.41946742e-01],
       [ 1.88542862e-01],
       [-6.41946742e-01],
       [-6.41946742e-01],
       [-7.78092579e-01],
       [-8.87009248e-01],
       [ 3.74194920e+00],
       [-5.19415489e-01],
       [ 8.69272046e-01],
       [ 1.07349080e+00],
       [-5.19415489e-01],
       [-4.92186322e-01],
       [-5.60259240e-01],
       [-6.28332158e-01],
       [ 5.36208466e+00],
       [ 2.56615781e-01],
       [-4.10498820e-01],
       [-5.33030073e-01],
       [ 3.33351169e+00],
       [ 6.78667875e-01],
       [-6.41946742e-01],
       [-1.38207146e-01],
       [-7.50863412e-01],
       [-5.87488407e-01],
       [-6.41946742e-01],
       [-7.50863412e-01],
       [-6.14717575e-01],
       [-5.19415489e-01],
       [-6.82790493e-01],
       [-4.10498820e-01],
       [-2.06130916e-03],
       [ 3.79147034e-01],
       [-4.37727987e-01],
       [-6.96405077e-01],
       [-7.2

In [6]:

X_train_tensor = torch.tensor(X_train, dtype=torch.float32)
X_val_tensor = torch.tensor(X_val, dtype=torch.float32)
X_test_tensor = torch.tensor(X_test, dtype=torch.float32)

y_train_tensor = torch.tensor(y_train, dtype=torch.float32)
y_val_tensor = torch.tensor(y_val, dtype=torch.float32)
y_test_tensor = torch.tensor(y_test, dtype=torch.float32)


In [7]:
NUM_DADOS_DE_ENTRADA = X_train.shape[1] 
NUM_DADOS_DE_SAIDA = 1  
NEURONIOS_C1 = 5  
NEURONIOS_C2 = 3  

minha_mlp = MLP(
    NUM_DADOS_DE_ENTRADA, NEURONIOS_C1, NEURONIOS_C2, NUM_DADOS_DE_SAIDA
)

In [8]:
TAXA_DE_APRENDIZADO = 0.001
otimizador = optim.SGD(minha_mlp.parameters(), lr=TAXA_DE_APRENDIZADO)


fn_perda = nn.MSELoss()

In [9]:
NUM_EPOCAS = 1000
paciencia = 10
min_delta = 0.001
melhor_loss = float("inf")
contador_paciencia = 0

minha_mlp.train()

for epoca in range(NUM_EPOCAS):
    y_pred = minha_mlp(X_train_tensor)

    otimizador.zero_grad()

    loss = fn_perda(y_pred, y_train_tensor)
    
    y_pred_val = minha_mlp(X_val_tensor)
    loss_val = fn_perda(y_pred_val, y_val_tensor)

    loss.backward()

    otimizador.step()
    
    print(f"Época {epoca}: perda treino = {loss.item():.4f}, perda validação = {loss_val.item():.4f}")

    # === EARLY STOPPING COM BASE NA VALIDAÇÃO ===
    if loss_val.item() < melhor_loss - min_delta:
        melhor_loss = loss_val.item()
        contador_paciencia = 0
    else:
        contador_paciencia += 1
        if contador_paciencia >= paciencia:
            print(f"Parada antecipada na época {epoca} com perda da validação = {loss_val.item():.4f}")
            break

Época 0: perda treino = 1.2303, perda validação = 1.2723
Época 1: perda treino = 1.2284, perda validação = 1.2708
Época 2: perda treino = 1.2266, perda validação = 1.2693
Época 3: perda treino = 1.2248, perda validação = 1.2679
Época 4: perda treino = 1.2230, perda validação = 1.2665
Época 5: perda treino = 1.2213, perda validação = 1.2650
Época 6: perda treino = 1.2195, perda validação = 1.2636
Época 7: perda treino = 1.2178, perda validação = 1.2622
Época 8: perda treino = 1.2160, perda validação = 1.2609
Época 9: perda treino = 1.2143, perda validação = 1.2595
Época 10: perda treino = 1.2126, perda validação = 1.2581
Época 11: perda treino = 1.2109, perda validação = 1.2568
Época 12: perda treino = 1.2093, perda validação = 1.2555
Época 13: perda treino = 1.2076, perda validação = 1.2541
Época 14: perda treino = 1.2059, perda validação = 1.2528
Época 15: perda treino = 1.2043, perda validação = 1.2515
Época 16: perda treino = 1.2027, perda validação = 1.2502
Época 17: perda treino =

Época 167: perda treino = 1.0612, perda validação = 1.1468
Época 168: perda treino = 1.0607, perda validação = 1.1465
Época 169: perda treino = 1.0602, perda validação = 1.1462
Época 170: perda treino = 1.0597, perda validação = 1.1459
Época 171: perda treino = 1.0593, perda validação = 1.1456
Época 172: perda treino = 1.0588, perda validação = 1.1453
Época 173: perda treino = 1.0583, perda validação = 1.1450
Época 174: perda treino = 1.0579, perda validação = 1.1447
Época 175: perda treino = 1.0574, perda validação = 1.1445
Época 176: perda treino = 1.0570, perda validação = 1.1442
Época 177: perda treino = 1.0565, perda validação = 1.1439
Época 178: perda treino = 1.0561, perda validação = 1.1436
Época 179: perda treino = 1.0556, perda validação = 1.1434
Época 180: perda treino = 1.0552, perda validação = 1.1431
Época 181: perda treino = 1.0548, perda validação = 1.1428
Época 182: perda treino = 1.0543, perda validação = 1.1426
Época 183: perda treino = 1.0539, perda validação = 1.14

## Conclusão


Em síntese, este notebook demonstrou como o early stopping pode atuar como um critério de parada inteligente em redes neurais, interrompendo o processo assim que a métrica de validação deixa de melhorar. Observamos, que em geral há um ponto em que o modelo começa a dar overfitting no conjunto de treino e a performance em validação estagna ou piora; ao aplicar early stopping, capturamos exatamente a iteração ótima, garantindo maior capacidade do modelo.

Além do ganho em qualidade do modelo, o uso desse mecanismo também trouxe economia de tempo de treinamento, evitando ciclos extras de ajuste que não trazem benefício de validação. Como resultado, conseguimos um modelo com menor custo computacional e reduzimos o risco de overfitting sem precisar adivinhar o número exato de épocas. 

## Referências



- Cassar, Daniel R. - Material da disciplina de Redes Neurais e Algoritmos genéticos. 2025
- [medium](https://cyborgcodes.medium.com/what-is-early-stopping-in-deep-learning-eeb1e710a3cf)
- [dataset](https://www.kaggle.com/)