# üéì Pipeline de Treinamento do Modelo LSTM

Este notebook demonstra o **pipeline completo** de treinamento do modelo LSTM para previs√£o de a√ß√µes.

## üìö O que voc√™ vai aprender

1. Como carregar e preparar dados de a√ß√µes
2. Como criar features para o modelo
3. Como dividir dados para treino/valida√ß√£o/teste
4. Como treinar o modelo LSTM
5. Como avaliar e salvar o modelo

---

## Passo 1: Configura√ß√£o do Ambiente


In [2]:
import sys
from pathlib import Path

# Adicionar o diret√≥rio raiz ao path
project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

# Importa√ß√µes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datetime import datetime

# Nossos m√≥dulos
from src.data.data_loader import StockDataLoader
from src.data.preprocessor import StockDataPreprocessor
from src.training.improved_trainer import ImprovedModelTrainer

print("‚úÖ Ambiente configurado!")


‚úÖ Ambiente configurado!


## Passo 2: Carregar Dados de A√ß√µes

Usamos a biblioteca `yfinance` para baixar dados hist√≥ricos de a√ß√µes.

**Por que dados p√≥s-2021?**
- O crash de COVID em 2020 foi um evento at√≠pico
- Treinar com dados p√≥s-COVID resulta em modelos mais est√°veis


In [3]:
# Configura√ß√µes
SYMBOL = "AAPL"  # Ticker da Apple
START_DATE = "2021-01-01"  # Dados p√≥s-COVID
END_DATE = datetime.now().strftime("%Y-%m-%d")

print(f"üìä Carregando dados de {SYMBOL}")
print(f"üìÖ Per√≠odo: {START_DATE} at√© {END_DATE}")

# Carregar dados
loader = StockDataLoader()
df = loader.load_stock_data(SYMBOL, START_DATE, END_DATE)

print(f"‚úÖ Carregados {len(df)} registros")
df.head()


[32m2025-12-03 19:38:39.316[0m | [1mINFO    [0m | [36msrc.data.data_loader[0m:[36mload_stock_data[0m:[36m39[0m - [1mDownloading data for AAPL from 2021-01-01 to 2025-12-03[0m


üìä Carregando dados de AAPL
üìÖ Per√≠odo: 2021-01-01 at√© 2025-12-03


[32m2025-12-03 19:38:40.665[0m | [1mINFO    [0m | [36msrc.data.data_loader[0m:[36mload_stock_data[0m:[36m91[0m - [1mSuccessfully loaded 1235 records for AAPL[0m


‚úÖ Carregados 1235 registros


Price,timestamp,close,high,low,open,volume,year,month,day,day_of_week,symbol
0,2021-01-04,125.974457,130.062953,123.394807,129.975346,143301900,2021,1,4,0,AAPL
1,2021-01-05,127.531982,128.242613,125.020474,125.468268,97664900,2021,1,5,1,AAPL
2,2021-01-06,123.239067,127.570935,123.024906,124.329336,155088000,2021,1,6,2,AAPL
3,2021-01-07,127.444374,128.135532,124.465612,124.952339,109578200,2021,1,7,3,AAPL
4,2021-01-08,128.544403,129.109007,126.772712,128.914305,105158200,2021,1,8,4,AAPL


## Passo 3: Feature Engineering

Criamos features adicionais que ajudam o modelo a aprender padr√µes:

| Feature | Descri√ß√£o |
|---------|-----------|
| **ma_7, ma_30, ma_90** | M√©dias m√≥veis de 7, 30 e 90 dias |
| **volatility_7, volatility_30** | Desvio padr√£o dos retornos |
| **momentum** | Tend√™ncia de pre√ßo |
| **roc_7, roc_30** | Rate of Change |
| **volume_ma_7** | Volume normalizado |


In [4]:
# Criar preprocessador com sequ√™ncia de 60 dias
preprocessor = StockDataPreprocessor(sequence_length=60)

# Transformar dados em sequ√™ncias
X, y, df_processed = preprocessor.fit_transform(df)

print(f"üìä Formato dos dados:")
print(f"   X (features): {X.shape}")
print(f"   y (targets): {y.shape}")
print(f"\nüìù Interpreta√ß√£o:")
print(f"   - {X.shape[0]} amostras")
print(f"   - {X.shape[1]} dias por sequ√™ncia")
print(f"   - {X.shape[2]} features por dia")


[32m2025-12-03 19:39:19.520[0m | [1mINFO    [0m | [36msrc.data.preprocessor[0m:[36mfit_transform[0m:[36m141[0m - [1mCreated 1175 sequences with shape (1175, 60, 16)[0m


üìä Formato dos dados:
   X (features): (1175, 60, 16)
   y (targets): (1175,)

üìù Interpreta√ß√£o:
   - 1175 amostras
   - 60 dias por sequ√™ncia
   - 16 features por dia


## Passo 4: Treinar o Modelo

O `ImprovedModelTrainer` inclui v√°rias t√©cnicas avan√ßadas:

- **Early Stopping**: Para quando o modelo n√£o melhora mais
- **Learning Rate Scheduler**: Reduz LR automaticamente
- **Gradient Clipping**: Evita explos√£o de gradientes
- **Attention Mechanism**: Foca nas partes importantes da sequ√™ncia


In [5]:
# Criar trainer com configura√ß√µes
trainer = ImprovedModelTrainer(
    symbol=SYMBOL,
    epochs=80,           # M√°ximo de √©pocas
    patience=10,         # Parar se n√£o melhorar em 10 √©pocas
    batch_size=32,
    hidden_size=64,      # Tamanho da camada oculta
    num_layers=3,        # 3 camadas LSTM
    dropout=0.3          # 30% dropout
)

# Executar pipeline completo de treinamento
print("üöÄ Iniciando treinamento...")
print("   Isso pode demorar alguns minutos.\n")

metrics = trainer.run_training_pipeline(
    start_date=START_DATE,
    end_date=END_DATE,
    train_split=0.7,
    val_split=0.15
)

print("\n‚úÖ Treinamento conclu√≠do!")


[32m2025-12-03 19:39:35.631[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mrun_training_pipeline[0m:[36m404[0m - [1müéØ Treinando modelo para AAPL[0m
[32m2025-12-03 19:39:35.636[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mrun_training_pipeline[0m:[36m405[0m - [1müìÖ Per√≠odo: 2021-01-01 at√© 2025-12-03[0m
[32m2025-12-03 19:39:35.639[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mrun_training_pipeline[0m:[36m409[0m - [1müì• Carregando dados...[0m
[32m2025-12-03 19:39:35.642[0m | [1mINFO    [0m | [36msrc.data.data_loader[0m:[36mload_stock_data[0m:[36m39[0m - [1mDownloading data for AAPL from 2021-01-01 to 2025-12-03[0m
[32m2025-12-03 19:39:35.779[0m | [1mINFO    [0m | [36msrc.data.data_loader[0m:[36mload_stock_data[0m:[36m91[0m - [1mSuccessfully loaded 1235 records for AAPL[0m
[32m2025-12-03 19:39:35.784[0m | [1mINFO    [0m | [36msrc.data.data_loader[0m:[36mvalidate_da

üöÄ Iniciando treinamento...
   Isso pode demorar alguns minutos.



[32m2025-12-03 19:39:39.086[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m185[0m - [1müöÄ Iniciando treinamento: 80 √©pocas, batch=32[0m
[32m2025-12-03 19:39:39.087[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m186[0m - [1müìä Dados: 822 treino, 176 valida√ß√£o[0m
[32m2025-12-03 19:39:40.440[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m212[0m - [1m‚úÖ Epoch 1: Nova melhor val_loss=0.155466[0m
[32m2025-12-03 19:39:41.663[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m212[0m - [1m‚úÖ Epoch 2: Nova melhor val_loss=0.131209[0m
[32m2025-12-03 19:39:42.830[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m212[0m - [1m‚úÖ Epoch 3: Nova melhor val_loss=0.109055[0m
[32m2025-12-03 19:39:43.958[0m | [1mINFO    [0m | [36msrc.training.improved_trainer[0m:[36mfit[0m:[36m212[0m - [1m‚úÖ Epoch 4:


‚úÖ Treinamento conclu√≠do!


## Passo 5: Analisar Resultados

Vamos interpretar as m√©tricas do modelo treinado.


In [7]:
print("üìä M√âTRICAS DO MODELO")
print("=" * 40)
rmse = metrics.get('rmse', 0)
mae = metrics.get('mae', 0)
mape = metrics.get('mape', 0)
r2 = metrics.get('r2', 0)
directional_acc = metrics.get('directional_accuracy', 0)

print(f"   RMSE (Root Mean Square Error): ${rmse:.2f}")
print("     - Mede o erro m√©dio quadr√°tico entre as previs√µes e valores reais.")
print("     - Quanto menor, melhor. Muito usado para avaliar previs√µes de pre√ßos.")
print(f"   MAE (Mean Absolute Error): ${mae:.2f}")
print("     - Erro m√©dio absoluto. Representa o erro m√©dio real (em d√≥lares) entre previs√£o e valor real.")
print("     - Quanto menor, melhor.")

print(f"   MAPE (Mean Absolute Percentage Error): {mape:.2f}%")
print("     - Erro percentual m√©dio absoluto. Indica o erro m√©dio em rela√ß√£o ao valor real, em %.")
print("     - Quanto menor, melhor. <5% = excelente, <10% = bom, <20% = razo√°vel.")

print(f"   R¬≤ (Coeficiente de Determina√ß√£o): {r2:.4f}")
print("     - Mede o quanto as previs√µes explicam a varia√ß√£o dos dados reais. Varia de -‚àû a 1.")
print("     - Quanto mais pr√≥ximo de 1, melhor. Valores negativos indicam ajuste ruim.")

print(f"   Acur√°cia Direcional: {directional_acc:.2f}%")
print("     - Mede quantas vezes o modelo acertou a dire√ß√£o do movimento (subida/queda) em rela√ß√£o ao real.")
print("     - >50% geralmente √© melhor que aleat√≥rio; quanto maior, melhor.")
print("=" * 40)

# Interpreta√ß√£o autom√°tica
if mape < 5:
    print("üèÜ MAPE Excelente (<5%)!")
elif mape < 10:
    print("‚úÖ MAPE Bom (5-10%)")
elif mape < 20:
    print("üìä MAPE Aceit√°vel (10-20%)")
else:
    print("‚ö†Ô∏è MAPE precisa melhoria (>20%)")


üìä M√âTRICAS DO MODELO
   RMSE (Root Mean Square Error): $24.73
     - Mede o erro m√©dio quadr√°tico entre as previs√µes e valores reais.
     - Quanto menor, melhor. Muito usado para avaliar previs√µes de pre√ßos.
   MAE (Mean Absolute Error): $22.71
     - Erro m√©dio absoluto. Representa o erro m√©dio real (em d√≥lares) entre previs√£o e valor real.
     - Quanto menor, melhor.
   MAPE (Mean Absolute Percentage Error): 9.75%
     - Erro percentual m√©dio absoluto. Indica o erro m√©dio em rela√ß√£o ao valor real, em %.
     - Quanto menor, melhor. <5% = excelente, <10% = bom, <20% = razo√°vel.
   R¬≤ (Coeficiente de Determina√ß√£o): 0.1555
     - Mede o quanto as previs√µes explicam a varia√ß√£o dos dados reais. Varia de -‚àû a 1.
     - Quanto mais pr√≥ximo de 1, melhor. Valores negativos indicam ajuste ruim.
   Acur√°cia Direcional: 49.43%
     - Mede quantas vezes o modelo acertou a dire√ß√£o do movimento (subida/queda) em rela√ß√£o ao real.
     - >50% geralmente √© melhor que