In [None]:
# NASDAQ Stock Prediction - Google Colab
# =======================================

# %% [markdown]
# # üöÄ Predicci√≥n de Acciones NASDAQ en Google Colab
# 
# Este notebook ejecuta TODO el pipeline en Colab con GPU gratis
# 
# **Duraci√≥n estimada:** 2-3 horas

# %% [markdown]
# ## ‚öôÔ∏è PASO 1: Configurar GPU

# %%
import tensorflow as tf
print("TensorFlow version:", tf.__version__)
print("GPU disponible:", tf.config.list_physical_devices('GPU'))

# Verificar memoria disponible
!cat /proc/meminfo | grep MemTotal

# %% [markdown]
# ## üìÇ PASO 2: Montar Google Drive y descomprimir proyecto

# %%
from google.colab import drive
import os
import zipfile

# Montar Drive
drive.mount('/content/drive', force_remount=True)

# Verificar que el ZIP existe
zip_path = '/content/drive/MyDrive/NASDAQ_Project/proyecto_nasdaq.zip'

if os.path.exists(zip_path):
    print(f"‚úÖ ZIP encontrado: {zip_path}")
    
    # Descomprimir en /content/ (m√°s r√°pido que Drive)
    print("üì¶ Descomprimiendo proyecto...")
    with zipfile.ZipFile(zip_path, 'r') as zip_ref:
        zip_ref.extractall('/content/')
    
    print("‚úÖ Proyecto descomprimido")
else:
    print(f"‚ùå ERROR: No se encontr√≥ el archivo en {zip_path}")
    print("\nüîß Soluci√≥n:")
    print("1. Sube 'proyecto_nasdaq.zip' a tu Google Drive")
    print("2. Col√≥calo en: MyDrive/NASDAQ_Project/")
    print("3. O cambia la ruta 'zip_path' arriba")

# %%
# Ir a la carpeta del proyecto
%cd /content/NASDAQ_Stock_Prediction_Project

# Verificar estructura
print("\nüìÅ Estructura del proyecto:")
!ls -la

# Verificar que stocks_full.csv existe
if os.path.exists('data/processed/stocks_full.csv'):
    import pandas as pd
    df = pd.read_csv('data/processed/stocks_full.csv', nrows=5)
    print("\n‚úÖ stocks_full.csv encontrado")
    print(f"   Columnas: {df.columns.tolist()}")
else:
    print("‚ùå ERROR: data/processed/stocks_full.csv NO existe")
    print("   Debes incluirlo en el ZIP")

# %% [markdown]
# ## üì¶ PASO 3: Instalar dependencias

# %%
# Instalar todas las dependencias
!pip install -q pandas numpy scikit-learn matplotlib seaborn plotly pyyaml tqdm ta

print("‚úÖ Dependencias instaladas")

# Verificar versiones clave
import pandas as pd
import numpy as np
print(f"\nVersiones:")
print(f"  Pandas: {pd.__version__}")
print(f"  NumPy: {np.__version__}")
print(f"  TensorFlow: {tf.__version__}")

# %% [markdown]
# ## üîß PASO 4: Ajustar configuraci√≥n para Colab

# %%
import yaml

# Leer config
with open('config.yaml', 'r') as f:
    config = yaml.safe_load(f)

print("üìã Configuraci√≥n actual:")
print(f"  Lookback: {config['features']['lookback_window']}")
print(f"  Epochs LSTM: {config['models']['lstm']['epochs']}")
print(f"  Batch size: {config['models']['lstm']['batch_size']}")

# AJUSTAR PARA COLAB (opcional - para que sea m√°s r√°pido)
# Descomenta si quieres prueba r√°pida:

# config['features']['lookback_window'] = 30  # Reducir RAM
# config['models']['lstm']['epochs'] = 20     # Menos epochs
# config['models']['lstm']['batch_size'] = 64 # Batch m√°s grande
# 
# with open('config.yaml', 'w') as f:
#     yaml.dump(config, f)
# 
# print("\n‚úÖ Config ajustado para Colab")

# %% [markdown]
# ## üìä PASO 5: Exploraci√≥n r√°pida de datos

# %%
from src.utils import load_config, create_directories
from src.data_loader import StockDataLoader

config = load_config('config.yaml')
create_directories(config)

loader = StockDataLoader(config)
df = loader.load_full_data()

print(f"\nüìä Dataset filtrado:")
print(f"  Filas: {len(df):,}")
print(f"  Tickers: {df['ticker'].nunique()}")
print(f"  Rango: {df['Date'].min().date()} ‚Üí {df['Date'].max().date()}")
print(f"  RAM usada: {df.memory_usage(deep=True).sum() / 1e9:.2f} GB")

# Top 10 tickers
print(f"\nüîù Top 10 tickers por registros:")
print(df['ticker'].value_counts().head(10))

# %% [markdown]
# ## üóÇÔ∏è PASO 6: Generar Splits (Train/Val/Test)

# %%
import os

# Verificar si ya existen
if os.path.exists('data/processed/train.csv'):
    print("‚úÖ Splits ya existen, saltando generaci√≥n...")
else:
    print("üìä Generando splits...")
    train, val, test = loader.split_data(df)
    loader.save_splits(train, val, test)
    print("‚úÖ Splits generados")

# %% [markdown]
# ## üèãÔ∏è PASO 7: ENTRENAR MODELOS
# 
# **‚ö†Ô∏è IMPORTANTE:** 
# - Esto tardar√° 1-3 horas dependiendo del modelo
# - Colab Free puede desconectarse despu√©s de ~12 horas
# - Recomiendo entrenar de a un modelo por sesi√≥n

# %% [markdown]
# ### Opci√≥n A: Entrenar SOLO LSTM (30-60 min)

# %%
from src.train import TrainingPipeline
import warnings
warnings.filterwarnings('ignore')

print("üèãÔ∏è Entrenando LSTM...")
print("‚è±Ô∏è Tiempo estimado: 30-60 minutos en GPU")
print("\n" + "="*70)

pipeline = TrainingPipeline('config.yaml')

try:
    trained_models = pipeline.run(models=['lstm'])
    print("\n‚úÖ LSTM entrenado exitosamente")
except Exception as e:
    print(f"\n‚ùå ERROR: {e}")
    print("\nüîß Si el error es de memoria:")
    print("   1. Reduce lookback_window a 30 en config.yaml")
    print("   2. O filtra menos tickers (selected_tickers)")

# %% [markdown]
# ### Opci√≥n B: Entrenar LSTM + GRU (1-2 horas)

# %%
# ‚ö†Ô∏è Descomenta para entrenar 2 modelos
# pipeline = TrainingPipeline('config.yaml')
# trained_models = pipeline.run(models=['lstm', 'gru'])

# %% [markdown]
# ### Opci√≥n C: Entrenar TODOS (2-4 horas)

# %%
# ‚ö†Ô∏è Solo para Colab Pro o si tienes tiempo
# pipeline = TrainingPipeline('config.yaml')
# trained_models = pipeline.run(models=['lstm', 'gru', 'tcn', 'tft'])

# %% [markdown]
# ## üìä PASO 8: Visualizar Historial de Entrenamiento

# %%
import matplotlib.pyplot as plt
import json

# Cargar historial del modelo entrenado
with open('results/models/lstm_history.json', 'r') as f:
    history = json.load(f)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 5))

# Loss
ax1.plot(history['loss'], label='Train Loss', linewidth=2)
ax1.plot(history['val_loss'], label='Val Loss', linewidth=2)
ax1.set_title('LSTM - Loss durante entrenamiento', fontweight='bold', fontsize=14)
ax1.set_xlabel('Epoch')
ax1.set_ylabel('Loss (MSE)')
ax1.legend()
ax1.grid(alpha=0.3)

# MAE
ax2.plot(history['mae'], label='Train MAE', linewidth=2)
ax2.plot(history['val_mae'], label='Val MAE', linewidth=2)
ax2.set_title('LSTM - MAE durante entrenamiento', fontweight='bold', fontsize=14)
ax2.set_xlabel('Epoch')
ax2.set_ylabel('MAE')
ax2.legend()
ax2.grid(alpha=0.3)

plt.tight_layout()
plt.savefig('results/plots/training_history.png', dpi=300, bbox_inches='tight')
plt.show()

print(f"‚úÖ Mejor val_loss: {min(history['val_loss']):.6f}")
print(f"   Alcanzado en epoch: {history['val_loss'].index(min(history['val_loss'])) + 1}")

# %% [markdown]
# ## üß™ PASO 9: Evaluar en Test Set

# %%
from src.evaluate import ModelEvaluator
import pickle

print("üìä Preparando evaluaci√≥n...")

# Cargar scalers
with open('results/models/feature_scaler.pkl', 'rb') as f:
    feature_scaler = pickle.load(f)
with open('results/models/target_scaler.pkl', 'rb') as f:
    target_scaler = pickle.load(f)

# Cargar metadata
with open('results/models/metadata.json', 'r') as f:
    metadata = json.load(f)

print(f"‚úÖ Metadata cargado")
print(f"   Features: {len(metadata['feature_cols'])}")
print(f"   Test samples: {metadata['test_samples']:,}")

# %% [markdown]
# **‚ö†Ô∏è NOTA:** Para evaluaci√≥n completa, necesitas ejecutar el pipeline
# completo que genera X_test, y_test. Ver notebook 03_train_and_evaluate.ipynb

# %%
# Evaluaci√≥n simplificada - cargar modelo y verificar
from src.models.lstm import LSTMModel

input_shape = tuple(metadata['input_shape'])
lstm_model = LSTMModel(config, input_shape)
lstm_model.load_weights('results/models/lstm_best.h5')

print("‚úÖ Modelo LSTM cargado correctamente")
lstm_model.summary()

# %% [markdown]
# ## üíæ PASO 10: Descargar Resultados

# %%
# Comprimir resultados
!zip -r results_nasdaq.zip results/

print("\nüì¶ Resultados comprimidos en: results_nasdaq.zip")
print("   Tama√±o:")
!du -h results_nasdaq.zip

# Descargar
from google.colab import files
files.download('results_nasdaq.zip')

print("\n‚úÖ ¬°Descarga iniciada!")

# %% [markdown]
# ## üéâ ¬°COMPLETADO!
# 
# ### üìã Resumen de archivos generados:
# - **Modelos**: `results/models/*.h5`
# - **Gr√°ficos**: `results/plots/*.png`
# - **Tablas**: `results/tables/*.csv`
# - **Scalers**: `results/models/*_scaler.pkl`
# 
# ### üîÑ Pr√≥ximos pasos:
# 1. Descarga `results_nasdaq.zip`
# 2. Descompr√≠melo en tu proyecto local
# 3. Analiza resultados en tu computadora
# 4. Repite con otros modelos (GRU, TCN, TFT)
# 
# ### üí° Tips:
# - Guarda este notebook en tu Drive
# - Los modelos entrenados se pueden reutilizar
# - Para entrenar otros modelos, solo cambia `models=['gru']`

# %% [markdown]
# ---
# **Creado para el proyecto NASDAQ Stock Prediction**  
# Si hay errores, revisa la secci√≥n de configuraci√≥n y ajusta seg√∫n tu RAM/GPU