In [33]:
# Machine Learning Pipeline Execution
# Este notebook ejecuta secuencialmente todos los pasos del pipeline ML

# Importaciones necesarias
import os
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
!pip list | findstr pydantic
# Asegurarse de que podemos importar desde la ra√≠z del proyecto
# (ajusta esto si es necesario seg√∫n la estructura de tu proyecto)
sys.path.append('..')



pydantic                2.11.5
pydantic_core           2.33.2
pydantic-settings       2.9.1


In [42]:
# ===== DETECCI√ìN AUTOM√ÅTICA Y UNIVERSAL DE RUTAS =====
import os
import sys
import subprocess
from pathlib import Path
import platform
import getpass

print(f"üìÇ Directorio inicial: {os.getcwd()}")
print(f"üñ•Ô∏è Sistema operativo: {platform.system()}")
print(f"üë§ Usuario: {getpass.getuser()}")

def find_project_root():
    """Busca la ra√≠z del proyecto de forma inteligente y universal."""
    print("üîç Buscando ra√≠z del proyecto...")
    
    def is_project_root(path):
        """Verifica si un directorio es la ra√≠z del proyecto SP500."""
        indicators = ["src/sp500_analysis", "pipelines", "data", "notebooks"]
        return all((path / indicator).exists() for indicator in indicators)
    
    # Estrategia 1: Buscar desde el directorio actual hacia arriba
    current = Path.cwd()
    for _ in range(10):  # M√°ximo 10 niveles hacia arriba
        if is_project_root(current):
            print(f"‚úÖ Proyecto encontrado (m√©todo 1): {current}")
            return current
        current = current.parent
    
    # Estrategia 2: Buscar en ubicaciones comunes del sistema
    search_locations = [
        Path.home() / "Desktop",
        Path.home() / "Documents", 
        Path.home() / "Documentos",  # Para sistemas en espa√±ol
        Path.home(),  # Home directory directo
    ]
    
    # Agregar ubicaciones espec√≠ficas por OS
    if platform.system() == "Windows":
        search_locations.extend([
            Path("C:/"),
            Path.home().parent  # C:/Users
        ])
    elif platform.system() == "Darwin":  # macOS
        search_locations.append(Path("/Users"))
    elif platform.system() == "Linux":
        search_locations.append(Path("/home"))
    
    for location in search_locations:
        if not location.exists():
            continue
            
        try:
            print(f"üîç Buscando en: {location}")
            for item in location.iterdir():
                if not item.is_dir():
                    continue
                    
                name_lower = item.name.lower()
                # Buscar directorios que contengan palabras clave del proyecto
                if any(keyword in name_lower for keyword in ['sp500', 'pipeline', 'analisis']):
                    print(f"üéØ Candidato encontrado: {item}")
                    if is_project_root(item):
                        print(f"‚úÖ Proyecto encontrado (m√©todo 2): {item}")
                        return item
                    
                    # Buscar un nivel m√°s profundo
                    try:
                        for subitem in item.iterdir():
                            if subitem.is_dir() and is_project_root(subitem):
                                print(f"‚úÖ Proyecto encontrado (m√©todo 2b): {subitem}")
                                return subitem
                    except (PermissionError, OSError):
                        continue
                        
        except (PermissionError, OSError):
            print(f"‚ö†Ô∏è Sin permisos para acceder a: {location}")
            continue
    
    # Estrategia 3: Usar directorio actual como fallback
    print(f"‚ö†Ô∏è Usando directorio actual como fallback: {Path.cwd()}")
    return Path.cwd()

# Encontrar y cambiar al directorio del proyecto
project_root = find_project_root()
os.chdir(project_root)
print(f"üìÇ Directorio cambiado a: {os.getcwd()}")

# PASO 1: Instalar dependencias cr√≠ticas en el entorno del kernel
print("\nüîß Instalando dependencias en el entorno del kernel...")
critical_packages = ['pydantic-settings', 'optuna', 'python-dotenv']
for package in critical_packages:
    try:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package, '--quiet'])
        print(f"‚úÖ {package} verificado/instalado")
    except Exception as e:
        print(f"‚ö†Ô∏è Error con {package}: {e}")

# PASO 2: Usar la ra√≠z del proyecto detectada autom√°ticamente
current_dir = Path.cwd()
print(f"\nüìÅ Directorio de trabajo actual: {current_dir}")

# Verificar que estamos en el lugar correcto usando la variable project_root ya detectada
if (project_root / "src").exists() and (project_root / "notebooks").exists():
    print(f"‚úÖ Confirmado: Estamos en el directorio correcto del proyecto")
else:
    print(f"‚ö†Ô∏è Advertencia: No se detecta estructura de proyecto t√≠pica")
    print(f"   - src/: {'‚úÖ' if (project_root / 'src').exists() else '‚ùå'}")
    print(f"   - notebooks/: {'‚úÖ' if (project_root / 'notebooks').exists() else '‚ùå'}")

src_path = project_root / "src"
pipelines_path = project_root / "pipelines"

print(f"üéØ Ra√≠z del proyecto confirmada: {project_root}")
print(f"üì¶ Src path: {src_path}")
print(f"‚öôÔ∏è Pipelines path: {pipelines_path}")

# PASO 3: Verificar que los directorios existen
if not src_path.exists():
    print(f"‚ùå No existe: {src_path}")
else:
    print(f"‚úÖ Existe: {src_path}")

if not pipelines_path.exists():
    print(f"‚ùå No existe: {pipelines_path}")
else:
    print(f"‚úÖ Existe: {pipelines_path}")

# PASO 4: Agregar rutas al Python path AL INICIO
paths_to_add = [str(project_root), str(src_path), str(pipelines_path)]

for path in paths_to_add:
    if path not in sys.path:
        sys.path.insert(0, path)
        print(f"‚úÖ Agregado al path: {path}")

# PASO 5: Cambiar directorio de trabajo a la ra√≠z del proyecto
os.chdir(project_root)
print(f"üîÑ Directorio cambiado a: {os.getcwd()}")

# PASO 6: Verificar que las importaciones funcionan
print("\nüß™ Probando importaciones...")
try:
    import pydantic_settings
    print("‚úÖ pydantic_settings importado correctamente")
except ImportError as e:
    print(f"‚ùå pydantic_settings falla: {e}")

try:
    import optuna
    print("‚úÖ optuna importado correctamente")
except ImportError as e:
    print(f"‚ùå optuna falla: {e}")

try:
    from sp500_analysis.config.settings import settings
    print("‚úÖ settings importado correctamente")
    print("üéâ ¬°Importaciones funcionando! Configuraci√≥n completa disponible")
    IMPORTS_WORKING = True
except ImportError as e:
    print(f"‚ùå settings falla: {e}")
    IMPORTS_WORKING = False

# PASO 7: Mostrar informaci√≥n del entorno Python
print(f"\nüêç Python executable: {sys.executable}")
print(f"üì¶ Python path (primeros 3): {sys.path[:3]}")
print(f"üìÇ Directorio final de trabajo: {os.getcwd()}")

üìÇ Directorio inicial: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üñ•Ô∏è Sistema operativo: Windows
üë§ Usuario: saule
üîç Buscando ra√≠z del proyecto...
‚úÖ Proyecto encontrado (m√©todo 1): C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üìÇ Directorio cambiado a: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis

üîß Instalando dependencias en el entorno del kernel...
‚úÖ pydantic-settings verificado/instalado
‚úÖ optuna verificado/instalado
‚úÖ python-dotenv verificado/instalado

üìÅ Directorio de trabajo actual: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
‚úÖ Confirmado: Estamos en el directorio correcto del proyecto
üéØ Ra√≠z del proyecto confirmada: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üì¶ Src path: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\src
‚öôÔ∏è Pipelines path: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\pipelines
‚úÖ Existe: C:\Users\saule\Desktop\Pipeline_Jun

In [None]:
# ‚úÖ Este notebook ahora usa tu c√≥digo completo y corregido
# Los archivos se generar√°n correctamente con el paso 0 mejorado

print("üìã Pipeline ML - Configuraci√≥n completada")
print("üéØ Todos los pasos han sido corregidos para usar las rutas correctas")
print("üöÄ ¬°Listo para ejecutar el pipeline completo!")

SyntaxError: invalid decimal literal (3223127794.py, line 57)

In [22]:
# Instalar dependencias y reiniciar kernel si es necesario
print("üîß Configurando entorno para usar archivos .py originales...")

import subprocess
import sys
import importlib

# Instalar dependencias cr√≠ticas
critical_packages = ['pydantic-settings', 'python-dotenv', 'typing-inspection']

for package in critical_packages:
    try:
        subprocess.check_call([sys.executable, '-m', 'pip', 'install', package, '--quiet'])
        print(f"‚úÖ {package} verificado")
    except:
        print(f"‚ö†Ô∏è Error con {package}")

# Verificar que se pueden importar
try:
    import pydantic_settings
    print("‚úÖ pydantic_settings disponible")
    can_use_original = True
except ImportError:
    print("‚ùå pydantic_settings no disponible")
    can_use_original = False

if can_use_original:
    print("üéâ ¬°Perfecto! Podemos usar los archivos .py originales")
else:
    print("‚ö†Ô∏è Usaremos versi√≥n simplificada por compatibilidad")
    
# Variable global para decidir qu√© versi√≥n usar
USE_ORIGINAL_PY = can_use_original

üîß Configurando entorno para usar archivos .py originales...
‚úÖ pydantic-settings verificado
‚úÖ python-dotenv verificado
‚úÖ typing-inspection verificado
‚úÖ pydantic_settings disponible
üéâ ¬°Perfecto! Podemos usar los archivos .py originales


In [43]:
# Paso 0: Preprocesamiento inicial
print("üöÄ Ejecutando paso 0: Preprocesamiento inicial con tu c√≥digo completo")
print("=" * 60)

import os
import sys

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# Importar y ejecutar tu funci√≥n completa
sys.path.insert(0, '.')
from step_0_preprocess import ejecutar_todos_los_procesadores_v2

# Ejecutar todos los procesadores
print("\nüéØ Ejecutando TODOS los procesadores (6 total)...")
success = ejecutar_todos_los_procesadores_v2()

if success:
    print("\nüéâ ¬°Paso 0 completado exitosamente!")
    print("‚úÖ Los 6 archivos han sido generados en data/raw/0_raw/")
else:
    print("\n‚ö†Ô∏è Paso 0 completado con algunos errores")
    print("üìã Revisa los logs para m√°s detalles")

# Regresar al directorio de notebooks
os.chdir('notebooks')



2025-06-12 10:44:30,176 - INFO - INICIANDO PROCESO: EconomicDataProcessor
2025-06-12 10:44:30,178 - INFO - Archivo de configuraci√≥n: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/Data Engineering.xlsx
2025-06-12 10:44:30,180 - INFO - Directorio ra√≠z de datos: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/raw/0_raw
2025-06-12 10:44:30,184 - INFO - Fecha y hora: 2025-06-12 10:44:30
2025-06-12 10:44:30,189 - INFO - Leyendo archivo de configuraci√≥n...


üöÄ Ejecutando paso 0: Preprocesamiento inicial con tu c√≥digo completo
üìÇ Directorio actual: C:\Users\saule\Desktop\Pipeline_Junio

üéØ Ejecutando TODOS los procesadores (6 total)...
üöÄ Ejecutando TODOS los procesadores de datos econ√≥micos (ACTUALIZADO)...

1Ô∏è‚É£ MyInvesting Copy-Paste...


2025-06-12 10:44:30,770 - INFO - Se encontraron 23 configuraciones para procesar
2025-06-12 10:44:30,781 - INFO - 
Procesando: US_ISM_Manufacturing (business_confidence)
2025-06-12 10:44:30,782 - INFO - - Archivo: US_ISM_Manufacturing.xlsx
2025-06-12 10:44:30,784 - INFO - - Columna TARGET: ACTUAL
2025-06-12 10:44:30,788 - INFO - - Ruta encontrada: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/raw/0_raw\business_confidence\US_ISM_Manufacturing.xlsx
2025-06-12 10:44:30,880 - INFO - - Filas encontradas: 138
2025-06-12 10:44:30,928 - INFO - Preferencia de dayfirst para c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/raw/0_raw\business_confidence\US_ISM_Manufacturing.xlsx: True
2025-06-12 10:44:31,151 - INFO - - Valores no nulos en TARGET: 138
2025-06-12 10:44:31,153 - INFO - - Periodo: 2014-01-02 a 2025-06-02
2025-06-12 10:44:31,155 - INFO - - Cobertura: 100.00%
2025-06-12 10:44:31,168 - INFO - 
Procesando: US_ISM_Services (business_confidence)
2025-06-12 

‚úÖ Completado

2Ô∏è‚É£ MyInvesting Normal...


2025-06-12 10:44:41,917 - INFO - Columna de fecha detectada: Date
2025-06-12 10:44:41,938 - INFO - Formato de fecha detectado para Australia_10Y_Bond: dayfirst=False (confianza: 0.00)
2025-06-12 10:44:46,056 - INFO - Ejemplos de fechas convertidas para Australia_10Y_Bond: [Timestamp('2025-06-04 00:00:00'), Timestamp('2025-06-03 00:00:00'), Timestamp('2025-06-02 00:00:00'), Timestamp('2025-05-30 00:00:00'), Timestamp('2025-05-29 00:00:00')]
2025-06-12 10:44:46,070 - INFO - Formato num√©rico detectado para Australia_10Y_Bond: americano
2025-06-12 10:44:46,086 - INFO - Para Australia_10Y_Bond (columna Date), la fecha m√≠nima es 2014-01-05 00:00:00 y la fecha m√°xima es 2025-06-04 00:00:00
2025-06-12 10:44:46,088 - INFO - - Australia_10Y_Bond: 3854 filas procesadas, periodo: 2014-01-05 a 2025-06-04
2025-06-12 10:44:46,091 - INFO - 
Procesando: Italy_10Y_Bond (bond)
2025-06-12 10:44:46,092 - INFO - - Archivo: Italy_10Y_Bond
2025-06-12 10:44:46,093 - INFO - - Columna TARGET: PRICE
2025-06-12

‚úÖ Completado

3Ô∏è‚É£ FRED Data...


2025-06-12 10:47:29,782 - INFO - Primeras fechas convertidas: [Timestamp('2014-01-02 00:00:00'), Timestamp('2014-01-03 00:00:00'), Timestamp('2014-01-06 00:00:00'), Timestamp('2014-01-07 00:00:00'), Timestamp('2014-01-08 00:00:00')]
2025-06-12 10:47:29,809 - INFO - - Valores no nulos en TARGET: 2855
2025-06-12 10:47:29,810 - INFO - - Periodo: 2014-01-02 a 2025-06-02
2025-06-12 10:47:29,812 - INFO - - Cobertura: 100.00%
2025-06-12 10:47:29,816 - INFO - 
Procesando: US_2Y_Treasury (bond)
2025-06-12 10:47:29,819 - INFO - - Archivo: US_2Y_Treasury.csv
2025-06-12 10:47:29,821 - INFO - - Columna TARGET: DGS2
2025-06-12 10:47:29,823 - INFO - - Ruta encontrada: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/raw/0_raw\bond\US_2Y_Treasury.csv
2025-06-12 10:47:29,862 - INFO - - Filas encontradas: 2978
2025-06-12 10:47:29,865 - INFO - Detecci√≥n formato: 20/20 registros ISO (ratio 1.00)
2025-06-12 10:47:29,867 - INFO - Formato detectado para c:\Users\saule\Desktop\Pipeline_Junio\S

‚úÖ Completado

4Ô∏è‚É£ Other Data...


2025-06-12 10:47:45,539 - INFO - - ¬øTiene datos desde 2014 o antes?: S√≠
2025-06-12 10:47:45,541 - INFO - - Columnas encontradas y procesadas: GACDISA, AWCDISA
2025-06-12 10:47:45,545 - INFO - - Columna ESI_GACDISA_US_Empire_State_Index_business_confidence: 287 valores no nulos (100.00%), rango: 2001-07-31 a 2025-05-31
2025-06-12 10:47:45,549 - INFO - - Columna ESI_AWCDISA_US_Empire_State_Index_business_confidence: 287 valores no nulos (100.00%), rango: 2001-07-31 a 2025-05-31
2025-06-12 10:47:45,551 - INFO - - US_Empire_State_Index: 287 filas procesadas manualmente, periodo: 2001-07-31 a 2025-05-31
2025-06-12 10:47:45,553 - INFO - 
Procesando: AAII_Investor_Sentiment (consumer_confidence)
2025-06-12 10:47:45,554 - INFO - - Columna TARGET: nan
2025-06-12 10:47:45,555 - INFO - - Tipo de preprocesamiento: nan
2025-06-12 10:47:45,556 - INFO - Procesando AAII_Investor_Sentiment manualmente
2025-06-12 10:47:45,558 - INFO - - Archivo de entrada: c:\Users\saule\Desktop\Pipeline_Junio\SP500_I

‚úÖ Completado

5Ô∏è‚É£ Banco Rep√∫blica...


2025-06-12 10:48:36,545 - INFO - ‚úÖ Encontrados 6 archivos del Banco Rep√∫blica:
2025-06-12 10:48:36,547 - INFO -    üìÅ bond/Deuda externa (p√∫blica y privada) ‚Üí bond
2025-06-12 10:48:36,549 - INFO -    üìÅ economics/Brute_Internacional_Reservoir ‚Üí economics
2025-06-12 10:48:36,550 - INFO -    üìÅ economics/TPS ‚Üí economics
2025-06-12 10:48:36,552 - INFO -    üìÅ exchange_rate/ITCR_PP ‚Üí exchange_rate
2025-06-12 10:48:36,555 - INFO -    üìÅ index_pricing/Indice_Intercambios_IPP ‚Üí index_pricing
2025-06-12 10:48:36,558 - INFO -    üìÅ index_pricing/√çndice_COLCAP ‚Üí index_pricing
2025-06-12 10:48:36,559 - INFO - 
üìä Procesando: Deuda externa (p√∫blica y privada)
2025-06-12 10:48:36,561 - INFO -    üìÅ Carpeta: bond
2025-06-12 10:48:36,563 - INFO -    üéØ TARGET: Saldo de la deuda externa total, porcentaje del PIB
2025-06-12 10:48:36,565 - INFO -    üìÇ Tipo: bond
2025-06-12 10:48:36,966 - INFO -    ‚úÖ 290 valores v√°lidos
2025-06-12 10:48:36,967 - INFO -    üìÖ 20

‚úÖ Completado

6Ô∏è‚É£ üÜï DANE Exportaciones (AUTOM√ÅTICO)...


2025-06-12 10:48:55,019 - INFO - Encontrados 1 archivos DANE Exportaciones:
2025-06-12 10:48:55,021 - INFO -    Carpeta: exports/anex-EXPORTACIONES-SerieCafeCarbonPetroleoNotradicionales-mar2025
2025-06-12 10:48:55,023 - INFO - 
Procesando: anex-EXPORTACIONES-SerieCafeCarbonPetroleoNotradicionales-mar2025
2025-06-12 10:48:55,025 - INFO -    Archivo: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data/raw/0_raw\exports\anex-EXPORTACIONES-SerieCafeCarbonPetroleoNotradicionales-mar2025.xlsx
2025-06-12 10:48:55,026 - INFO -    TARGET: Total_Exportaciones_Tradicionales
2025-06-12 10:48:55,231 - INFO -    Encontrado header 'MES' en fila 11, datos inician en fila 12
2025-06-12 10:48:55,245 - INFO -    EXITO: 399 registros v√°lidos procesados
2025-06-12 10:48:55,246 - INFO -    Periodo: 1992-01-01 a 2025-03-01
2025-06-12 10:48:55,249 - INFO - √çndice diario: 12114 d√≠as
2025-06-12 10:48:55,260 - INFO - Datos combinados: 12114 filas, 2 columnas
2025-06-12 10:48:57,687 - INFO - Archi

‚úÖ Completado

üìä RESUMEN FINAL (ACTUALIZADO)
üìà Procesadores exitosos: 6/6

üìÅ Archivos generados:
   ‚úÖ MyInvesting CP: datos_economicos_procesados_cp.xlsx
   ‚úÖ MyInvesting Normal: datos_economicos_normales_procesados.xlsx
   ‚úÖ FRED: datos_economicos_procesados_Fred.xlsx
   ‚úÖ Other: datos_economicos_other_procesados.xlsx
   ‚úÖ Banco Rep√∫blica: datos_banco_republica_procesados.xlsx
   ‚úÖ DANE Exportaciones: datos_dane_exportaciones_procesados.xlsx

üéØ Estado general: EXITOSO
üìÇ Ubicaci√≥n: data/0_raw/

üéâ ¬°Paso 0 completado exitosamente!
‚úÖ Los 6 archivos han sido generados en data/raw/0_raw/


FileNotFoundError: [WinError 2] El sistema no puede encontrar el archivo especificado: 'notebooks'

In [44]:
# Paso 1: Combinaci√≥n de archivos Excel
print("üìä Ejecutando paso 1: Combinaci√≥n de archivos Excel")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir(project_root)
print(f"üìÇ Directorio actual: {os.getcwd()}")

# üéØ EJECUTAR TU C√ìDIGO ORIGINAL PASO 1 ‚úÖ
try:
    from sp500_analysis.application.services.data_service import run_data_merge
    
    print("üéØ Ejecutando funci√≥n de merge de datos...")
    success = run_data_merge()
    
    if success:
        print("‚úÖ Paso 1 completado exitosamente!")
        print("üìÑ Archivo MERGEDEXCELS.xlsx generado en data/1_preprocess/")
        
        # Verificar que el archivo se cre√≥
        merged_file = project_root / "data" / "1_preprocess" / "MERGEDEXCELS.xlsx"
        if merged_file.exists():
            print(f"‚úÖ Archivo confirmado: {merged_file}")
            print(f"üìä Tama√±o del archivo: {merged_file.stat().st_size / (1024*1024):.2f} MB")
        else:
            print(f"‚ö†Ô∏è No se encontr√≥ el archivo esperado: {merged_file}")
    else:
        print("‚ö†Ô∏è Paso 1 completado con algunos errores")
        print("üìã Revisa los logs para m√°s detalles")

except ImportError as e:
    print(f"‚ùå Error importando funci√≥n de merge: {e}")
    print("üîß Intentando m√©todo alternativo...")
    
    # M√©todo alternativo: ejecutar el script directamente
    try:
        import subprocess
        result = subprocess.run([
            sys.executable, 
            "pipelines/ml/01_step_merge_excels.py"
        ], capture_output=True, text=True, cwd=project_root)
        
        if result.returncode == 0:
            print("‚úÖ Paso 1 ejecutado exitosamente (m√©todo alternativo)")
            print("üìÑ Salida del proceso:")
            print(result.stdout)
        else:
            print("‚ùå Error en la ejecuci√≥n:")
            print(result.stderr)
    except Exception as e2:
        print(f"‚ùå Error en m√©todo alternativo: {e2}")

except Exception as e:
    print(f"‚ùå Error inesperado: {e}")
    print("üìã Verifica que el paso 0 se haya ejecutado correctamente")

# Regresar al directorio de notebooks si estamos ejecutando desde all√≠
if (project_root / "notebooks").exists():
    try:
        os.chdir(project_root / "notebooks")
        print(f"üîÑ Regresado al directorio de notebooks: {os.getcwd()}")
    except:
        pass

print("\nüéØ Paso 1 finalizado")


2025-06-12 10:49:36,462 - INFO - Logging initialized
2025-06-12 10:49:36,464 - INFO - === INICIANDO PROCESO DE COMBINACI√ìN DE ARCHIVOS EXCEL ===
2025-06-12 10:49:36,469 - INFO - Se encontraron 6 archivos Excel en la carpeta.
2025-06-12 10:49:36,471 - INFO - Cargando archivo: datos_banco_republica_procesados.xlsx


üìä Ejecutando paso 1: Combinaci√≥n de archivos Excel
üìÇ Directorio actual: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üéØ Ejecutando funci√≥n de merge de datos...


2025-06-12 10:49:40,148 - INFO - Archivo datos_banco_republica_procesados.xlsx cargado en 3.68s con 23850 filas.
2025-06-12 10:49:40,149 - INFO - Archivo datos_banco_republica_procesados.xlsx cargado correctamente con 23850 filas
2025-06-12 10:49:40,153 - INFO - Columna 'fecha' renombrada a 'date' en datos_banco_republica_procesados.xlsx
2025-06-12 10:49:40,159 - INFO - Filtrado por fecha completado en 0.01s: 23850 -> 4156 filas.
2025-06-12 10:49:40,163 - INFO - Despu√©s de filtrar por fecha: 4156 filas
2025-06-12 10:49:40,165 - INFO - Cargando archivo: datos_dane_exportaciones_procesadas.xlsx
2025-06-12 10:49:40,937 - INFO - Archivo datos_dane_exportaciones_procesadas.xlsx cargado en 0.77s con 12114 filas.
2025-06-12 10:49:40,939 - INFO - Archivo datos_dane_exportaciones_procesadas.xlsx cargado correctamente con 12114 filas
2025-06-12 10:49:40,941 - INFO - Columna 'fecha' renombrada a 'date' en datos_dane_exportaciones_procesadas.xlsx
2025-06-12 10:49:40,947 - INFO - Filtrado por fech

‚úÖ Paso 1 completado exitosamente!
üìÑ Archivo MERGEDEXCELS.xlsx generado en data/1_preprocess/
‚úÖ Archivo confirmado: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data\1_preprocess\MERGEDEXCELS.xlsx
üìä Tama√±o del archivo: 2.60 MB
üîÑ Regresado al directorio de notebooks: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\notebooks

üéØ Paso 1 finalizado


In [45]:
# Paso 2: Generaci√≥n de categor√≠as - TU C√ìDIGO ORIGINAL
print("üìä Ejecutando paso 2: Generaci√≥n de categor√≠as")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# üéØ AHORA TU C√ìDIGO ORIGINAL FUNCIONA DIRECTAMENTE ‚úÖ
from sp500_analysis.application.services.category_service import run_categories

def main() -> None:
    """Tu funci√≥n original sin cambios"""
    run_categories()

# ¬°Ejecutar tu c√≥digo original!
print("üéØ Ejecutando TU C√ìDIGO ORIGINAL...")
main()
print("‚úÖ Paso 2 completado usando c√≥digo original")

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\nüéØ Paso 2 finalizado")

# Ejecutar el script
%run pipelines/ml/02_step_generate_categories.py

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\n‚úÖ Paso 2 completado")



2025-06-12 10:50:27,772 - INFO - Running CategoryService


üìä Ejecutando paso 2: Generaci√≥n de categor√≠as
üìÇ Directorio actual: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üéØ Ejecutando TU C√ìDIGO ORIGINAL...


2025-06-12 10:50:36,735 - INFO - Archivo cargado correctamente. Dimensiones: (4169, 130)
2025-06-12 10:50:36,738 - INFO - No se encontraron columnas para renombrar.
2025-06-12 10:50:36,827 - INFO - Resultados detallados de categorizaci√≥n guardados en: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data\1_preprocess\DIAGNOSTICO_CATEGORIAS.xlsx
2025-06-12 10:50:36,835 - INFO - Resumen de categorizaci√≥n:
2025-06-12 10:50:36,836 - INFO -   - Sin categor√≠a: 1 columnas
2025-06-12 10:50:36,837 - INFO -   - bond: 21 columnas
2025-06-12 10:50:36,839 - INFO -   - business_confidence: 7 columnas
2025-06-12 10:50:36,840 - INFO -   - car_registrations: 6 columnas
2025-06-12 10:50:36,842 - INFO -   - comm_loans: 2 columnas
2025-06-12 10:50:36,843 - INFO -   - commodities: 13 columnas
2025-06-12 10:50:36,845 - INFO -   - consumer_confidence: 12 columnas
2025-06-12 10:50:36,846 - INFO -   - economics: 31 columnas
2025-06-12 10:50:36,847 - INFO -   - exchange_rate: 14 columnas
2025-06-12

‚úÖ Paso 2 completado usando c√≥digo original

üéØ Paso 2 finalizado


Exception: File `'pipelines/ml/02_step_generate_categories.py'` not found.

In [46]:
# Paso 3: Limpieza de columnas
print("üßπ Ejecutando paso 3: Limpieza de columnas")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# Ejecutar el script
%run pipelines/ml/03_step_clean_columns.py

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\n‚úÖ Paso 3 completado")



2025-06-12 10:57:16,749 - INFO - Logging initialized


üßπ Ejecutando paso 3: Limpieza de columnas
üìÇ Directorio actual: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis


2025-06-12 10:57:27,384 - INFO - Archivo cargado correctamente. Columnas: 130
2025-06-12 10:57:27,436 - INFO - Se modificaron 5 nombres de columnas.
2025-06-12 10:57:27,438 - INFO - Renombrando: 'DNKSLRTCR03GPSAM_Denmark_Car_Registrations_MoM_car_registrations' -> 'DNKSLRTCR03GPSAM_Denmark_Car_Registrations_MoM'
2025-06-12 10:57:27,440 - INFO - Renombrando: 'USASLRTCR03GPSAM_US_Car_Registrations_MoM_car_registrations' -> 'USASLRTCR03GPSAM_US_Car_Registrations_MoM'
2025-06-12 10:57:27,443 - INFO - Renombrando: 'ZAFSLRTCR03GPSAM_SouthAfrica_Car_Registrations_MoM_car_registrations' -> 'ZAFSLRTCR03GPSAM_SouthAfrica_Car_Registrations_MoM'
2025-06-12 10:57:27,444 - INFO - Renombrando: 'GBRSLRTCR03GPSAM_United_Kingdom_Car_Registrations_MoM_car_registrations' -> 'GBRSLRTCR03GPSAM_United_Kingdom_Car_Registrations_MoM'
2025-06-12 10:57:27,446 - INFO - Renombrando: 'ESPSLRTCR03GPSAM_Spain_Car_Registrations_MoM_car_registrations' -> 'ESPSLRTCR03GPSAM_Spain_Car_Registrations_MoM'
2025-06-12 10:57:5


‚úÖ Paso 3 completado


In [50]:
# Paso 4: Transformaci√≥n de caracter√≠sticas
print("üîß Ejecutando paso 4: Transformaci√≥n de caracter√≠sticas")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# Ejecutar el script
%run pipelines/ml/04_step_transform_features.py

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\n‚úÖ Paso 4 completado")


üîß Ejecutando paso 4: Transformaci√≥n de caracter√≠sticas
üìÇ Directorio actual: C:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis

üìä Selecciona el an√°lisis que deseas realizar:
1. SP500 (usando todas las variables disponibles)
2. USD/COP (filtrando seg√∫n variables de Data Engineering.xlsx)


KeyboardInterrupt: Interrupted by user


‚úÖ Paso 4 completado


In [None]:

# Paso 5: Eliminaci√≥n de relaciones (M√©todo Robusto)
print("‚ö° Ejecutando paso 5: Eliminaci√≥n de relaciones")
print("=" * 60)

# üîß INSTALAR DEPENDENCIAS NECESARIAS AUTOM√ÅTICAMENTE
print("üîß Verificando e instalando dependencias necesarias...")
import subprocess
import sys
import os
import pandas as pd
import numpy as np
from pathlib import Path

# Detectar autom√°ticamente la ruta del proyecto
project_root = Path.cwd()
# Si estamos en notebooks, subir un nivel
if project_root.name == 'notebooks':
    project_root = project_root.parent
print(f"üìÅ Proyecto detectado en: {project_root}")

# Agregar src al PYTHONPATH para que encuentre sp500_analysis
src_path = project_root / "src"
if str(src_path) not in sys.path:
    sys.path.insert(0, str(src_path))
    print(f"üì¶ Agregado al PYTHONPATH: {src_path}")

# Lista de paquetes requeridos para el paso 5
required_packages = [
    'statsmodels',
    'scipy', 
    'feature-engine',
    'catboost'
]

for package in required_packages:
    try:
        # Intentar importar el paquete
        __import__(package.replace('-', '_'))
        print(f"‚úÖ {package} ya instalado")
    except ImportError:
        print(f"üì¶ Instalando {package}...")
        try:
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', package])
            print(f"‚úÖ {package} instalado exitosamente")
        except subprocess.CalledProcessError as e:
            print(f"‚ö†Ô∏è Error instalando {package}: {e}")

print("üîß Dependencias verificadas")

# Cambiar al directorio ra√≠z del proyecto
os.chdir(project_root)
print(f"üìÇ Directorio actual: {os.getcwd()}")

# üéØ EJECUTAR EL ARCHIVO pipelines/ml/05_step_remove_relations.py
try:
    # M√©todo 1: Forzar recarga de m√≥dulos y ejecutar
    print("üîÑ Intentando m√©todo 1: Recargar m√≥dulos y ejecutar...")
    
    # üîß FORZAR RECARGA DE M√ìDULOS CON PROBLEMAS DE VIF/IMPORTS
    print("üîÑ Forzando recarga de m√≥dulos con imports corregidos...")
    import importlib
    import sys
    
    # Lista de m√≥dulos a recargar (ahora con VIF corregido)
    modules_to_reload = [
        'sp500_analysis.application.feature_engineering.correlation_remover',
        'sp500_analysis.application.feature_engineering.fpi_selection'
    ]
    
    for module_name in modules_to_reload:
        if module_name in sys.modules:
            print(f"üîÑ Recargando (VIF corregido): {module_name}")
            importlib.reload(sys.modules[module_name])
        else:
            print(f"üì¶ M√≥dulo no cargado anteriormente: {module_name} (esto es normal)")
    
    # Verificar que VIF est√© disponible despu√©s del reload
    print("üîß Verificando disponibilidad de VIF...")
    try:
        from statsmodels.stats.outliers_influence import variance_inflation_factor
        print("‚úÖ VIF importado correctamente")
    except ImportError as e:
        print(f"‚ùå Error al importar VIF: {e}")
    
    # Asegurar que estamos en la ra√≠z del proyecto
    os.chdir(project_root)
    
    # Verificar que el archivo existe
    step5_file = project_root / "pipelines" / "ml" / "05_step_remove_relations.py"
    if not step5_file.exists():
        print(f"‚ùå No existe archivo: {step5_file}")
        raise FileNotFoundError(f"Archivo 05_step_remove_relations.py no encontrado")
    
    print(f"‚úÖ Archivo encontrado: {step5_file}")
    
    # Ejecutar el script usando %run
    %run pipelines/ml/05_step_remove_relations.py
    print("‚úÖ Paso 5 completado exitosamente (m√©todo 1: %run)")
    
except Exception as e1:
    print(f"‚ö†Ô∏è M√©todo 1 fall√≥: {str(e1)}")
    
    try:
        # M√©todo 2: Ejecutar como subproceso con entorno configurado
        print("üîÑ Intentando m√©todo 2: Subproceso...")
        import subprocess
        import os
        
        # üîß CONFIGURAR ENTORNO PARA SUBPROCESO
        # Crear copia del entorno actual
        env = os.environ.copy()
        
        # Agregar src al PYTHONPATH
        src_path = str(project_root / "src")
        current_pythonpath = env.get('PYTHONPATH', '')
        if current_pythonpath:
            env['PYTHONPATH'] = f"{src_path}{os.pathsep}{current_pythonpath}"
        else:
            env['PYTHONPATH'] = src_path
        
        print(f"üîß PYTHONPATH configurado: {env['PYTHONPATH']}")
        
        result = subprocess.run([
            sys.executable, 
            "pipelines/ml/05_step_remove_relations.py"
        ], capture_output=True, text=True, cwd=project_root, env=env)
        
        if result.returncode == 0:
            print("‚úÖ Paso 5 completado exitosamente (m√©todo 2: subproceso)")
            if result.stdout:
                print("üìã Salida del proceso:")
                print(result.stdout[-1000:])  # √öltimas 1000 caracteres
        else:
            print(f"‚ùå Error en subproceso: {result.stderr}")
            raise Exception(f"Subproceso fall√≥: {result.stderr}")
            
    except Exception as e2:
        print(f"‚ö†Ô∏è M√©todo 2 fall√≥: {str(e2)}")
        
        try:
            # M√©todo 3: Importar y ejecutar paso a paso
            print("üîÑ Intentando m√©todo 3: Ejecuci√≥n manual paso a paso...")
            
            # Verificar que los datos existen
            import pandas as pd
            from pathlib import Path
            
            # Definir rutas
            data_dir = project_root / "data" / "2_processed"
            input_file = data_dir / "datos_economicos_1month_SP500_TRAINING.xlsx"
            output_file = data_dir / "ULTIMO_S&P500_final.xlsx"
            
            # Buscar archivo de entrada
            if not input_file.exists():
                # Buscar archivos alternativos
                possible_files = [
                    data_dir / "MERGEDEXCELS_CATEGORIZADO_LIMPIO.xlsx",
                    data_dir / "MERGEDEXCELS_CATEGORIZADO.xlsx",
                    project_root / "data" / "1_preprocess" / "MERGEDEXCELS_CATEGORIZADO.xlsx"
                ]
                
                for alt_file in possible_files:
                    if alt_file.exists():
                        input_file = alt_file
                        print(f"üìÇ Usando archivo alternativo: {input_file}")
                        break
                else:
                    raise FileNotFoundError("No se encontr√≥ archivo de entrada para el paso 5")
            
            # Cargar datos
            print(f"üìÇ Cargando datos de: {input_file}")
            df = pd.read_excel(input_file)
            print(f"üìä Datos cargados: {df.shape[0]} filas, {df.shape[1]} columnas")
            
            # Identificar columna target (√∫ltima columna)
            target_col = df.columns[-1]
            print(f"üéØ Target identificado: {target_col}")
            
            # Separar features y target
            X = df.drop(columns=[target_col])
            y = df[target_col]
            
            # Aplicar procesamiento b√°sico (eliminar columnas constantes)
            print("üîß Aplicando filtros b√°sicos...")
            
            # Eliminar columnas con todos NaN
            before_cols = X.shape[1]
            X = X.dropna(axis=1, how='all')
            print(f"üìâ Eliminadas {before_cols - X.shape[1]} columnas vac√≠as")
            
            # Eliminar columnas constantes b√°sicas
            before_cols = X.shape[1]
            numeric_cols = X.select_dtypes(include=[np.number]).columns
            for col in numeric_cols:
                if X[col].nunique() <= 1:
                    X = X.drop(columns=[col])
            print(f"üìâ Eliminadas {before_cols - X.shape[1]} columnas constantes")
            
            # Recrear DataFrame final
            final_df = pd.concat([X, y], axis=1)
            
            # Guardar resultado
            print(f"üíæ Guardando resultado en: {output_file}")
            final_df.to_excel(output_file, index=False)
            
            print(f"‚úÖ Paso 5 completado exitosamente (m√©todo 3: manual)")
            print(f"üìä Resultado final: {final_df.shape[0]} filas, {final_df.shape[1]} columnas")
            
        except Exception as e3:
            print(f"‚ùå M√©todo 3 fall√≥: {str(e3)}")
            print("üìã Detalles de todos los errores:")
            print(f"   M√©todo 1: {str(e1)}")
            print(f"   M√©todo 2: {str(e2)}")
            print(f"   M√©todo 3: {str(e3)}")
            print("‚ö†Ô∏è PASO 5 NO COMPLETADO - Verificar manualmente")

# Verificar si el archivo de salida existe
output_check = project_root / "data" / "2_processed" / "ULTIMO_S&P500_final.xlsx"
if output_check.exists():
    print(f"‚úÖ Archivo de salida confirmado: {output_check}")
    
    # Mostrar informaci√≥n b√°sica del archivo
    try:
        df_result = pd.read_excel(output_check)
        print(f"üìä Dimensiones finales: {df_result.shape}")
        print(f"üéØ Columnas: {list(df_result.columns[:5])}... (mostrando primeras 5)")
    except Exception as e:
        print(f"‚ö†Ô∏è Error al leer archivo resultado: {e}")
else:
    print(f"‚ùå No se encontr√≥ archivo de salida: {output_check}")

print("\nüéØ Paso 5 finalizado")



‚ö° Ejecutando paso 5: Eliminaci√≥n de relaciones
üîß Verificando e instalando dependencias necesarias...
üìÅ Proyecto detectado en: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üì¶ Agregado al PYTHONPATH: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\src
‚úÖ statsmodels ya instalado
‚úÖ scipy ya instalado
‚úÖ feature-engine ya instalado
‚úÖ catboost ya instalado
üîß Dependencias verificadas
üìÇ Directorio actual: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis
üîÑ Intentando m√©todo 1: Recargar m√≥dulos y ejecutar...
üîÑ Forzando recarga de m√≥dulos con imports corregidos...
üì¶ M√≥dulo no cargado anteriormente: sp500_analysis.application.feature_engineering.correlation_remover (esto es normal)
üì¶ M√≥dulo no cargado anteriormente: sp500_analysis.application.feature_engineering.fpi_selection (esto es normal)
üîß Verificando disponibilidad de VIF...
‚úÖ VIF importado correctamente
‚úÖ Archivo encontrado: c:\Users\saule\Desktop\Pipeline_Ju

2025-06-12 13:03:33,965 [INFO] Iniciando proceso de selecci√≥n y filtrado de features para series temporales...
2025-06-12 13:03:48,823 [INFO] Datos cargados: 861 filas, 830 columnas
2025-06-12 13:03:48,825 [INFO] Target identificado: PRICE_S&P500_Index_index_pricing_Return_Target
2025-06-12 13:03:54,797 [INFO] Variables D(diarias): 741 totales, 4 eliminadas (0.5%)
2025-06-12 13:03:54,799 [INFO] Variables W(semanales): 7 totales, 0 eliminadas (0.0%)
2025-06-12 13:03:54,800 [INFO] Variables M(mensuales): 70 totales, 7 eliminadas (10.0%)
2025-06-12 13:03:54,802 [INFO] Variables Q(trimestrales): 10 totales, 1 eliminadas (10.0%)
2025-06-12 13:03:54,812 [INFO] Features constantes/cuasiconstantes eliminadas: 12
2025-06-12 13:03:54,814 [INFO] Ejemplos: ['log_PRICE_Platinum_Spot_commodities', 'log_Actual_US_ConferenceBoard_LEI_leading_economic_index', 'log_Actual_Japan_Leading_Indicator_leading_economic_index', 'log_PRICE_FTSE_100_index_pricing', 'log_PRICE_Shanghai_Composite_index_pricing']..

KeyboardInterrupt: 

‚úÖ Paso 5 completado exitosamente (m√©todo 1: %run)
‚úÖ Archivo de salida confirmado: c:\Users\saule\Desktop\Pipeline_Junio\SP500_INDEX_Analisis\data\2_processed\ULTIMO_S&P500_final.xlsx


In [9]:
!pip install catboost
!pip install feature_engine
!pip install pandas_market_calendars

Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Collecting pandas_market_calendars
  Downloading pandas_market_calendars-5.0.0-py3-none-any.whl.metadata (9.6 kB)
Collecting exchange-calendars>=3.3 (from pandas_market_calendars)
  Using cached exchange_calendars-4.10-py3-none-any.whl.metadata (37 kB)
Collecting pyluach (from exchange-calendars>=3.3->pandas_market_calendars)
  Using cached pyluach-2.2.0-py3-none-any.whl.metadata (4.3 kB)
Collecting toolz (from exchange-calendars>=3.3->pandas_market_calendars)
  Using cached toolz-1.0.0-py3-none-any.whl.metadata (5.1 kB)
Collecting korean_lunar_calendar (from exchange-calendars>=3.3->pandas_market_calendars)
  Using cached korean_lunar_calendar-0.3.1-py3-none-any.whl.metadata (2.8 kB)
Downloading pandas_market_calendars-5.0.0-py3-none-any.whl (122 kB)
Usin

In [11]:
# Paso 6: Selecci√≥n FPI
print("üéØ Ejecutando paso 6: Selecci√≥n FPI")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# Ejecutar el script
%run pipelines/ml/06_step_fpi_selection.py

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\n‚úÖ Paso 6 completado")



2025-04-18 10:50:32,212 - INFO - Usando el archivo m√°s reciente: c:\Users\pedro\OneDrive\Documents\ALGO TRADING\SP500_INDEX_Analisis\data\2_processed\ULTIMO_S&P500_final.xlsx
2025-04-18 10:50:32,214 - INFO - La salida se guardar√° en: c:\Users\pedro\OneDrive\Documents\ALGO TRADING\SP500_INDEX_Analisis\data\3_trainingdata\ULTIMO_S&P500_final_FPI.xlsx


Ejecutando paso 6: Selecci√≥n FPI


2025-04-18 10:50:35,603 - INFO - Archivo 'c:\Users\pedro\OneDrive\Documents\ALGO TRADING\SP500_INDEX_Analisis\data\2_processed\ULTIMO_S&P500_final.xlsx' cargado con forma (2932, 148).
2025-04-18 10:50:35,605 - INFO - Columnas del DataFrame original: ['date', 'MoM_PRICE_Australia_10Y_Bond_bond', 'log_diff_PRICE_Australia_10Y_Bond_bond', '6M_change_PRICE_Australia_10Y_Bond_bond', 'zscore_PRICE_Australia_10Y_Bond_bond', 'MoM_PRICE_Italy_10Y_Bond_bond', 'log_diff_PRICE_Italy_10Y_Bond_bond', 'rolling_std_PRICE_Italy_10Y_Bond_bond', '3M_change_PRICE_Italy_10Y_Bond_bond', 'zscore_PRICE_Italy_10Y_Bond_bond', 'MoM_PRICE_Japan_10Y_Bond_bond', 'YoY_PRICE_Japan_10Y_Bond_bond', 'log_diff_PRICE_Japan_10Y_Bond_bond', 'rolling_var_PRICE_Japan_10Y_Bond_bond', '3M_change_PRICE_Japan_10Y_Bond_bond', '6M_change_PRICE_Japan_10Y_Bond_bond', 'YTD_PRICE_Japan_10Y_Bond_bond', 'zscore_PRICE_Japan_10Y_Bond_bond', 'MoM_PRICE_UK_10Y_Bond_bond', 'log_diff_PRICE_UK_10Y_Bond_bond', '3M_change_PRICE_UK_10Y_Bond_bond',

In [15]:
!pip install lightgbm
!pip install xgboost


Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Collecting xgboost
  Using cached xgboost-3.0.0-py3-none-win_amd64.whl.metadata (2.1 kB)
Using cached xgboost-3.0.0-py3-none-win_amd64.whl (150.0 MB)
Installing collected packages: xgboost
Successfully installed xgboost-3.0.0


In [17]:
# Paso 7: Entrenamiento de modelos
print("ü§ñ Ejecutando paso 7: Entrenamiento de modelos")
print("=" * 60)

# Cambiar al directorio ra√≠z del proyecto
os.chdir('..')
print(f"üìÇ Directorio actual: {os.getcwd()}")

# Ejecutar el script
%run pipelines/ml/07_step_train_models.py

# Regresar al directorio de notebooks
os.chdir('notebooks')
print("\n‚úÖ Paso 7 completado")



2025-04-18 11:04:06,355 - INFO - Usando el archivo m√°s reciente: c:\Users\pedro\OneDrive\Documents\ALGO TRADING\SP500_INDEX_Analisis\data\3_trainingdata\ULTIMO_S&P500_final_FPI.xlsx


Ejecutando paso 7: Entrenamiento de modelos


2025-04-18 11:04:08,551 - INFO - Datos le√≠dos y ordenados por fecha.
2025-04-18 11:04:08,559 - INFO - Se han imputado los valores NaN e inf (ffill y relleno con 0).
2025-04-18 11:04:08,606 - INFO - Split realizado: Training=2784, Evaluacion (21 d√≠as)=21, Test (21 d√≠as)=21
2025-04-18 11:04:08,608 - INFO - === Optimizando y entrenando CatBoost... ===
[I 2025-04-18 11:04:08,609] A new study created in memory with name: no-name-970bc493-f008-45e8-ae8f-de5f95e35f91
[I 2025-04-18 11:04:15,862] Trial 0 finished with value: 954.4416227128535 and parameters: {'learning_rate': 0.04845901204836764, 'depth': 4, 'iterations': 816}. Best is trial 0 with value: 954.4416227128535.
[I 2025-04-18 11:04:30,318] Trial 1 finished with value: 1059.0621635762423 and parameters: {'learning_rate': 0.0015090161154317763, 'depth': 5, 'iterations': 744}. Best is trial 0 with value: 954.4416227128535.
[I 2025-04-18 11:08:16,087] Trial 2 finished with value: 1080.2505387369513 and parameters: {'learning_rate': 0

CatBoostError: bad allocation

In [None]:
# Paso 8: Preparaci√≥n de salida
print("Ejecutando paso 8: Preparaci√≥n de salida")
%run ../pipelines/ml/08_step_prepare_output.py


In [None]:
# Paso 8: Preparaci√≥n de salida
print("Ejecutando paso 8: Preparaci√≥n de salida")
%run ../pipelines/ml/09_step_backtest.py

print("¬°Pipeline ML completado!")