In [None]:
# ===== NOTEBOOK: 01_extraccion.ipynb =====
# Sistema H√≠brido de Extracci√≥n de Datos
# Yahoo Finance + Alpha Vantage

# %% [markdown]
# # üìä Extracci√≥n de Datos Financieros - Sistema H√≠brido
# 
# Este notebook usa un sistema h√≠brido que combina:
# 1. **Yahoo Finance** (base, gratis, ilimitado)
# 2. **Alpha Vantage** (complemento, 500 calls/d√≠a gratis)
# 
# ## üéØ Objetivo
# Extraer datos para **1 empresa** (AAPL) como prueba antes de escalar a 3000 empresas

# %%
# Imports
import sys
import os
sys.path.append('../')

from src.data_collector import HybridDataCollector, collect_single_company
from config.api_keys import ALPHA_VANTAGE_KEY, USE_HYBRID_MODE

import pandas as pd
import numpy as np

print("‚úÖ M√≥dulos importados correctamente")

# %% [markdown]
# ## üîß Configuraci√≥n

# %%
# Ticker para la prueba
TICKER = "AAPL"

# Rango de fechas
START_DATE = "2016-01-01"
END_DATE = "2023-12-31"

# Modo de operaci√≥n
USE_HYBRID = False  # Cambiar a True cuando tengas API key de Alpha Vantage

print(f"üéØ Configuraci√≥n:")
print(f"   Ticker: {TICKER}")
print(f"   Per√≠odo: {START_DATE} a {END_DATE}")
print(f"   Modo h√≠brido: {'‚úÖ Activado' if USE_HYBRID else '‚ùå Solo Yahoo Finance'}")

# %% [markdown]
# ## üì• OPCI√ìN 1: Recolecci√≥n Simple (Una Empresa)

# %%
# Forma m√°s simple - usando funci√≥n helper
print(f"\n{'='*60}")
print(f"üöÄ Iniciando recolecci√≥n para {TICKER}")
print(f"{'='*60}\n")

result = collect_single_company(
    ticker=TICKER,
    use_hybrid=USE_HYBRID,
    alpha_vantage_key=ALPHA_VANTAGE_KEY if USE_HYBRID else None
)

print(f"\n‚úÖ Recolecci√≥n completada")
print(f"\nCalidad de datos:")
print(f"   - Datos de mercado: {'‚úÖ' if result['data_quality']['has_market_data'] else '‚ùå'}")
print(f"   - Datos financieros: {'‚úÖ' if result['data_quality']['has_financial_data'] else '‚ùå'}")
print(f"   - Shares outstanding: {'‚úÖ' if result['data_quality']['has_shares'] else '‚ùå'}")
print(f"   - Score total: {result['data_quality']['overall_score']:.0f}%")

# %% [markdown]
# ## üì• OPCI√ìN 2: Recolecci√≥n Detallada (Control Total)

# %%
# Si necesitas m√°s control, usa la clase directamente
collector = HybridDataCollector(
    alpha_vantage_key=ALPHA_VANTAGE_KEY if USE_HYBRID else None,
    use_hybrid=USE_HYBRID
)

# Recolectar
result_detailed = collector.collect_company_data(
    ticker=TICKER,
    start=START_DATE,
    end=END_DATE
)

# Guardar
collector.save_data(result_detailed, output_dir="../data/raw")

# %% [markdown]
# ## üîç Inspeccionar Datos Recolectados

# %%
# Ver datos de mercado
if result['market_data'] is not None:
    print("\nüìà DATOS DE MERCADO")
    print(f"   Filas: {len(result['market_data'])}")
    print(f"   Columnas: {list(result['market_data'].columns)}")
    print(f"\n   Muestra (√∫ltimos 5 d√≠as):")
    display(result['market_data'].tail())

# %%
# Ver datos financieros
if result['financial_data'] is not None:
    print("\nüìä DATOS FINANCIEROS")
    print(f"   Reportes: {len(result['financial_data'])}")
    print(f"   Columnas: {len(result['financial_data'].columns)}")
    print(f"\n   Primeras 10 columnas:")
    print(result['financial_data'].columns[:10].tolist())
    print(f"\n   Muestra (√∫ltimos 3 reportes):")
    display(result['financial_data'].tail(3))

# %%
# Ver columnas disponibles
if result['financial_data'] is not None:
    print("\nüìã TODAS LAS COLUMNAS DISPONIBLES:")
    for i, col in enumerate(result['financial_data'].columns, 1):
        print(f"{i:3d}. {col}")

# %% [markdown]
# ## üîç Verificar Disponibilidad de Variables Cr√≠ticas

# %%
from src.diccionario_variables import check_data_availability, VARIABLES_CRITICAS

if result['financial_data'] is not None:
    available, missing = check_data_availability(result['financial_data'].columns)
    
    print(f"\n‚úÖ VARIABLES DISPONIBLES ({len(available)}):")
    for var in available:
        print(f"   ‚Ä¢ {var}")
    
    if missing:
        print(f"\n‚ùå VARIABLES FALTANTES ({len(missing)}):")
        for var in missing:
            print(f"   ‚Ä¢ {var}")

# %% [markdown]
# ## üíæ Verificar Archivos Guardados

# %%
import os

raw_dir = "../data/raw"
files = [f for f in os.listdir(raw_dir) if TICKER in f]

print(f"\nüìÇ Archivos guardados para {TICKER}:")
for file in sorted(files):
    file_path = os.path.join(raw_dir, file)
    file_size = os.path.getsize(file_path) / 1024  # KB
    print(f"   ‚Ä¢ {file} ({file_size:.1f} KB)")

# %% [markdown]
# ## üéØ Pr√≥ximos Pasos
# 
# 1. ‚úÖ Datos extra√≠dos correctamente
# 2. ‚û°Ô∏è Continuar con `02_limpieza_mapeo.ipynb` para procesar los datos
# 3. ‚û°Ô∏è Luego `03_ingenieria_factores.ipynb` para calcular caracter√≠sticas

# %% [markdown]
# ## üöÄ BONUS: Preparaci√≥n para M√∫ltiples Empresas
# 
# Cuando est√©s listo para escalar a 3000 empresas, usa este c√≥digo:

# %%
"""
# NO EJECUTAR AHORA - Solo para referencia futura

tickers = ['AAPL', 'MSFT', 'GOOGL', ...]  # Lista de 3000 tickers

collector = HybridDataCollector(
    alpha_vantage_key=ALPHA_VANTAGE_KEY,
    use_hybrid=True
)

results = []
for i, ticker in enumerate(tickers, 1):
    print(f"\\n[{i}/{len(tickers)}] Procesando {ticker}...")
    
    try:
        result = collector.collect_company_data(ticker)
        collector.save_data(result)
        results.append(result)
        
        # Cada 100 empresas, hacer checkpoint
        if i % 100 == 0:
            print(f"‚úÖ Checkpoint: {i} empresas procesadas")
            
    except Exception as e:
        print(f"‚ùå Error con {ticker}: {e}")
        continue

print(f"\\n‚úÖ Completado: {len(results)} empresas procesadas")
"""