In [28]:
import polars as pl
from pathlib import Path
import os

os.chdir(r"D:\04_TRADING_SMALLCAPS")

print("="*100)
print("ESTADÍSTICAS DE DATOS: VALIDACIÓN UNIVERSO VS OHLCV DESCARGADO")
print("="*100)

# 1. Universo Híbrido Parquet
print("\n📊 1. cs_xnas_xnys_hybrid_2025-10-24.parquet")
print("-"*100)
df_parquet = pl.read_parquet("processed/universe/cs_xnas_xnys_hybrid_2025-10-24.parquet")
print(f"Total tickers:     {len(df_parquet):>8,}")
print(f"Activos:           {len(df_parquet.filter(pl.col('active') == True)):>8,}")
print(f"Inactivos:         {len(df_parquet.filter(pl.col('active') == False)):>8,}")
print(f"Columnas:          {len(df_parquet.columns):>8,}")
print(f"\nColumns: \n")
print("\n".join(df_parquet.columns))



ESTADÍSTICAS DE DATOS: VALIDACIÓN UNIVERSO VS OHLCV DESCARGADO

📊 1. cs_xnas_xnys_hybrid_2025-10-24.parquet
----------------------------------------------------------------------------------------------------
Total tickers:        8,686
Activos:              3,092
Inactivos:            5,594
Columnas:                14

Columns: 

ticker
name
market
locale
primary_exchange
type
active
currency_name
cik
composite_figi
share_class_figi
last_updated_utc
snapshot_date
delisted_utc


In [27]:
# 2. Universo Híbrido CSV
print("\n📊 2. cs_xnas_xnys_hybrid_2025-10-24.csv")
print("-"*100)
df_csv = pl.read_csv("processed/universe/cs_xnas_xnys_hybrid_2025-10-24.csv")
print(f"Total tickers:     {len(df_csv):>8,}")
print(f"Activos:           {len(df_csv.filter(pl.col('active') == True)):>8,}")
print(f"Inactivos:         {len(df_csv.filter(pl.col('active') == False)):>8,}")
print(f"Columnas:          {len(df_csv.columns):>8,}")
print(f"Columns: {df_csv.columns}")


📊 2. cs_xnas_xnys_hybrid_2025-10-24.csv
----------------------------------------------------------------------------------------------------
Total tickers:        8,686
Activos:              3,092
Inactivos:            5,594
Columnas:                 6
Columns: ['ticker', 'name', 'primary_exchange', 'type', 'active', 'cik']


In [39]:
# 3. OHLCV Daily descargado
print("\n📊 3. raw/polygon/ohlcv_daily/")
print("-"*100)
daily_path = Path("raw/polygon/ohlcv_daily")
daily_tickers = sorted([d.name for d in daily_path.iterdir() if d.is_dir() and not d.name.startswith("_")])
count_daily = len(daily_tickers)
print(f"Total tickers:     {count_daily:>8,}")
print(f"Cobertura:         {count_daily/8686*100:>7.2f}%  (vs 8,686 esperados)")
print(f"Faltantes:         {8686 - count_daily:>8,}")

# Mostrar primeros 10 y últimos 10
print(f"\nPrimeros 10: {daily_tickers[:10]}")
print(f"Últimos 10:  {daily_tickers[-10:]}")

# MUESTRA DE DATOS: Leer un ticker aleatorio
if len(daily_tickers) > 0:
    sample_ticker = daily_tickers[100]  # Tomar el ticker #100
    print(f"\n🔍 MUESTRA DE DATOS: {sample_ticker}")
    print("-"*100)
    # Buscar archivos parquet en el ticker
    ticker_dir = daily_path / sample_ticker
    parquet_files = list(ticker_dir.rglob("*.parquet"))
    if parquet_files:
        df_sample = pl.read_parquet(parquet_files[0])
        print(f"Archivo: {parquet_files[0].relative_to(daily_path)}")
        print(f"Filas: {len(df_sample):,}")
        print(f"Columnas: {df_sample.columns}")
        print(f"\nPrimeras 5 filas:")
        print(df_sample.head(5))


📊 3. raw/polygon/ohlcv_daily/
----------------------------------------------------------------------------------------------------
Total tickers:        8,618
Cobertura:           99.22%  (vs 8,686 esperados)
Faltantes:               68

Primeros 10: ['AABA', 'AAC', 'AACB', 'AACI', 'AACQ', 'AACT', 'AADI', 'AAGR', 'AAI', 'AAIC']
Últimos 10:  ['ZVO', 'ZVRA', 'ZVSA', 'ZWRK', 'ZY', 'ZYBT', 'ZYME', 'ZYNE', 'ZYXI', 'ZZ']

🔍 MUESTRA DE DATOS: ACOG
----------------------------------------------------------------------------------------------------
Archivo: ACOG\year=2024\daily.parquet
Filas: 34
Columnas: ['ticker', 'date', 't', 'o', 'h', 'l', 'c', 'v', 'n', 'vw']

Primeras 5 filas:
shape: (5, 10)
┌────────┬────────────┬───────────────┬──────┬───┬────────┬──────────┬──────┬────────┐
│ ticker ┆ date       ┆ t             ┆ o    ┆ … ┆ c      ┆ v        ┆ n    ┆ vw     │
│ ---    ┆ ---        ┆ ---           ┆ ---  ┆   ┆ ---    ┆ ---      ┆ ---  ┆ ---    │
│ str    ┆ str        ┆ i64           ┆ 

In [38]:
# 4. OHLCV Intraday descargado
print("\n📊 4. raw/polygon/ohlcv_intraday_1m/")
print("-"*100)
intraday_path = Path("raw/polygon/ohlcv_intraday_1m")
intraday_tickers = sorted([d.name for d in intraday_path.iterdir() if d.is_dir() and not d.name.startswith("_")])
count_intraday = len(intraday_tickers)
print(f"Total tickers:     {count_intraday:>8,}")
print(f"Cobertura:         {count_intraday/8686*100:>7.2f}%  (vs 8,686 esperados)")
print(f"Faltantes:         {8686 - count_intraday:>8,}")

# Mostrar primeros 10 y últimos 10
print(f"\nPrimeros 10: {intraday_tickers[:10]}")
print(f"Últimos 10:  {intraday_tickers[-10:]}")

# MUESTRA DE DATOS: Leer un ticker aleatorio
if len(intraday_tickers) > 0:
    sample_ticker = intraday_tickers[100]  # Tomar el ticker #100
    print(f"\n🔍 MUESTRA DE DATOS: {sample_ticker}")
    print("-"*100)
    # Buscar archivos parquet en el ticker
    ticker_dir = intraday_path / sample_ticker
    parquet_files = list(ticker_dir.rglob("*.parquet"))
    if parquet_files:
        df_sample = pl.read_parquet(parquet_files[0])
        print(f"Archivo: {parquet_files[0].relative_to(intraday_path)}")
        print(f"Filas: {len(df_sample):,}")
        print(f"Columnas: {df_sample.columns}")
        print(f"\nPrimeras 5 filas:")
        print(df_sample.head(5))


📊 4. raw/polygon/ohlcv_intraday_1m/
----------------------------------------------------------------------------------------------------
Total tickers:        8,620
Cobertura:           99.24%  (vs 8,686 esperados)
Faltantes:               66

Primeros 10: ['AABA', 'AAC', 'AACB', 'AACI', 'AACQ', 'AACT', 'AADI', 'AAGR', 'AAI', 'AAIC']
Últimos 10:  ['ZVO', 'ZVRA', 'ZVSA', 'ZWRK', 'ZY', 'ZYBT', 'ZYME', 'ZYNE', 'ZYXI', 'ZZ']

🔍 MUESTRA DE DATOS: ACOG
----------------------------------------------------------------------------------------------------
Archivo: ACOG\year=2024\month=11\minute.parquet
Filas: 944
Columnas: ['ticker', 'date', 'minute', 't', 'o', 'h', 'l', 'c', 'v', 'n', 'vw']

Primeras 5 filas:
shape: (5, 11)
┌────────┬────────────┬──────────────────┬───────────────┬───┬──────┬─────────┬─────┬────────┐
│ ticker ┆ date       ┆ minute           ┆ t             ┆ … ┆ c    ┆ v       ┆ n   ┆ vw     │
│ ---    ┆ ---        ┆ ---              ┆ ---           ┆   ┆ ---  ┆ ---     ┆ --- 

In [34]:
# 5. Comparación: ¿Qué tickers están en CSV pero NO en Daily?
print("\n📊 5. DISCREPANCIAS: Tickers en CSV pero NO en Daily")
print("-"*100)
tickers_csv = set(df_csv["ticker"].to_list())
tickers_daily = set(daily_tickers)
missing_daily = sorted(tickers_csv - tickers_daily)
print(f"Faltantes en Daily:  {len(missing_daily):>6,}")
if len(missing_daily) > 0:
    print(f"Primeros 20: {missing_daily[:10]}")

# 6. Comparación: ¿Qué tickers están en CSV pero NO en Intraday?
print("\n📊 6. DISCREPANCIAS: Tickers en CSV pero NO en Intraday")
print("-"*100)
tickers_intraday = set(intraday_tickers)
missing_intraday = sorted(tickers_csv - tickers_intraday)
print(f"Faltantes en Intraday: {len(missing_intraday):>6,}")
if len(missing_intraday) > 0:
    print(f"Primeros 20: {missing_intraday[:10]}")


📊 5. DISCREPANCIAS: Tickers en CSV pero NO en Daily
----------------------------------------------------------------------------------------------------
Faltantes en Daily:      84
Primeros 20: ['ACCP', 'ACLL', 'ADSW', 'AFGL', 'AIRCw', 'AIRTV', 'AIVw', 'ALPX', 'ALVU', 'ALZH']

📊 6. DISCREPANCIAS: Tickers en CSV pero NO en Intraday
----------------------------------------------------------------------------------------------------
Faltantes en Intraday:     82
Primeros 20: ['ACCP', 'ACLL', 'ADSw', 'AEBIV', 'AFGL', 'AIRCw', 'AIRTV', 'AIVw', 'ALPX', 'ALVU']
