In [3]:
"""
SCRIPT INICIALIZACI√ìN - limpieza_datos.ipynb
Ejecutar esta celda primero despu√©s de reiniciar el kernel
"""

import pandas as pd
import numpy as np
import yfinance as yf
import os
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

print("INICIALIZANDO NOTEBOOK LIMPIEZA DE DATOS...")
print("=" * 60)

# ===================================================================
# VERIFICAR/CREAR ESTRUCTURA DE CARPETAS
# ===================================================================
print("\n1. VERIFICANDO ESTRUCTURA DE CARPETAS...")

carpetas = [
    'data',
    'data/raw',
    'data/raw/crypto', 
    'data/raw/stocks',
    'data/processed',
    'reports'
]

for carpeta in carpetas:
    os.makedirs(carpeta, exist_ok=True)
    
print(f"   ‚úÖ {len(carpetas)} carpetas verificadas/creadas")

# ===================================================================
# CONFIGURACI√ìN
# ===================================================================
print("\n2. CONFIGURACI√ìN...")

pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("   ‚úÖ Pandas configurado")
print("   ‚úÖ yfinance disponible")

# ===================================================================
# RESUMEN
# ===================================================================
print("\n" + "=" * 60)
print("LISTO PARA LIMPIEZA DE DATOS")
print("=" * 60)
print("Este notebook genera datos desde cero:")
print("  - Descarga de yfinance")
print("  - Procesamiento de archivos Kaggle")
print("  - Limpieza y transformaci√≥n")
print("  - Guardado en data/processed/")
print("\nPuedes ejecutar las siguientes celdas para generar los datos")

INICIALIZANDO NOTEBOOK LIMPIEZA DE DATOS...

1. VERIFICANDO ESTRUCTURA DE CARPETAS...
   ‚úÖ 6 carpetas verificadas/creadas

2. CONFIGURACI√ìN...
   ‚úÖ Pandas configurado
   ‚úÖ yfinance disponible

LISTO PARA LIMPIEZA DE DATOS
Este notebook genera datos desde cero:
  - Descarga de yfinance
  - Procesamiento de archivos Kaggle
  - Limpieza y transformaci√≥n
  - Guardado en data/processed/

Puedes ejecutar las siguientes celdas para generar los datos


In [5]:
# ===================================================================
# PROYECTO: An√°lisis Comparativo Criptomonedas vs Acciones Tecnol√≥gicas (2012-2024)
# NOTEBOOK: 01 - Limpieza y Transformaci√≥n de Datos 
# AUTOR: [Sergio Cano]
# FECHA: [Diciembre 2024]
# DATASET: 50K+ filas, 17 activos, 13 a√±os datos hist√≥ricos
# ===================================================================

# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import yfinance as yf
import os
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# 1. Crear estructura de carpetas
print("üìÅ Creando estructura de carpetas...")
directories = [
    'data',
    'data/raw',
    'data/raw/crypto', 
    'data/raw/stocks',
    'data/processed',
    'reports'
]

for directory in directories:
    os.makedirs(directory, exist_ok=True)
    print(f"   ‚úÖ {directory}")

# 2. Definir activos y configuraci√≥n
print(f"\nüéØ Definiendo activos para descarga...")
crypto_symbols = {
    'bitcoin': 'BTC-USD',
    'ethereum': 'ETH-USD', 
    'binancecoin': 'BNB-USD',
    'cardano': 'ADA-USD',
    'solana': 'SOL-USD',
    'dogecoin': 'DOGE-USD',
    'polkadot': 'DOT-USD'
}

stock_symbols = {
    'aapl': 'AAPL',
    'tsla': 'TSLA',
    'msft': 'MSFT', 
    'amzn': 'AMZN',
    'googl': 'GOOGL',
    'nvda': 'NVDA',
    'meta': 'META',
    'intc': 'INTC',
    'amd': 'AMD',
    'qcom': 'QCOM'
}

# Fechas: 13 a√±os para superar 50k filas
start_date = '2012-01-01'
end_date = '2024-12-31'

print(f"üí∞ Criptomonedas: {len(crypto_symbols)}")
print(f"üìà Acciones: {len(stock_symbols)}")
print(f"üìÖ Per√≠odo: {start_date} a {end_date}")

# 3. Funci√≥n de descarga 
def download_asset(name, symbol, asset_type, start_date, end_date):
    """Descarga un activo con manejo de errores"""
    try:
        print(f"üîÑ {name.upper():<12} ({symbol})...")
        
        data = yf.download(symbol, start=start_date, end=end_date, progress=False)
        
        if data.empty:
            print(f"   ‚ùå Sin datos")
            return None
        
        # Arreglar MultiIndex si existe
        if isinstance(data.columns, pd.MultiIndex):
            data.columns = data.columns.get_level_values(0)
        
        # Resetear √≠ndice y estandarizar columnas
        data = data.reset_index()
        data.columns = data.columns.str.lower().str.replace(' ', '_')
        
        # Limpiar datos b√°sicos
        data = data.dropna(subset=['close'])
        data = data[data['close'] > 0]
        
        # A√±adir metadatos
        data['asset_name'] = name.upper()
        data['asset_type'] = asset_type
        data['asset_class'] = asset_type
        data['symbol'] = symbol
        
        print(f"   ‚úÖ {len(data):,} registros ({data['date'].min().date()} a {data['date'].max().date()})")
        return data
        
    except Exception as e:
        print(f"   ‚ùå Error: {str(e)}")
        return None

print(f"\nüîÑ INICIANDO DESCARGA MASIVA...")


üìÅ Creando estructura de carpetas...
   ‚úÖ data
   ‚úÖ data/raw
   ‚úÖ data/raw/crypto
   ‚úÖ data/raw/stocks
   ‚úÖ data/processed
   ‚úÖ reports

üéØ Definiendo activos para descarga...
üí∞ Criptomonedas: 7
üìà Acciones: 10
üìÖ Per√≠odo: 2012-01-01 a 2024-12-31

üîÑ INICIANDO DESCARGA MASIVA...


In [6]:
print("üìä DESCARGANDO TODOS LOS ACTIVOS")
print("=" * 60)

# Descargar criptomonedas
print("üí∞ DESCARGANDO CRIPTOMONEDAS:")
crypto_datasets = {}
for name, symbol in crypto_symbols.items():
    data = download_asset(name, symbol, 'crypto', start_date, end_date)
    if data is not None:
        crypto_datasets[name] = data

print(f"\nüìà DESCARGANDO ACCIONES:")
stock_datasets = {}
for name, symbol in stock_symbols.items():
    data = download_asset(name, symbol, 'stock', start_date, end_date)
    if data is not None:
        stock_datasets[name] = data

# Resumen de descarga
print(f"\nüìä RESUMEN DE DESCARGA:")
print(f"   üí∞ Criptos exitosas: {len(crypto_datasets)}/{len(crypto_symbols)}")
print(f"   üìà Stocks exitosas: {len(stock_datasets)}/{len(stock_symbols)}")

crypto_total = sum(len(df) for df in crypto_datasets.values())
stock_total = sum(len(df) for df in stock_datasets.values())

print(f"   üí∞ Filas crypto: {crypto_total:,}")
print(f"   üìà Filas stocks: {stock_total:,}")
print(f"   üéØ TOTAL: {crypto_total + stock_total:,} filas")

if crypto_total + stock_total >= 50000:
    print(f"   ‚úÖ CUMPLE REQUISITO 50k+ filas")
else:
    print(f"   ‚ö†Ô∏è Faltan {50000 - (crypto_total + stock_total):,} filas")

üìä DESCARGANDO TODOS LOS ACTIVOS
üí∞ DESCARGANDO CRIPTOMONEDAS:
üîÑ BITCOIN      (BTC-USD)...
   ‚úÖ 3,758 registros (2014-09-17 a 2024-12-30)
üîÑ ETHEREUM     (ETH-USD)...
   ‚úÖ 2,609 registros (2017-11-09 a 2024-12-30)
üîÑ BINANCECOIN  (BNB-USD)...
   ‚úÖ 2,609 registros (2017-11-09 a 2024-12-30)
üîÑ CARDANO      (ADA-USD)...
   ‚úÖ 2,609 registros (2017-11-09 a 2024-12-30)
üîÑ SOLANA       (SOL-USD)...
   ‚úÖ 1,726 registros (2020-04-10 a 2024-12-30)
üîÑ DOGECOIN     (DOGE-USD)...
   ‚úÖ 2,609 registros (2017-11-09 a 2024-12-30)
üîÑ POLKADOT     (DOT-USD)...
   ‚úÖ 1,594 registros (2020-08-20 a 2024-12-30)

üìà DESCARGANDO ACCIONES:
üîÑ AAPL         (AAPL)...
   ‚úÖ 3,269 registros (2012-01-03 a 2024-12-30)
üîÑ TSLA         (TSLA)...
   ‚úÖ 3,269 registros (2012-01-03 a 2024-12-30)
üîÑ MSFT         (MSFT)...
   ‚úÖ 3,269 registros (2012-01-03 a 2024-12-30)
üîÑ AMZN         (AMZN)...
   ‚úÖ 3,269 registros (2012-01-03 a 2024-12-30)
üîÑ GOOGL        (GOOGL)...
   ‚úÖ 

In [8]:
print("\nüßπ LIMPIEZA Y PROCESAMIENTO FINAL")
print("=" * 60)

def process_for_daily_frequency(datasets_dict, asset_type):
    """Procesa datasets para frecuencia diaria completa"""
    print(f"üîÑ Procesando {asset_type}...")
    
    if not datasets_dict:
        return []
    
    # Obtener rango completo de fechas
    all_dates = []
    for df in datasets_dict.values():
        all_dates.extend(df['date'].tolist())
    
    min_date = min(all_dates)
    max_date = max(all_dates)
    complete_date_range = pd.date_range(start=min_date, end=max_date, freq='D')
    
    processed_datasets = []
    
    for name, df in datasets_dict.items():
        df_copy = df.copy().set_index('date').sort_index()
        
        if asset_type == 'stock':
            # Para stocks: expandir a todos los d√≠as y forward fill
            df_expanded = df_copy.reindex(complete_date_range)
            
            # Forward fill precios (mantiene precio del viernes en fin de semana)
            price_cols = ['open', 'high', 'low', 'close']
            for col in price_cols:
                if col in df_expanded.columns:
                    df_expanded[col] = df_expanded[col].fillna(method='ffill')
            
            # Volumen = √∫ltimo volumen conocido (o 0)
            if 'volume' in df_expanded.columns:
                df_expanded['volume'] = df_expanded['volume'].fillna(method='ffill').fillna(0)
            
            df_processed = df_expanded.reset_index().rename(columns={'index': 'date'})
            
        else:
            # Para crypto: solo limpiar NaNs (ya tiene frecuencia diaria)
            for col in ['open', 'high', 'low', 'close', 'volume']:
                if col in df_copy.columns:
                    df_copy[col] = df_copy[col].fillna(method='ffill').fillna(method='bfill')
            
            df_processed = df_copy.reset_index()
        
        # Rellenar metadatos
        df_processed['asset_name'] = name.upper()
        df_processed['asset_type'] = asset_type
        df_processed['asset_class'] = asset_type
        
        # Eliminar filas sin precio
        df_processed = df_processed.dropna(subset=['close'])
        
        processed_datasets.append(df_processed)
        print(f"   ‚úÖ {name.upper()}: {len(df_processed):,} filas")
    
    return processed_datasets

# Procesar crypto y stocks
print("üí∞ PROCESANDO CRIPTOMONEDAS:")
crypto_processed = process_for_daily_frequency(crypto_datasets, 'crypto')

print("\nüìà PROCESANDO ACCIONES (Forward Fill completo):")
stock_processed = process_for_daily_frequency(stock_datasets, 'stock')

# Combinar todo
print(f"\nüîó COMBINANDO DATASETS:")
all_datasets = crypto_processed + stock_processed
final_dataset = pd.concat(all_datasets, ignore_index=True, sort=False)
final_dataset = final_dataset.sort_values(['asset_name', 'date']).reset_index(drop=True)

print(f"   üìè Dataset final: {final_dataset.shape}")
print(f"   üìÖ Per√≠odo: {final_dataset['date'].min().date()} a {final_dataset['date'].max().date()}")
print(f"   üéØ Activos: {final_dataset['asset_name'].nunique()}")

# Verificar NaNs
total_nans = final_dataset.isnull().sum().sum()
print(f"   ‚ùì NaNs totales: {total_nans:,}")

# Guardar dataset
output_file = '../../data/processed/combined_crypto_stock_data.csv'
final_dataset.to_csv(output_file, index=False)
file_size = os.path.getsize(output_file) / 1024 / 1024

print(f"\nüíæ DATASET GUARDADO:")
print(f"   üìÑ {output_file}")
print(f"   üíΩ Tama√±o: {file_size:.1f} MB")

print(f"\nüéâ ¬°PROCESO COMPLETADO!")
print(f"‚úÖ Dataset listo con {final_dataset.shape[0]:,} filas y {final_dataset.shape[1]} columnas")


üßπ LIMPIEZA Y PROCESAMIENTO FINAL
üí∞ PROCESANDO CRIPTOMONEDAS:
üîÑ Procesando crypto...
   ‚úÖ BITCOIN: 3,758 filas
   ‚úÖ ETHEREUM: 2,609 filas
   ‚úÖ BINANCECOIN: 2,609 filas
   ‚úÖ CARDANO: 2,609 filas
   ‚úÖ SOLANA: 1,726 filas
   ‚úÖ DOGECOIN: 2,609 filas
   ‚úÖ POLKADOT: 1,594 filas

üìà PROCESANDO ACCIONES (Forward Fill completo):
üîÑ Procesando stock...
   ‚úÖ AAPL: 4,746 filas
   ‚úÖ TSLA: 4,746 filas
   ‚úÖ MSFT: 4,746 filas
   ‚úÖ AMZN: 4,746 filas
   ‚úÖ GOOGL: 4,746 filas
   ‚úÖ NVDA: 4,746 filas
   ‚úÖ META: 4,610 filas
   ‚úÖ INTC: 4,746 filas
   ‚úÖ AMD: 4,746 filas
   ‚úÖ QCOM: 4,746 filas

üîó COMBINANDO DATASETS:
   üìè Dataset final: (64838, 10)
   üìÖ Per√≠odo: 2012-01-03 a 2024-12-30
   üéØ Activos: 17
   ‚ùì NaNs totales: 14,729

üíæ DATASET GUARDADO:
   üìÑ ../../data/processed/combined_crypto_stock_data.csv
   üíΩ Tama√±o: 7.4 MB

üéâ ¬°PROCESO COMPLETADO!
‚úÖ Dataset listo con 64,838 filas y 10 columnas


In [23]:
print("üìä DATASET FINAL - INSPECCI√ìN COMPLETA")
print("=" * 70)

# Configurar pandas para ver todo
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 20)
pd.set_option('display.width', None)

print(f"üìè INFORMACI√ìN GENERAL:")
print(f"   Forma: {final_dataset.shape}")
print(f"   Per√≠odo: {final_dataset['date'].min().date()} a {final_dataset['date'].max().date()}")
print(f"   A√±os: {(final_dataset['date'].max() - final_dataset['date'].min()).days / 365.25:.1f}")

print(f"\nüìã COLUMNAS FINALES:")
for i, col in enumerate(final_dataset.columns, 1):
    dtype = str(final_dataset[col].dtype)
    nan_count = final_dataset[col].isnull().sum()
    unique_vals = final_dataset[col].nunique()
    print(f"   {i:2d}. {col:<15} | {dtype:<12} | NaN: {nan_count:>6} | √önicos: {unique_vals:>8,}")

print(f"\nüìä PRIMERAS 10 FILAS (TODAS LAS COLUMNAS):")
display(final_dataset.head(10))

print(f"\nüéØ RESUMEN POR ACTIVO:")
asset_summary = final_dataset.groupby(['asset_name', 'asset_class']).agg({
    'date': ['count', 'min', 'max'],
    'close': ['min', 'max']
}).round(2)

# Simplificar columnas
asset_summary.columns = ['Filas', 'Inicio', 'Fin', 'Min_Precio', 'Max_Precio']
asset_summary = asset_summary.reset_index()

for _, row in asset_summary.iterrows():
    a√±os = (pd.to_datetime(row['Fin']) - pd.to_datetime(row['Inicio'])).days / 365.25
    print(f"   {row['asset_name']:<12} ({row['asset_class']}): {row['Filas']:>6} filas | {a√±os:>4.1f} a√±os | ${row['Min_Precio']:>8,.2f}-${row['Max_Precio']:>10,.2f}")

print(f"\n‚úÖ DATASET COMPLETO LISTO PARA AN√ÅLISIS")


üìä DATASET FINAL - INSPECCI√ìN COMPLETA
üìè INFORMACI√ìN GENERAL:
   Forma: (50109, 10)
   Per√≠odo: 2012-01-03 a 2024-12-30
   A√±os: 13.0

üìã COLUMNAS FINALES:
    1. date            | datetime64[ns] | NaN:      0 | √önicos:    4,438
    2. close           | float64      | NaN:      0 | √önicos:   47,609
    3. high            | float64      | NaN:      0 | √önicos:   48,186
    4. low             | float64      | NaN:      0 | √önicos:   48,190
    5. open            | float64      | NaN:      0 | √önicos:   48,173
    6. volume          | float64      | NaN:      0 | √önicos:   49,359
    7. asset_name      | object       | NaN:      0 | √önicos:       17
    8. asset_type      | object       | NaN:      0 | √önicos:        2
    9. asset_class     | object       | NaN:      0 | √önicos:        2
   10. symbol          | object       | NaN:      0 | √önicos:       17

üìä PRIMERAS 10 FILAS (TODAS LAS COLUMNAS):


Price,date,close,high,low,open,volume,asset_name,asset_type,asset_class,symbol
0,2012-01-03,12.345174,12.3833,12.278229,12.290238,302220800.0,Apple,stock,stock,AAPL
1,2012-01-04,12.411519,12.448745,12.286636,12.30825,260022000.0,Apple,stock,stock,AAPL
2,2012-01-05,12.54931,12.56492,12.388401,12.456848,271269600.0,Apple,stock,stock,AAPL
3,2012-01-06,12.680497,12.691004,12.585033,12.601544,318292800.0,Apple,stock,stock,AAPL
6,2012-01-09,12.660385,12.841106,12.648977,12.773562,394024400.0,Apple,stock,stock,AAPL
7,2012-01-10,12.705711,12.788567,12.653476,12.785865,258196400.0,Apple,stock,stock,AAPL
8,2012-01-11,12.684997,12.694003,12.587732,12.688899,215084800.0,Apple,stock,stock,AAPL
9,2012-01-12,12.650176,12.695506,12.570923,12.676894,212587200.0,Apple,stock,stock,AAPL
10,2012-01-13,12.602749,12.621962,12.568226,12.599448,226021600.0,Apple,stock,stock,AAPL
14,2012-01-17,12.749546,12.788272,12.697311,12.734536,242897200.0,Apple,stock,stock,AAPL



üéØ RESUMEN POR ACTIVO:
   Advanced Micro Devices (stock):   3269 filas | 13.0 a√±os | $    1.62-$    211.38
   Amazon       (stock):   3269 filas | 13.0 a√±os | $    8.80-$    232.93
   Apple        (stock):   3269 filas | 13.0 a√±os | $   11.90-$    258.10
   BINANCECOIN  (crypto):   2609 filas |  7.1 a√±os | $    1.51-$    750.27
   BITCOIN      (crypto):   3758 filas | 10.3 a√±os | $  178.10-$106,140.60
   CARDANO      (crypto):   2609 filas |  7.1 a√±os | $    0.02-$      2.97
   DOGECOIN     (crypto):   2609 filas |  7.1 a√±os | $    0.00-$      0.68
   ETHEREUM     (crypto):   2609 filas |  7.1 a√±os | $   84.31-$  4,812.09
   Google       (stock):   3269 filas | 13.0 a√±os | $   13.89-$    196.02
   Intel        (stock):   3269 filas | 13.0 a√±os | $   13.84-$     62.08
   Meta         (stock):   3174 filas | 12.6 a√±os | $   17.62-$    630.70
   Microsoft    (stock):   3269 filas | 13.0 a√±os | $   21.00-$    463.24
   NVIDIA       (stock):   3269 filas | 13.0 a√±os | $    0

In [24]:
# Verificar si tenemos el dataset cargado
if 'final_dataset' in globals() and final_dataset is not None:
    print("üîç AUDITOR√çA DE NaN - COLUMNA SYMBOL")
    print("=" * 60)
    
    # Informaci√≥n general sobre symbol
    print(f"üìä COLUMNA 'SYMBOL' - AN√ÅLISIS COMPLETO:")
    if 'symbol' in final_dataset.columns:
        symbol_col = final_dataset['symbol']
        
        print(f"   Total registros: {len(symbol_col):,}")
        print(f"   NaN count: {symbol_col.isnull().sum():,}")
        print(f"   NaN percentage: {(symbol_col.isnull().sum() / len(symbol_col)) * 100:.2f}%")
        print(f"   Valores √∫nicos: {symbol_col.nunique()}")
        print(f"   Valores √∫nicos (sin NaN): {symbol_col.dropna().nunique()}")
        
        # Ver valores √∫nicos
        print(f"\nüìã VALORES √öNICOS EN SYMBOL:")
        unique_symbols = symbol_col.dropna().unique()
        for i, sym in enumerate(sorted(unique_symbols), 1):
            count = (symbol_col == sym).sum()
            print(f"   {i:2d}. {sym:<10} ({count:,} registros)")
        
        # IDENTIFICAR EXACTAMENTE D√ìNDE EST√ÅN LOS NaN
        nan_rows = final_dataset[final_dataset['symbol'].isnull()]
        
        if len(nan_rows) > 0:
            print(f"\nüö® NaN EN SYMBOL - {len(nan_rows):,} REGISTROS:")
            print(f"   Por activo:")
            nan_by_asset = nan_rows['asset_name'].value_counts()
            for asset, count in nan_by_asset.items():
                total_asset = (final_dataset['asset_name'] == asset).sum()
                pct = (count / total_asset) * 100
                print(f"     {asset:<12}: {count:>6,}/{total_asset:,} ({pct:>5.1f}%)")
            
            print(f"\nüìä MUESTRA DE REGISTROS CON SYMBOL NaN:")
            sample_nan = nan_rows[['date', 'asset_name', 'asset_class', 'symbol', 'close']].head(10)
            display(sample_nan)
            
        else:
            print(f"   ‚úÖ NO HAY NaN EN SYMBOL")
    
    else:
        print(f"   ‚ùå COLUMNA 'SYMBOL' NO EXISTE")
    
else:
    print("‚ùå DATASET NO CARGADO")
    print("üí° Ejecuta primero las celdas de descarga de datos")

üîç AUDITOR√çA DE NaN - COLUMNA SYMBOL
üìä COLUMNA 'SYMBOL' - AN√ÅLISIS COMPLETO:
   Total registros: 50,109
   NaN count: 0
   NaN percentage: 0.00%
   Valores √∫nicos: 17
   Valores √∫nicos (sin NaN): 17

üìã VALORES √öNICOS EN SYMBOL:
    1. AAPL       (3,269 registros)
    2. ADA-USD    (2,609 registros)
    3. AMD        (3,269 registros)
    4. AMZN       (3,269 registros)
    5. BNB-USD    (2,609 registros)
    6. BTC-USD    (3,758 registros)
    7. DOGE-USD   (2,609 registros)
    8. DOT-USD    (1,594 registros)
    9. ETH-USD    (2,609 registros)
   10. GOOGL      (3,269 registros)
   11. INTC       (3,269 registros)
   12. META       (3,174 registros)
   13. MSFT       (3,269 registros)
   14. NVDA       (3,269 registros)
   15. QCOM       (3,269 registros)
   16. SOL-USD    (1,726 registros)
   17. TSLA       (3,269 registros)
   ‚úÖ NO HAY NaN EN SYMBOL


In [10]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("\nüîç AUDITOR√çA COMPLETA DE NaN - TODAS LAS COLUMNAS")
    print("=" * 70)
    
    # An√°lisis detallado por columna
    print("üìä ESTADO DE NaN POR COLUMNA:")
    print("-" * 100)
    print(f"{'#':<3} {'Columna':<15} {'Total_NaN':<10} {'NaN_%':<8} {'Estado':<15} {'Acci√≥n_Tomada':<20}")
    print("-" * 100)
    
    nan_analysis = []
    
    for i, col in enumerate(final_dataset.columns, 1):
        nan_count = final_dataset[col].isnull().sum()
        nan_pct = (nan_count / len(final_dataset)) * 100
        
        # Determinar estado y acci√≥n tomada
        if nan_count == 0:
            estado = "‚úÖ LIMPIO"
            accion = "Sin NaN originales"
        elif nan_pct < 1:
            estado = "üü° POCOS NaN"
            accion = "Forward/Backward fill"
        elif nan_pct < 10:
            estado = "üü† ALGUNOS NaN"
            accion = "Forward/Backward fill"
        elif nan_pct < 50:
            estado = "üî¥ MUCHOS NaN"
            accion = "¬øRequiere revisi√≥n?"
        else:
            estado = "üö® CR√çTICO"
            accion = "¬øColumna problem√°tica?"
        
        print(f"{i:<3} {col:<15} {nan_count:<10,} {nan_pct:<8.2f} {estado:<15} {accion:<20}")
        
        nan_analysis.append({
            'columna': col,
            'nan_count': nan_count,
            'nan_pct': nan_pct,
            'estado': estado
        })
    
    # Resumen por estado
    print(f"\nüìä RESUMEN POR ESTADO:")
    estados = {}
    for analysis in nan_analysis:
        estado = analysis['estado']
        estados[estado] = estados.get(estado, 0) + 1
    
    for estado, count in estados.items():
        print(f"   {estado}: {count} columnas")
    
    # Columnas con m√°s NaN
    problematic_cols = [a for a in nan_analysis if a['nan_count'] > 0]
    
    if problematic_cols:
        print(f"\n‚ö†Ô∏è COLUMNAS CON NaN RESTANTES:")
        for col_info in sorted(problematic_cols, key=lambda x: x['nan_count'], reverse=True):
            print(f"   {col_info['columna']}: {col_info['nan_count']:,} NaN ({col_info['nan_pct']:.2f}%)")
    
else:
    print("‚ùå Dataset no disponible")


üîç AUDITOR√çA COMPLETA DE NaN - TODAS LAS COLUMNAS
üìä ESTADO DE NaN POR COLUMNA:
----------------------------------------------------------------------------------------------------
#   Columna         Total_NaN  NaN_%    Estado          Acci√≥n_Tomada       
----------------------------------------------------------------------------------------------------
1   date            0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
2   close           0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
3   high            0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
4   low             0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
5   open            0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
6   volume          0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
7   asset_name      0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
8   asset_type      0          0.00     ‚úÖ LIMPIO        Sin NaN originales  
9 

In [11]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("\nüßπ AN√ÅLISIS: QU√â SE HIZO CON CADA TIPO DE NaN")
    print("=" * 70)
    
    print("üìã ESTRATEGIAS DE LIMPIEZA APLICADAS:")
    print("-" * 50)
    
    # Estrategias por tipo de columna
    strategies = {
        'Precios (OHLC)': {
            'columnas': ['open', 'high', 'low', 'close'],
            'metodo': 'Forward Fill + Backward Fill',
            'razon': 'Mantiene √∫ltimo precio conocido (ej: viernes ‚Üí fin de semana)'
        },
        'Volumen': {
            'columnas': ['volume'],
            'metodo': 'Forward Fill para stocks, 0 para fines de semana',
            'razon': 'Stocks no cotizan fines de semana, volumen = √∫ltimo conocido'
        },
        'Metadatos': {
            'columnas': ['asset_name', 'asset_class', 'asset_type'],
            'metodo': 'Rellenado con valores constantes',
            'razon': 'Informaci√≥n fija por activo'
        },
        'Symbol': {
            'columnas': ['symbol'],
            'metodo': 'Puede tener NaN si no se asign√≥ correctamente',
            'razon': 'Verificar si fall√≥ la asignaci√≥n durante descarga'
        }
    }
    
    for categoria, info in strategies.items():
        print(f"\nüî∏ {categoria}:")
        print(f"   Columnas: {info['columnas']}")
        print(f"   M√©todo: {info['metodo']}")
        print(f"   Raz√≥n: {info['razon']}")
        
        # Verificar estado actual de estas columnas
        for col in info['columnas']:
            if col in final_dataset.columns:
                nan_count = final_dataset[col].isnull().sum()
                status = "‚úÖ SIN NaN" if nan_count == 0 else f"‚ö†Ô∏è {nan_count:,} NaN"
                print(f"     {col}: {status}")
    
    # Casos especiales que requieren atenci√≥n
    print(f"\nüéØ CASOS QUE REQUIEREN DECISI√ìN:")
    
    # Symbol con NaN
    if 'symbol' in final_dataset.columns:
        symbol_nan = final_dataset['symbol'].isnull().sum()
        if symbol_nan > 0:
            print(f"\nüìç SYMBOL CON NaN ({symbol_nan:,} registros):")
            print(f"   OPCIONES:")
            print(f"   A) Rellenar con asset_name (ej: BITCOIN ‚Üí BITCOIN)")
            print(f"   B) Crear s√≠mbolo custom (ej: BITCOIN ‚Üí BTC)")
            print(f"   C) Dejar NaN (puede causar problemas en an√°lisis)")
            
            # Mostrar sample de NaN en symbol
            sample_symbol_nan = final_dataset[final_dataset['symbol'].isnull()]
            if len(sample_symbol_nan) > 0:
                print(f"   ACTIVOS AFECTADOS:")
                affected_assets = sample_symbol_nan['asset_name'].unique()
                for asset in affected_assets[:5]:  # Mostrar primeros 5
                    count = (sample_symbol_nan['asset_name'] == asset).sum()
                    print(f"     {asset}: {count:,} registros sin s√≠mbolo")
    
    # Otros NaN problem√°ticos
    for col in final_dataset.columns:
        if col not in ['symbol']:  # Ya analizamos symbol
            nan_count = final_dataset[col].isnull().sum()
            if nan_count > 0:
                nan_pct = (nan_count / len(final_dataset)) * 100
                print(f"\nüìç {col.upper()} CON NaN ({nan_count:,} registros, {nan_pct:.2f}%):")
                
                # Mostrar d√≥nde ocurren
                if nan_count < 20:  # Si son pocos, mostrar todos
                    nan_sample = final_dataset[final_dataset[col].isnull()][['date', 'asset_name', col]].head(10)
                    display(nan_sample)
                else:
                    # Si son muchos, mostrar resumen por activo
                    nan_by_asset = final_dataset[final_dataset[col].isnull()]['asset_name'].value_counts()
                    print(f"   Por activo: {nan_by_asset.head().to_dict()}")

else:
    print("‚ùå Dataset no disponible")


üßπ AN√ÅLISIS: QU√â SE HIZO CON CADA TIPO DE NaN
üìã ESTRATEGIAS DE LIMPIEZA APLICADAS:
--------------------------------------------------

üî∏ Precios (OHLC):
   Columnas: ['open', 'high', 'low', 'close']
   M√©todo: Forward Fill + Backward Fill
   Raz√≥n: Mantiene √∫ltimo precio conocido (ej: viernes ‚Üí fin de semana)
     open: ‚úÖ SIN NaN
     high: ‚úÖ SIN NaN
     low: ‚úÖ SIN NaN
     close: ‚úÖ SIN NaN

üî∏ Volumen:
   Columnas: ['volume']
   M√©todo: Forward Fill para stocks, 0 para fines de semana
   Raz√≥n: Stocks no cotizan fines de semana, volumen = √∫ltimo conocido
     volume: ‚úÖ SIN NaN

üî∏ Metadatos:
   Columnas: ['asset_name', 'asset_class', 'asset_type']
   M√©todo: Rellenado con valores constantes
   Raz√≥n: Informaci√≥n fija por activo
     asset_name: ‚úÖ SIN NaN
     asset_class: ‚úÖ SIN NaN
     asset_type: ‚úÖ SIN NaN

üî∏ Symbol:
   Columnas: ['symbol']
   M√©todo: Puede tener NaN si no se asign√≥ correctamente
   Raz√≥n: Verificar si fall√≥ la asign

In [13]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("üìä COMPARACI√ìN: ASSET_NAME vs SYMBOL")
    print("=" * 70)
    
    # Verificar que ambas columnas existen
    if 'asset_name' in final_dataset.columns and 'symbol' in final_dataset.columns:
        
        print("üîç AN√ÅLISIS DE REDUNDANCIA:")
        print(f"   Total registros: {len(final_dataset):,}")
        print(f"   asset_name √∫nicos: {final_dataset['asset_name'].nunique()}")
        print(f"   symbol √∫nicos: {final_dataset['symbol'].nunique()}")
        print(f"   asset_name NaN: {final_dataset['asset_name'].isnull().sum():,}")
        print(f"   symbol NaN: {final_dataset['symbol'].isnull().sum():,}")
        
        # Crear comparaci√≥n por activo
        print(f"\nüìã COMPARACI√ìN DIRECTA POR ACTIVO:")
        print("-" * 80)
        print(f"{'ASSET_NAME':<15} {'SYMBOL':<15} {'¬øIguales?':<10} {'Registros':<10} {'Observaciones':<20}")
        print("-" * 80)
        
        # Obtener combinaciones √∫nicas de asset_name y symbol
        comparison = final_dataset.groupby(['asset_name', 'symbol']).size().reset_index(name='count')
        
        # Tambi√©n incluir casos donde symbol es NaN
        nan_symbols = final_dataset[final_dataset['symbol'].isnull()]
        if len(nan_symbols) > 0:
            nan_comparison = nan_symbols.groupby('asset_name').size().reset_index(name='count')
            nan_comparison['symbol'] = 'NaN'
            comparison = pd.concat([comparison, nan_comparison], ignore_index=True)
        
        # Mostrar comparaci√≥n
        for _, row in comparison.sort_values('asset_name').iterrows():
            asset_name = row['asset_name']
            symbol = row['symbol'] if pd.notna(row['symbol']) else 'NaN'
            count = row['count']
            
            # Determinar si son iguales o diferentes
            if symbol == 'NaN':
                iguales = "‚ùå NaN"
                obs = "Symbol faltante"
            elif asset_name == symbol:
                iguales = "‚úÖ S√ç"
                obs = "Id√©nticos"
            elif asset_name.lower() in symbol.lower() or symbol.lower() in asset_name.lower():
                iguales = "üü° Similar"
                obs = "Relacionados"
            else:
                iguales = "‚ùå NO"
                obs = "Diferentes"
            
            print(f"{asset_name:<15} {symbol:<15} {iguales:<10} {count:<10,} {obs:<20}")
        
        # An√°lisis de patrones
        print(f"\nüìä AN√ÅLISIS DE PATRONES:")
        
        # Casos donde asset_name = symbol
        exact_matches = 0
        similar_matches = 0
        different_matches = 0
        nan_matches = 0
        
        for _, row in comparison.iterrows():
            asset_name = row['asset_name']
            symbol = row['symbol'] if pd.notna(row['symbol']) else None
            
            if symbol is None:
                nan_matches += 1
            elif asset_name == symbol:
                exact_matches += 1
            elif asset_name.lower() in symbol.lower() or symbol.lower() in asset_name.lower():
                similar_matches += 1
            else:
                different_matches += 1
        
        total_unique_combinations = len(comparison)
        
        print(f"   ‚úÖ Exactamente iguales: {exact_matches}/{total_unique_combinations}")
        print(f"   üü° Similares: {similar_matches}/{total_unique_combinations}")
        print(f"   ‚ùå Diferentes: {different_matches}/{total_unique_combinations}")
        print(f"   ‚ùì Symbol NaN: {nan_matches}/{total_unique_combinations}")
        
        # Recomendaci√≥n
        print(f"\nüí° RECOMENDACI√ìN:")
        if exact_matches == total_unique_combinations:
            print(f"   üóëÔ∏è ELIMINAR 'symbol' - Es completamente redundante")
        elif exact_matches + nan_matches == total_unique_combinations:
            print(f"   üîß RELLENAR NaN en 'symbol' con asset_name, luego eliminar")
        elif similar_matches > 0 or different_matches > 0:
            print(f"   üìä MANTENER AMBAS - Contienen informaci√≥n diferente")
            print(f"   üí≠ 'asset_name' parece ser el nombre descriptivo")
            print(f"   üí≠ 'symbol' parece ser el ticker t√©cnico")
        else:
            print(f"   ü§î REVISAR MANUALMENTE - Patrones no claros")
        
        # Mostrar ejemplos de diferencias si existen
        if different_matches > 0 or similar_matches > 0:
            print(f"\nüìã EJEMPLOS DE DIFERENCIAS:")
            examples = []
            for _, row in comparison.iterrows():
                asset_name = row['asset_name']
                symbol = row['symbol'] if pd.notna(row['symbol']) else 'NaN'
                
                if asset_name != symbol and symbol != 'NaN':
                    examples.append((asset_name, symbol))
            
            for asset_name, symbol in examples[:5]:  # Mostrar primeros 5
                print(f"     {asset_name} ‚â† {symbol}")
        
    else:
        missing_cols = []
        if 'asset_name' not in final_dataset.columns:
            missing_cols.append('asset_name')
        if 'symbol' not in final_dataset.columns:
            missing_cols.append('symbol')
        
        print(f"‚ùå COLUMNAS FALTANTES: {missing_cols}")
        print(f"üìã COLUMNAS DISPONIBLES: {list(final_dataset.columns)}")

else:
    print("‚ùå Dataset no disponible")
    print("üí° Ejecuta primero las celdas de descarga de datos")

üìä COMPARACI√ìN: ASSET_NAME vs SYMBOL
üîç AN√ÅLISIS DE REDUNDANCIA:
   Total registros: 64,838
   asset_name √∫nicos: 17
   symbol √∫nicos: 17
   asset_name NaN: 0
   symbol NaN: 14,729

üìã COMPARACI√ìN DIRECTA POR ACTIVO:
--------------------------------------------------------------------------------
ASSET_NAME      SYMBOL          ¬øIguales?  Registros  Observaciones       
--------------------------------------------------------------------------------
AAPL            AAPL            ‚úÖ S√ç       3,269      Id√©nticos           
AAPL            NaN             ‚ùå NaN      1,477      Symbol faltante     
AMD             AMD             ‚úÖ S√ç       3,269      Id√©nticos           
AMD             NaN             ‚ùå NaN      1,477      Symbol faltante     
AMZN            AMZN            ‚úÖ S√ç       3,269      Id√©nticos           
AMZN            NaN             ‚ùå NaN      1,477      Symbol faltante     
BINANCECOIN     BNB-USD         ‚ùå NO       2,609      Diferentes

In [15]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("üí∞ COMPARACI√ìN: ASSET_NAME vs SYMBOL - SOLO CRIPTOMONEDAS")
    print("=" * 80)
    
    # Filtrar solo criptomonedas
    if 'asset_class' in final_dataset.columns:
        crypto_data = final_dataset[final_dataset['asset_class'] == 'crypto']
        
        print(f"üìä DATOS DE CRIPTOMONEDAS:")
        print(f"   Total registros crypto: {len(crypto_data):,}")
        print(f"   Criptomonedas √∫nicas: {crypto_data['asset_name'].nunique()}")
        
        if 'asset_name' in crypto_data.columns and 'symbol' in crypto_data.columns:
            
            # Obtener una fila por cada criptomoneda
            crypto_comparison = crypto_data.drop_duplicates('asset_name')[['asset_name', 'symbol']].sort_values('asset_name')
            
            print(f"\nüìã COMPARACI√ìN DIRECTA - CRIPTOMONEDAS:")
            print("-" * 60)
            print(f"{'CRYPTO':<15} {'SYMBOL':<15} {'¬øIguales?':<12} {'Diferencia':<15}")
            print("-" * 60)
            
            for _, row in crypto_comparison.iterrows():
                asset_name = row['asset_name']
                symbol = row['symbol'] if pd.notna(row['symbol']) else 'NaN'
                
                # An√°lisis de similitud
                if symbol == 'NaN':
                    iguales = "‚ùå NaN"
                    diferencia = "Symbol faltante"
                elif asset_name == symbol:
                    iguales = "‚úÖ IGUALES"
                    diferencia = "Id√©nticos"
                elif asset_name.upper() in symbol.upper():
                    iguales = "üü° CONTIENE"
                    diferencia = "Nombre en s√≠mbolo"
                elif symbol.upper() in asset_name.upper():
                    iguales = "üü° CONTIENE"
                    diferencia = "S√≠mbolo en nombre"
                else:
                    iguales = "‚ùå DIFERENTES"
                    diferencia = "Completamente distinto"
                
                print(f"{asset_name:<15} {symbol:<15} {iguales:<12} {diferencia:<15}")
            
            # Mostrar la tabla completa tambi√©n
            print(f"\nüìä TABLA COMPLETA - CRIPTOMONEDAS:")
            display(crypto_comparison)
            
            # An√°lisis espec√≠fico
            print(f"\nüîç AN√ÅLISIS DETALLADO POR CRYPTO:")
            
            for _, row in crypto_comparison.iterrows():
                asset_name = row['asset_name']
                symbol = row['symbol'] if pd.notna(row['symbol']) else None
                
                print(f"\n   üí∞ {asset_name}:")
                print(f"      Symbol: {symbol if symbol else '‚ùå NaN'}")
                
                if symbol:
                    # Intentar deducir la relaci√≥n
                    if 'BITCOIN' in asset_name and 'BTC' in symbol:
                        print(f"      üìù Relaci√≥n: BITCOIN ‚Üí BTC-USD (ticker est√°ndar)")
                    elif 'ETHEREUM' in asset_name and 'ETH' in symbol:
                        print(f"      üìù Relaci√≥n: ETHEREUM ‚Üí ETH-USD (ticker est√°ndar)")
                    elif asset_name == symbol:
                        print(f"      üìù Relaci√≥n: Id√©nticos (redundante)")
                    else:
                        print(f"      üìù Relaci√≥n: {asset_name} ‚Üí {symbol}")
                else:
                    print(f"      ‚ö†Ô∏è Problema: S√≠mbolo faltante")
            
            # Verificar si hay NaN en crypto symbols
            crypto_nan_symbols = crypto_data[crypto_data['symbol'].isnull()]
            
            if len(crypto_nan_symbols) > 0:
                print(f"\nüö® CRIPTOMONEDAS CON SYMBOL NaN:")
                nan_assets = crypto_nan_symbols['asset_name'].unique()
                for asset in nan_assets:
                    count = (crypto_nan_symbols['asset_name'] == asset).sum()
                    total = (crypto_data['asset_name'] == asset).sum()
                    print(f"   {asset}: {count:,}/{total:,} registros sin s√≠mbolo")
            
            # Recomendaci√≥n espec√≠fica para crypto
            print(f"\nüí° RECOMENDACI√ìN PARA CRIPTOMONEDAS:")
            
            # Contar tipos de relaciones
            exact_matches = 0
            related_matches = 0
            different_matches = 0
            nan_matches = 0
            
            for _, row in crypto_comparison.iterrows():
                asset_name = row['asset_name']
                symbol = row['symbol'] if pd.notna(row['symbol']) else None
                
                if symbol is None:
                    nan_matches += 1
                elif asset_name == symbol:
                    exact_matches += 1
                elif (asset_name.upper() in symbol.upper() or 
                      symbol.upper().replace('-USD', '') in asset_name.upper() or
                      any(word in symbol.upper() for word in ['BTC', 'ETH', 'ADA', 'SOL', 'DOT', 'BNB', 'DOGE'])):
                    related_matches += 1
                else:
                    different_matches += 1
            
            print(f"   ‚úÖ Exactos: {exact_matches}")
            print(f"   üü° Relacionados: {related_matches} (ej: BITCOIN vs BTC-USD)")
            print(f"   ‚ùå Diferentes: {different_matches}")
            print(f"   ‚ùì NaN: {nan_matches}")
            
            if related_matches > 0:
                print(f"\n   üìä CONCLUSI√ìN CRYPTO:")
                print(f"   ‚Ä¢ asset_name: Nombre descriptivo (BITCOIN, ETHEREUM)")
                print(f"   ‚Ä¢ symbol: Ticker t√©cnico para trading (BTC-USD, ETH-USD)")
                print(f"   ‚Ä¢ AMBAS son √öTILES - NO eliminar")
                print(f"   ‚Ä¢ Acci√≥n: Solo arreglar NaN si existen")
            elif exact_matches == len(crypto_comparison):
                print(f"   ‚Ä¢ Las columnas son ID√âNTICAS - considerar eliminar 'symbol'")
            else:
                print(f"   ‚Ä¢ Patr√≥n mixto - revisar caso por caso")
        
        else:
            print("‚ùå Columnas asset_name o symbol no encontradas")
    
    else:
        print("‚ùå Columna asset_class no encontrada - no se pueden filtrar cryptos")

else:
    print("‚ùå Dataset no disponible")

üí∞ COMPARACI√ìN: ASSET_NAME vs SYMBOL - SOLO CRIPTOMONEDAS
üìä DATOS DE CRIPTOMONEDAS:
   Total registros crypto: 17,514
   Criptomonedas √∫nicas: 7

üìã COMPARACI√ìN DIRECTA - CRIPTOMONEDAS:
------------------------------------------------------------
CRYPTO          SYMBOL          ¬øIguales?    Diferencia     
------------------------------------------------------------
BINANCECOIN     BNB-USD         ‚ùå DIFERENTES Completamente distinto
BITCOIN         BTC-USD         ‚ùå DIFERENTES Completamente distinto
CARDANO         ADA-USD         ‚ùå DIFERENTES Completamente distinto
DOGECOIN        DOGE-USD        ‚ùå DIFERENTES Completamente distinto
ETHEREUM        ETH-USD         ‚ùå DIFERENTES Completamente distinto
POLKADOT        DOT-USD         ‚ùå DIFERENTES Completamente distinto
SOLANA          SOL-USD         ‚ùå DIFERENTES Completamente distinto

üìä TABLA COMPLETA - CRIPTOMONEDAS:


Price,asset_name,symbol
14238,BINANCECOIN,BNB-USD
16847,BITCOIN,BTC-USD
20605,CARDANO,ADA-USD
23214,DOGECOIN,DOGE-USD
25823,ETHEREUM,ETH-USD
52026,POLKADOT,DOT-USD
58366,SOLANA,SOL-USD



üîç AN√ÅLISIS DETALLADO POR CRYPTO:

   üí∞ BINANCECOIN:
      Symbol: BNB-USD
      üìù Relaci√≥n: BINANCECOIN ‚Üí BNB-USD

   üí∞ BITCOIN:
      Symbol: BTC-USD
      üìù Relaci√≥n: BITCOIN ‚Üí BTC-USD (ticker est√°ndar)

   üí∞ CARDANO:
      Symbol: ADA-USD
      üìù Relaci√≥n: CARDANO ‚Üí ADA-USD

   üí∞ DOGECOIN:
      Symbol: DOGE-USD
      üìù Relaci√≥n: DOGECOIN ‚Üí DOGE-USD

   üí∞ ETHEREUM:
      Symbol: ETH-USD
      üìù Relaci√≥n: ETHEREUM ‚Üí ETH-USD (ticker est√°ndar)

   üí∞ POLKADOT:
      Symbol: DOT-USD
      üìù Relaci√≥n: POLKADOT ‚Üí DOT-USD

   üí∞ SOLANA:
      Symbol: SOL-USD
      üìù Relaci√≥n: SOLANA ‚Üí SOL-USD

üí° RECOMENDACI√ìN PARA CRIPTOMONEDAS:
   ‚úÖ Exactos: 0
   üü° Relacionados: 7 (ej: BITCOIN vs BTC-USD)
   ‚ùå Diferentes: 0
   ‚ùì NaN: 0

   üìä CONCLUSI√ìN CRYPTO:
   ‚Ä¢ asset_name: Nombre descriptivo (BITCOIN, ETHEREUM)
   ‚Ä¢ symbol: Ticker t√©cnico para trading (BTC-USD, ETH-USD)
   ‚Ä¢ AMBAS son √öTILES - NO eliminar
   ‚

In [17]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("\nüìà COMPARACI√ìN: ASSET_NAME vs SYMBOL - SOLO ACCIONES")
    print("=" * 80)
    
    # Filtrar solo acciones para comparar
    if 'asset_class' in final_dataset.columns:
        stock_data = final_dataset[final_dataset['asset_class'] == 'stock']
        
        print(f"üìä DATOS DE ACCIONES:")
        print(f"   Total registros stocks: {len(stock_data):,}")
        print(f"   Acciones √∫nicas: {stock_data['asset_name'].nunique()}")
        
        if 'asset_name' in stock_data.columns and 'symbol' in stock_data.columns:
            
            # Obtener una fila por cada acci√≥n
            stock_comparison = stock_data.drop_duplicates('asset_name')[['asset_name', 'symbol']].sort_values('asset_name')
            
            print(f"\nüìã COMPARACI√ìN - ACCIONES:")
            print("-" * 50)
            print(f"{'STOCK':<15} {'SYMBOL':<10} {'¬øIguales?':<12}")
            print("-" * 50)
            
            for _, row in stock_comparison.iterrows():
                asset_name = row['asset_name']
                symbol = row['symbol'] if pd.notna(row['symbol']) else 'NaN'
                
                if symbol == 'NaN':
                    iguales = "‚ùå NaN"
                elif asset_name == symbol:
                    iguales = "‚úÖ IGUALES"
                else:
                    iguales = "‚ùå DIFERENTES"
                
                print(f"{asset_name:<15} {symbol:<10} {iguales:<12}")
            
            print(f"\nüìä TABLA ACCIONES:")
            display(stock_comparison)
            
            print(f"\nüí° PATR√ìN EN ACCIONES:")
            print(f"   üìä Las acciones t√≠picamente usan:")
            print(f"   ‚Ä¢ asset_name: Nombre de empresa (AAPL, TSLA)")
            print(f"   ‚Ä¢ symbol: Ticker burs√°til (AAPL, TSLA)")
            print(f"   ‚Ä¢ Suelen ser ID√âNTICOS")
    
    print(f"\nüéØ RESUMEN GENERAL:")
    print(f"   üí∞ CRYPTO: asset_name ‚â† symbol (√∫tiles ambos)")
    print(f"   üìà STOCKS: asset_name = symbol (posiblemente redundante)")

else:
    print("‚ùå Dataset no disponible")


üìà COMPARACI√ìN: ASSET_NAME vs SYMBOL - SOLO ACCIONES
üìä DATOS DE ACCIONES:
   Total registros stocks: 47,324
   Acciones √∫nicas: 10

üìã COMPARACI√ìN - ACCIONES:
--------------------------------------------------
STOCK           SYMBOL     ¬øIguales?   
--------------------------------------------------
AAPL            AAPL       ‚úÖ IGUALES   
AMD             AMD        ‚úÖ IGUALES   
AMZN            AMZN       ‚úÖ IGUALES   
GOOGL           GOOGL      ‚úÖ IGUALES   
INTC            INTC       ‚úÖ IGUALES   
META            META       ‚úÖ IGUALES   
MSFT            MSFT       ‚úÖ IGUALES   
NVDA            NVDA       ‚úÖ IGUALES   
QCOM            QCOM       ‚úÖ IGUALES   
TSLA            TSLA       ‚úÖ IGUALES   

üìä TABLA ACCIONES:


Price,asset_name,symbol
0,AAPL,AAPL
4746,AMD,AMD
9492,AMZN,AMZN
28432,GOOGL,GOOGL
33178,INTC,INTC
37924,META,META
42534,MSFT,MSFT
47280,NVDA,NVDA
53620,QCOM,QCOM
60092,TSLA,TSLA



üí° PATR√ìN EN ACCIONES:
   üìä Las acciones t√≠picamente usan:
   ‚Ä¢ asset_name: Nombre de empresa (AAPL, TSLA)
   ‚Ä¢ symbol: Ticker burs√°til (AAPL, TSLA)
   ‚Ä¢ Suelen ser ID√âNTICOS

üéØ RESUMEN GENERAL:
   üí∞ CRYPTO: asset_name ‚â† symbol (√∫tiles ambos)
   üìà STOCKS: asset_name = symbol (posiblemente redundante)


In [18]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("üîß CORRIGIENDO ASSET_NAME DE STOCKS PARA CONSISTENCIA")
    print("=" * 70)
    
    # Mapeo de correcciones para stocks
    stock_name_corrections = {
        'AAPL': 'Apple',
        'AMD': 'Advanced Micro Devices', 
        'AMZN': 'Amazon',
        'GOOGL': 'Google',
        'INTC': 'Intel',
        'META': 'Meta',  # Ya est√° bien
        'MSFT': 'Microsoft',
        'NVDA': 'NVIDIA',
        'QCOM': 'Qualcomm',
        'TSLA': 'Tesla'
    }
    
    print("üìã MAPEO DE CORRECCIONES:")
    for ticker, company_name in stock_name_corrections.items():
        current_name = final_dataset[final_dataset['symbol'] == ticker]['asset_name'].iloc[0] if len(final_dataset[final_dataset['symbol'] == ticker]) > 0 else "No encontrado"
        change_needed = "‚úÖ CAMBIAR" if current_name == ticker else "üü¢ YA CORRECTO"
        print(f"   {ticker:<6} ‚Üí {company_name:<25} (actual: {current_name}) {change_needed}")
    
    # Aplicar correcciones
    print(f"\nüîÑ APLICANDO CORRECCIONES...")
    corrections_applied = 0
    
    for ticker, company_name in stock_name_corrections.items():
        # Encontrar registros con este s√≠mbolo
        mask = final_dataset['symbol'] == ticker
        affected_rows = mask.sum()
        
        if affected_rows > 0:
            current_name = final_dataset.loc[mask, 'asset_name'].iloc[0]
            
            if current_name != company_name:
                # Aplicar correcci√≥n
                final_dataset.loc[mask, 'asset_name'] = company_name
                corrections_applied += 1
                print(f"   ‚úÖ {ticker}: {current_name} ‚Üí {company_name} ({affected_rows:,} registros)")
            else:
                print(f"   üü¢ {ticker}: Ya correcto como {company_name}")
        else:
            print(f"   ‚ö†Ô∏è {ticker}: No encontrado en dataset")
    
    print(f"\nüìä RESUMEN DE CORRECCIONES:")
    print(f"   Correcciones aplicadas: {corrections_applied}")
    print(f"   Total empresas: {len(stock_name_corrections)}")
    
else:
    print("‚ùå Dataset no disponible")

üîß CORRIGIENDO ASSET_NAME DE STOCKS PARA CONSISTENCIA
üìã MAPEO DE CORRECCIONES:
   AAPL   ‚Üí Apple                     (actual: AAPL) ‚úÖ CAMBIAR
   AMD    ‚Üí Advanced Micro Devices    (actual: AMD) ‚úÖ CAMBIAR
   AMZN   ‚Üí Amazon                    (actual: AMZN) ‚úÖ CAMBIAR
   GOOGL  ‚Üí Google                    (actual: GOOGL) ‚úÖ CAMBIAR
   INTC   ‚Üí Intel                     (actual: INTC) ‚úÖ CAMBIAR
   META   ‚Üí Meta                      (actual: META) ‚úÖ CAMBIAR
   MSFT   ‚Üí Microsoft                 (actual: MSFT) ‚úÖ CAMBIAR
   NVDA   ‚Üí NVIDIA                    (actual: NVDA) ‚úÖ CAMBIAR
   QCOM   ‚Üí Qualcomm                  (actual: QCOM) ‚úÖ CAMBIAR
   TSLA   ‚Üí Tesla                     (actual: TSLA) ‚úÖ CAMBIAR

üîÑ APLICANDO CORRECCIONES...
   ‚úÖ AAPL: AAPL ‚Üí Apple (3,269 registros)
   ‚úÖ AMD: AMD ‚Üí Advanced Micro Devices (3,269 registros)
   ‚úÖ AMZN: AMZN ‚Üí Amazon (3,269 registros)
   ‚úÖ GOOGL: GOOGL ‚Üí Google (3,269 registros)
   ‚úÖ INTC

In [19]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("\n‚úÖ VERIFICANDO CORRECCIONES APLICADAS")
    print("=" * 60)
    
    # Verificar estructura final
    print("üìä ESTRUCTURA FINAL - CRYPTO vs STOCKS:")
    
    # Mostrar cryptos (deber√≠an mantenerse igual)
    if 'asset_class' in final_dataset.columns:
        crypto_sample = final_dataset[final_dataset['asset_class'] == 'crypto'].drop_duplicates('asset_name')[['asset_name', 'symbol']].sort_values('asset_name')
        
        print(f"\nüí∞ CRIPTOMONEDAS (sin cambios):")
        print("-" * 40)
        for _, row in crypto_sample.iterrows():
            print(f"   {row['asset_name']:<15} | {row['symbol']}")
        
        # Mostrar stocks (deber√≠an estar corregidos)
        stock_sample = final_dataset[final_dataset['asset_class'] == 'stock'].drop_duplicates('asset_name')[['asset_name', 'symbol']].sort_values('asset_name')
        
        print(f"\nüìà ACCIONES (corregidas):")
        print("-" * 40)
        for _, row in stock_sample.iterrows():
            print(f"   {row['asset_name']:<25} | {row['symbol']}")
        
        # Verificar que ahora son diferentes
        print(f"\nüîç VERIFICACI√ìN DE DIFERENCIACI√ìN:")
        
        stocks_different = 0
        stocks_same = 0
        
        for _, row in stock_sample.iterrows():
            if row['asset_name'] != row['symbol']:
                stocks_different += 1
            else:
                stocks_same += 1
        
        print(f"   üìà Stocks con asset_name ‚â† symbol: {stocks_different}/{len(stock_sample)}")
        print(f"   üìà Stocks con asset_name = symbol: {stocks_same}/{len(stock_sample)}")
        
        if stocks_different == len(stock_sample):
            print(f"   ‚úÖ PERFECTO: Todas las acciones ahora tienen nombres completos")
        elif stocks_same > 0:
            print(f"   ‚ö†Ô∏è Algunas acciones a√∫n tienen ticker como nombre")
        
        # Mostrar comparaci√≥n lado a lado
        print(f"\nüìä COMPARACI√ìN FINAL LADO A LADO:")
        print("-" * 80)
        print(f"{'CRYPTO':<20} {'SYMBOL':<12} {'STOCK':<25} {'SYMBOL':<8}")
        print("-" * 80)
        
        max_rows = max(len(crypto_sample), len(stock_sample))
        
        for i in range(max_rows):
            crypto_name = crypto_sample.iloc[i]['asset_name'] if i < len(crypto_sample) else ""
            crypto_symbol = crypto_sample.iloc[i]['symbol'] if i < len(crypto_sample) else ""
            stock_name = stock_sample.iloc[i]['asset_name'] if i < len(stock_sample) else ""
            stock_symbol = stock_sample.iloc[i]['symbol'] if i < len(stock_sample) else ""
            
            print(f"{crypto_name:<20} {crypto_symbol:<12} {stock_name:<25} {stock_symbol:<8}")
        
        print(f"\nüéØ RESULTADO FINAL:")
        print(f"   üí∞ CRYPTO: Nombre descriptivo vs Ticker t√©cnico ‚úÖ")
        print(f"   üìà STOCKS: Nombre empresa vs Ticker burs√°til ‚úÖ")
        print(f"   üîó CONSISTENCIA: Ambos tipos ahora diferenciados ‚úÖ")

else:
    print("‚ùå Dataset no disponible")


‚úÖ VERIFICANDO CORRECCIONES APLICADAS
üìä ESTRUCTURA FINAL - CRYPTO vs STOCKS:

üí∞ CRIPTOMONEDAS (sin cambios):
----------------------------------------
   BINANCECOIN     | BNB-USD
   BITCOIN         | BTC-USD
   CARDANO         | ADA-USD
   DOGECOIN        | DOGE-USD
   ETHEREUM        | ETH-USD
   POLKADOT        | DOT-USD
   SOLANA          | SOL-USD

üìà ACCIONES (corregidas):
----------------------------------------
   AAPL                      | nan
   AMD                       | nan
   AMZN                      | nan
   Advanced Micro Devices    | AMD
   Amazon                    | AMZN
   Apple                     | AAPL
   GOOGL                     | nan
   Google                    | GOOGL
   INTC                      | nan
   Intel                     | INTC
   META                      | nan
   MSFT                      | nan
   Meta                      | META
   Microsoft                 | MSFT
   NVDA                      | nan
   NVIDIA                    | NVDA


In [20]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("üîß CORRIGIENDO NaN EN COLUMNA SYMBOL")
    print("=" * 60)
    
    # Diagnosticar el problema
    total_nan = final_dataset['symbol'].isnull().sum()
    total_registros = len(final_dataset)
    
    print(f"üö® DIAGN√ìSTICO:")
    print(f"   Total registros: {total_registros:,}")
    print(f"   Symbol NaN: {total_nan:,} ({(total_nan/total_registros)*100:.1f}%)")
    
    if total_nan > 0:
        print(f"\nüîç NaN POR ACTIVO:")
        nan_by_asset = final_dataset[final_dataset['symbol'].isnull()]['asset_name'].value_counts()
        for asset, count in nan_by_asset.items():
            total_asset = (final_dataset['asset_name'] == asset).sum()
            pct = (count / total_asset) * 100
            print(f"   {asset:<25}: {count:,}/{total_asset:,} ({pct:5.1f}%)")
        
        # Crear mapeo completo asset_name ‚Üí symbol
        print(f"\nüìã CREANDO MAPEO ASSET_NAME ‚Üí SYMBOL:")
        
        # Mapeo para criptomonedas
        crypto_symbol_mapping = {
            'BITCOIN': 'BTC-USD',
            'ETHEREUM': 'ETH-USD', 
            'BINANCECOIN': 'BNB-USD',
            'CARDANO': 'ADA-USD',
            'SOLANA': 'SOL-USD',
            'DOGECOIN': 'DOGE-USD',
            'POLKADOT': 'DOT-USD'
        }
        
        # Mapeo para acciones (despu√©s de correcci√≥n)
        stock_symbol_mapping = {
            'Apple': 'AAPL',
            'Advanced Micro Devices': 'AMD',
            'Amazon': 'AMZN',
            'Google': 'GOOGL',
            'Intel': 'INTC',
            'Meta': 'META',
            'Microsoft': 'MSFT',
            'NVIDIA': 'NVDA',
            'Qualcomm': 'QCOM',
            'Tesla': 'TSLA'
        }
        
        # Combinar mapeos
        complete_mapping = {**crypto_symbol_mapping, **stock_symbol_mapping}
        
        print("üí∞ CRYPTO MAPPING:")
        for name, symbol in crypto_symbol_mapping.items():
            print(f"   {name:<15} ‚Üí {symbol}")
        
        print("\nüìà STOCK MAPPING:")
        for name, symbol in stock_symbol_mapping.items():
            print(f"   {name:<25} ‚Üí {symbol}")
        
        # Aplicar correcciones
        print(f"\nüîÑ APLICANDO CORRECCIONES DE SYMBOL:")
        corrections_applied = 0
        
        for asset_name, correct_symbol in complete_mapping.items():
            # Buscar registros de este activo con symbol NaN
            mask = (final_dataset['asset_name'] == asset_name) & (final_dataset['symbol'].isnull())
            affected_rows = mask.sum()
            
            if affected_rows > 0:
                final_dataset.loc[mask, 'symbol'] = correct_symbol
                corrections_applied += affected_rows
                print(f"   ‚úÖ {asset_name}: {affected_rows:,} NaN ‚Üí {correct_symbol}")
        
        print(f"\nüìä RESUMEN DE CORRECCIONES:")
        print(f"   NaN corregidos: {corrections_applied:,}")
        print(f"   NaN restantes: {final_dataset['symbol'].isnull().sum():,}")
        
    else:
        print("‚úÖ No hay NaN en symbol - no se requiere correcci√≥n")

else:
    print("‚ùå Dataset no disponible")

üîß CORRIGIENDO NaN EN COLUMNA SYMBOL
üö® DIAGN√ìSTICO:
   Total registros: 64,838
   Symbol NaN: 14,729 (22.7%)

üîç NaN POR ACTIVO:
   AAPL                     : 1,477/1,477 (100.0%)
   AMD                      : 1,477/1,477 (100.0%)
   AMZN                     : 1,477/1,477 (100.0%)
   GOOGL                    : 1,477/1,477 (100.0%)
   INTC                     : 1,477/1,477 (100.0%)
   MSFT                     : 1,477/1,477 (100.0%)
   QCOM                     : 1,477/1,477 (100.0%)
   NVDA                     : 1,477/1,477 (100.0%)
   TSLA                     : 1,477/1,477 (100.0%)
   META                     : 1,436/1,436 (100.0%)

üìã CREANDO MAPEO ASSET_NAME ‚Üí SYMBOL:
üí∞ CRYPTO MAPPING:
   BITCOIN         ‚Üí BTC-USD
   ETHEREUM        ‚Üí ETH-USD
   BINANCECOIN     ‚Üí BNB-USD
   CARDANO         ‚Üí ADA-USD
   SOLANA          ‚Üí SOL-USD
   DOGECOIN        ‚Üí DOGE-USD
   POLKADOT        ‚Üí DOT-USD

üìà STOCK MAPPING:
   Apple                     ‚Üí AAPL
   Advanced 

In [21]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("\n‚úÖ VERIFICANDO CORRECCI√ìN DE SYMBOL COMPLETA")
    print("=" * 60)
    
    # Verificar estado final
    final_nan = final_dataset['symbol'].isnull().sum()
    
    print(f"üîç VERIFICACI√ìN FINAL:")
    print(f"   Symbol NaN restantes: {final_nan:,}")
    
    if final_nan == 0:
        print("   ‚úÖ PERFECTO: Sin NaN en symbol")
    else:
        print("   ‚ö†Ô∏è A√∫n hay NaN - verificar activos:")
        remaining_nan = final_dataset[final_dataset['symbol'].isnull()]['asset_name'].value_counts()
        for asset, count in remaining_nan.items():
            print(f"     {asset}: {count:,} NaN")
    
    # Mostrar tabla final limpia
    print(f"\nüìä TABLA FINAL: ASSET_NAME vs SYMBOL")
    print("-" * 70)
    print(f"{'ASSET_NAME':<25} {'SYMBOL':<12} {'TIPO':<6} {'REGISTROS':<10}")
    print("-" * 70)
    
    # Obtener resumen por activo
    asset_summary = final_dataset.groupby(['asset_name', 'symbol', 'asset_class']).size().reset_index(name='registros')
    asset_summary = asset_summary.sort_values(['asset_class', 'asset_name'])
    
    for _, row in asset_summary.iterrows():
        asset_name = row['asset_name']
        symbol = row['symbol'] if pd.notna(row['symbol']) else 'NaN'
        asset_type = row['asset_class']
        registros = row['registros']
        
        print(f"{asset_name:<25} {symbol:<12} {asset_type:<6} {registros:<10,}")
    
    # Verificar consistencia
    print(f"\nüéØ VERIFICACI√ìN DE CONSISTENCIA:")
    
    # ¬øCada activo tiene un √∫nico s√≠mbolo?
    multiple_symbols = final_dataset.groupby('asset_name')['symbol'].nunique()
    problematic = multiple_symbols[multiple_symbols > 1]
    
    if len(problematic) == 0:
        print("   ‚úÖ Cada activo tiene exactamente 1 s√≠mbolo")
    else:
        print("   ‚ö†Ô∏è Activos con m√∫ltiples s√≠mbolos:")
        for asset, count in problematic.items():
            print(f"     {asset}: {count} s√≠mbolos diferentes")
    
    # ¬øCrypto vs Stock patterns correctos?
    crypto_data = final_dataset[final_dataset['asset_class'] == 'crypto']
    stock_data = final_dataset[final_dataset['asset_class'] == 'stock']
    
    print(f"\nüí∞ PATRONES CRYPTO:")
    crypto_unique = crypto_data.drop_duplicates('asset_name')[['asset_name', 'symbol']]
    for _, row in crypto_unique.iterrows():
        pattern = "‚úÖ Correcto" if row['asset_name'] != row['symbol'] else "‚ö†Ô∏è Iguales"
        print(f"   {row['asset_name']} | {row['symbol']} - {pattern}")
    
    print(f"\nüìà PATRONES STOCK:")
    stock_unique = stock_data.drop_duplicates('asset_name')[['asset_name', 'symbol']]
    for _, row in stock_unique.iterrows():
        pattern = "‚úÖ Correcto" if row['asset_name'] != row['symbol'] else "‚ö†Ô∏è Iguales"
        print(f"   {row['asset_name']} | {row['symbol']} - {pattern}")
    
    total_correct_patterns = 0
    total_assets = len(asset_summary)
    
    for _, row in asset_summary.iterrows():
        if row['asset_name'] != row['symbol']:
            total_correct_patterns += 1
    
    print(f"\nüìä RESUMEN GENERAL:")
    print(f"   Activos con patr√≥n correcto: {total_correct_patterns}/{total_assets}")
    print(f"   Porcentaje √©xito: {(total_correct_patterns/total_assets)*100:.1f}%")

else:
    print("‚ùå Dataset no disponible")


‚úÖ VERIFICANDO CORRECCI√ìN DE SYMBOL COMPLETA
üîç VERIFICACI√ìN FINAL:
   Symbol NaN restantes: 14,729
   ‚ö†Ô∏è A√∫n hay NaN - verificar activos:
     AAPL: 1,477 NaN
     AMD: 1,477 NaN
     AMZN: 1,477 NaN
     GOOGL: 1,477 NaN
     INTC: 1,477 NaN
     MSFT: 1,477 NaN
     QCOM: 1,477 NaN
     NVDA: 1,477 NaN
     TSLA: 1,477 NaN
     META: 1,436 NaN

üìä TABLA FINAL: ASSET_NAME vs SYMBOL
----------------------------------------------------------------------
ASSET_NAME                SYMBOL       TIPO   REGISTROS 
----------------------------------------------------------------------
BINANCECOIN               BNB-USD      crypto 2,609     
BITCOIN                   BTC-USD      crypto 3,758     
CARDANO                   ADA-USD      crypto 2,609     
DOGECOIN                  DOGE-USD     crypto 2,609     
ETHEREUM                  ETH-USD      crypto 2,609     
POLKADOT                  DOT-USD      crypto 1,594     
SOLANA                    SOL-USD      crypto 1,726     
Ad

In [9]:
if 'final_dataset' in globals() and final_dataset is not None:
    print("üßπ ELIMINANDO FILAS DUPLICADAS Y CONSOLIDANDO SYMBOL")
    print("=" * 70)
    
    print("üîç DIAGN√ìSTICO DEL PROBLEMA:")
    print(f"   Total registros antes: {len(final_dataset):,}")
    
    # Identificar el problema exacto
    problem_assets = ['AAPL', 'AMD', 'AMZN', 'GOOGL', 'INTC', 'MSFT', 'NVDA', 'QCOM', 'TSLA', 'META']
    
    print("\nüìä IDENTIFICANDO FILAS PROBLEM√ÅTICAS:")
    for asset in problem_assets:
        # Contar filas con ticker como asset_name
        ticker_rows = (final_dataset['asset_name'] == asset).sum()
        if ticker_rows > 0:
            print(f"   {asset}: {ticker_rows:,} filas con ticker como asset_name")
    
    # SOLUCI√ìN: Eliminar filas donde asset_name es un ticker de stock
    print(f"\nüîÑ ELIMINANDO FILAS CON TICKER COMO ASSET_NAME...")
    
    # Crear m√°scara para eliminar filas problem√°ticas
    ticker_mask = final_dataset['asset_name'].isin(problem_assets)
    rows_to_remove = ticker_mask.sum()
    
    print(f"   Filas a eliminar: {rows_to_remove:,}")
    
    # Aplicar filtro - mantener solo filas que NO tienen ticker como asset_name
    final_dataset_clean = final_dataset[~ticker_mask].copy()
    
    print(f"   Registros despu√©s: {len(final_dataset_clean):,}")
    print(f"   Reducci√≥n: {len(final_dataset) - len(final_dataset_clean):,} filas")
    
    # Verificar que se solucion√≥ el problema
    remaining_nan = final_dataset_clean['symbol'].isnull().sum()
    print(f"\n‚úÖ VERIFICACI√ìN POST-LIMPIEZA:")
    print(f"   Symbol NaN restantes: {remaining_nan:,}")
    
    if remaining_nan == 0:
        print("   üéâ ¬°PROBLEMA SOLUCIONADO!")
    else:
        print("   ‚ö†Ô∏è A√∫n hay NaN - investigar m√°s")
        remaining_assets = final_dataset_clean[final_dataset_clean['symbol'].isnull()]['asset_name'].value_counts()
        for asset, count in remaining_assets.items():
            print(f"     {asset}: {count:,} NaN")
    
    # Mostrar estructura final limpia
    print(f"\nüìä ESTRUCTURA FINAL LIMPIA:")
    clean_summary = final_dataset_clean.groupby(['asset_name', 'symbol', 'asset_class']).size().reset_index(name='registros')
    clean_summary = clean_summary.sort_values(['asset_class', 'asset_name'])
    
    print("-" * 70)
    print(f"{'ASSET_NAME':<25} {'SYMBOL':<12} {'TIPO':<6} {'REGISTROS':<10}")
    print("-" * 70)
    
    for _, row in clean_summary.iterrows():
        print(f"{row['asset_name']:<25} {row['symbol']:<12} {row['asset_class']:<6} {row['registros']:<10,}")
    
    # Actualizar dataset principal
    final_dataset = final_dataset_clean.copy()
    
    print(f"\nüìä RESUMEN FINAL:")
    print(f"   üìè Registros: {len(final_dataset):,}")
    print(f"   üéØ Activos √∫nicos: {final_dataset['asset_name'].nunique()}")
    print(f"   üì° S√≠mbolos √∫nicos: {final_dataset['symbol'].nunique()}")
    print(f"   ‚ùì Symbol NaN: {final_dataset['symbol'].isnull().sum():,}")
    print(f"   ‚úÖ Dataset limpio: {'S√ç' if final_dataset['symbol'].isnull().sum() == 0 else 'NO'}")
    
    if final_dataset['symbol'].isnull().sum() == 0:
        print(f"\nüéâ ¬°√âXITO TOTAL!")
        print(f"   ‚úÖ Sin filas duplicadas")
        print(f"   ‚úÖ Sin NaN en symbol") 
        print(f"   ‚úÖ Asset names consistentes")
        print(f"   ‚úÖ Listo para an√°lisis")
        
        # Guardar dataset final
        output_file = '../../data/processed/final_crypto_stock_clean.csv'
        final_dataset.to_csv(output_file, index=False)
        file_size = os.path.getsize(output_file) / 1024 / 1024
        
        print(f"\nüíæ DATASET FINAL GUARDADO:")
        print(f"   üìÑ {output_file}")
        print(f"   üíΩ {file_size:.1f} MB")
        print(f"   üìä {len(final_dataset):,} filas √ó {len(final_dataset.columns)} columnas")

else:
    print("‚ùå Dataset no disponible")

üßπ ELIMINANDO FILAS DUPLICADAS Y CONSOLIDANDO SYMBOL
üîç DIAGN√ìSTICO DEL PROBLEMA:
   Total registros antes: 64,838

üìä IDENTIFICANDO FILAS PROBLEM√ÅTICAS:
   AAPL: 4,746 filas con ticker como asset_name
   AMD: 4,746 filas con ticker como asset_name
   AMZN: 4,746 filas con ticker como asset_name
   GOOGL: 4,746 filas con ticker como asset_name
   INTC: 4,746 filas con ticker como asset_name
   MSFT: 4,746 filas con ticker como asset_name
   NVDA: 4,746 filas con ticker como asset_name
   QCOM: 4,746 filas con ticker como asset_name
   TSLA: 4,746 filas con ticker como asset_name
   META: 4,610 filas con ticker como asset_name

üîÑ ELIMINANDO FILAS CON TICKER COMO ASSET_NAME...
   Filas a eliminar: 47,324
   Registros despu√©s: 17,514
   Reducci√≥n: 47,324 filas

‚úÖ VERIFICACI√ìN POST-LIMPIEZA:
   Symbol NaN restantes: 0
   üéâ ¬°PROBLEMA SOLUCIONADO!

üìä ESTRUCTURA FINAL LIMPIA:
----------------------------------------------------------------------
ASSET_NAME              

In [25]:
#verificar el tipo actual de la columna volume
print("tipo actual de 'volume':", final_dataset['volume'].dtype)
#convertir la columna de float a integer
final_dataset['volume'] = final_dataset['volume'].astype('Int64')
#verificar el nuevo tipo de la columna volume
print("nuevo tipo de 'volume':", final_dataset['volume'].dtype)
#guardar el dataset final con la columna volume como integer
final_dataset.to_csv('data/processed/final_crypto_stock_clean.csv', index=False)


tipo actual de 'volume': float64
nuevo tipo de 'volume': Int64


In [28]:
#imprimir las primeras filas del dataset final y las ultimas filas del dataset final
print(final_dataset.head())
print(final_dataset.tail())


Price       date      close       high        low       open     volume  \
0     2012-01-03  12.345174  12.383300  12.278229  12.290238  302220800   
1     2012-01-04  12.411519  12.448745  12.286636  12.308250  260022000   
2     2012-01-05  12.549310  12.564920  12.388401  12.456848  271269600   
3     2012-01-06  12.680497  12.691004  12.585033  12.601544  318292800   
6     2012-01-09  12.660385  12.841106  12.648977  12.773562  394024400   

Price asset_name asset_type asset_class symbol  
0          Apple      stock       stock   AAPL  
1          Apple      stock       stock   AAPL  
2          Apple      stock       stock   AAPL  
3          Apple      stock       stock   AAPL  
6          Apple      stock       stock   AAPL  
Price       date       close        high         low        open    volume  \
64830 2024-12-23  430.600006  434.510010  415.410004  431.000000  72698100   
64831 2024-12-24  462.279999  462.779999  435.140015  435.899994  59551800   
64833 2024-12-26  454

In [None]:

from pathlib import Path

print("B√öSQUEDA ACTUALIZADA CON META/FACEBOOK")
print("="*40)

# Rutas
crypto_path = Path("../../data/raw/crypto")
stocks_path = Path("../../data/raw/stocks")

# Activos con variantes de nombres
activos_buscar = {
    # Stocks
    "aapl": ["aapl"],
    "amd": ["amd"],
    "amzn": ["amzn", "amazon"],
    "googl": ["googl", "google"],
    "intc": ["intc", "intel"],
    "msft": ["msft", "microsoft"],
    "qcom": ["qcom", "qualcomm"],
    "nvda": ["nvda", "nvidia"],
    "tsla": ["tsla", "tesla"],
    "meta": ["meta", "facebook", "fb"],  # ‚Üê AQU√ç EST√Å LA CLAVE
    
    # Crypto
    "bitcoin": ["bitcoin", "btc"],
    "ethereum": ["ethereum", "eth"],
    "binancecoin": ["binancecoin", "bnb", "binance"],
    "cardano": ["cardano", "ada"],
    "dogecoin": ["dogecoin", "doge"],
    "polkadot": ["polkadot", "dot"],
    "solana": ["solana", "sol"]
}

datos = {}
total_filas = 0

def buscar_archivo(activo, variantes, archivos):
    """Busca un archivo que coincida con cualquiera de las variantes"""
    for archivo in archivos:
        nombre = archivo.stem.lower()
        for variante in variantes:
            if variante.lower() in nombre:
                return archivo
    return None

# Buscar en crypto
if crypto_path.exists():
    archivos_crypto = list(crypto_path.glob("*.csv")) + list(crypto_path.glob("*.txt"))
    print(f"\nCrypto: {len(archivos_crypto)} archivos")
    
    for activo, variantes in activos_buscar.items():
        if activo in ["bitcoin", "ethereum", "binancecoin", "cardano", "dogecoin", "polkadot", "solana"]:
            archivo = buscar_archivo(activo, variantes, archivos_crypto)
            if archivo:
                print(f"‚úÖ {activo} ‚Üí {archivo.name}")
                
                try:
                    df = pd.read_csv(archivo)
                    filas = len(df)
                    total_filas += filas
                    
                    print(f"  Filas: {filas:,}")
                    
                    # An√°lisis r√°pido de problemas
                    df.columns = [c.lower().replace(' ', '_') for c in df.columns]
                    
                    for col in ['close', 'volume']:
                        if col in df.columns:
                            zeros = (df[col] == 0).sum()
                            nans = df[col].isna().sum()
                            if zeros > 0 or nans > 0:
                                print(f"  {col}: {zeros} zeros, {nans} NaNs")
                    
                    datos[activo] = df
                    
                except Exception as e:
                    print(f"  Error: {e}")
            else:
                print(f"‚ùå {activo} no encontrado (buscando: {variantes})")

# Buscar en stocks
if stocks_path.exists():
    archivos_stocks = list(stocks_path.glob("*.csv")) + list(stocks_path.glob("*.txt"))
    print(f"\nStocks: {len(archivos_stocks)} archivos")
    
    for activo, variantes in activos_buscar.items():
        if activo in ["aapl", "amd", "amzn", "googl", "intc", "msft", "qcom", "nvda", "tsla", "meta"]:
            archivo = buscar_archivo(activo, variantes, archivos_stocks)
            if archivo:
                print(f"‚úÖ {activo} ‚Üí {archivo.name}")
                
                try:
                    df = pd.read_csv(archivo)
                    filas = len(df)
                    total_filas += filas
                    
                    print(f"  Filas: {filas:,}")
                    
                    # An√°lisis r√°pido de problemas
                    df.columns = [c.lower().replace(' ', '_') for c in df.columns]
                    
                    for col in ['close', 'volume']:
                        if col in df.columns:
                            zeros = (df[col] == 0).sum()
                            nans = df[col].isna().sum()
                            if zeros > 0 or nans > 0:
                                print(f"  {col}: {zeros} zeros, {nans} NaNs")
                    
                    datos[activo] = df
                    
                except Exception as e:
                    print(f"  Error: {e}")
            else:
                print(f"‚ùå {activo} no encontrado (buscando: {variantes})")

# RESUMEN FINAL
print(f"\nRESUMEN FINAL:")
print(f"Activos encontrados: {len(datos)}/17")
print(f"Total filas: {total_filas:,}")
print(f"50k+ filas: {'‚úÖ S√ç' if total_filas >= 50000 else '‚ùå NO'}")

# Mostrar qu√© se encontr√≥ por categor√≠a
crypto_encontrados = [a for a in datos.keys() if a in ["bitcoin", "ethereum", "binancecoin", "cardano", "dogecoin", "polkadot", "solana"]]
stocks_encontrados = [a for a in datos.keys() if a in ["aapl", "amd", "amzn", "googl", "intc", "msft", "qcom", "nvda", "tsla", "meta"]]

print(f"\nDETALLE:")
print(f"Crypto: {len(crypto_encontrados)}/7 - {crypto_encontrados}")
print(f"Stocks: {len(stocks_encontrados)}/10 - {stocks_encontrados}")

# Funci√≥n para revisar detalles
def revisar_detallado(activo):
    if activo not in datos:
        print(f"‚ùå {activo} no encontrado")
        print(f"Disponibles: {list(datos.keys())}")
        return
    
    df = datos[activo]
    print(f"\n=== {activo.upper()} - AN√ÅLISIS DETALLADO ===")
    print(f"Filas totales: {len(df):,}")
    
    # Convertir fecha si existe
    if 'date' in df.columns:
        df['date'] = pd.to_datetime(df['date'], errors='coerce')
        print(f"Rango fechas: {df['date'].min().date()} a {df['date'].max().date()}")
        
        # Duplicados
        duplicados = df['date'].duplicated().sum()
        if duplicados > 0:
            print(f"‚ö†Ô∏è DUPLICADOS: {duplicados} fechas repetidas")
        else:
            print(f"‚úÖ Sin fechas duplicadas")
    
    # An√°lisis por columna
    for col in ['close', 'volume']:
        if col in df.columns:
            zeros = df[df[col] == 0]
            nans = df[df[col].isna()]
            
            print(f"\n--- {col.upper()} ---")
            print(f"Zeros: {len(zeros)} ({len(zeros)/len(df)*100:.1f}%)")
            print(f"NaNs: {len(nans)} ({len(nans)/len(df)*100:.1f}%)")
            
            # Mostrar fechas con problemas
            if len(zeros) > 0 and 'date' in df.columns:
                print(f"Fechas con zeros:")
                for _, row in zeros.head(10).iterrows():  # M√°ximo 10 para no saturar
                    if pd.notna(row.get('date')):
                        fecha = row['date'].strftime('%Y-%m-%d %A')
                        # Clasificar el tipo de d√≠a
                        if row['date'].weekday() >= 5:
                            tipo = "[Fin de semana] ‚Üí Forward fill"
                        elif (row['date'].month == 12 and row['date'].day in [24,25,31]) or (row['date'].month == 1 and row['date'].day == 1):
                            tipo = "[Festivo] ‚Üí Forward fill"
                        elif row['date'].month == 7 and row['date'].day == 4:
                            tipo = "[4 Julio USA] ‚Üí Forward fill"
                        else:
                            tipo = "[D√≠a h√°bil] ‚Üí ¬øEliminar?"
                        print(f"  {fecha} {tipo}")
                
                if len(zeros) > 10:
                    print(f"  ... y {len(zeros)-10} fechas m√°s con zeros")

print(f"\nPara an√°lisis detallado:")
print(f"revisar_detallado('meta')  # Si se encontr√≥ Facebook/Meta")
print(f"revisar_detallado('bitcoin')")
print(f"revisar_detallado('aapl')")

B√öSQUEDA ACTUALIZADA CON META/FACEBOOK

Crypto: 23 archivos
‚úÖ bitcoin ‚Üí coin_Bitcoin.csv
  Filas: 2,991
  volume: 242 zeros, 0 NaNs
‚úÖ ethereum ‚Üí coin_Ethereum.csv
  Filas: 2,160
‚úÖ binancecoin ‚Üí coin_BinanceCoin.csv
  Filas: 1,442
‚úÖ cardano ‚Üí coin_Cardano.csv
  Filas: 1,374
‚úÖ dogecoin ‚Üí coin_Dogecoin.csv
  Filas: 2,760
  volume: 11 zeros, 0 NaNs
‚úÖ polkadot ‚Üí coin_Polkadot.csv
  Filas: 320
‚úÖ solana ‚Üí coin_Solana.csv
  Filas: 452

Stocks: 7195 archivos
‚úÖ aapl ‚Üí aapl.us.txt
  Filas: 8,364
  volume: 1 zeros, 0 NaNs
‚úÖ amd ‚Üí amd.us.txt
  Filas: 8,737
  volume: 1 zeros, 0 NaNs
‚úÖ amzn ‚Üí amzn.us.txt
  Filas: 5,153
  volume: 1 zeros, 0 NaNs
‚úÖ googl ‚Üí googl.us.txt
  Filas: 3,333
  volume: 1 zeros, 0 NaNs
‚úÖ intc ‚Üí intc.us.txt
  Filas: 11,556
  volume: 1 zeros, 0 NaNs
‚úÖ msft ‚Üí msft.us.txt
  Filas: 7,983
  volume: 1 zeros, 0 NaNs
‚úÖ qcom ‚Üí qcom.us.txt
  Filas: 6,527
  volume: 1 zeros, 0 NaNs
‚úÖ nvda ‚Üí nvda.us.txt
  Filas: 4,733
  volume: 1 ze

In [7]:
# Ver si los 9 stocks tienen zeros el mismo d√≠a (patr√≥n sistem√°tico)
revisar_detallado('aapl')
revisar_detallado('msft') 
revisar_detallado('tsla')

# Ver los 242 zeros de Bitcoin - ¬øson fines de semana?
revisar_detallado('bitcoin')


=== AAPL - AN√ÅLISIS DETALLADO ===
Filas totales: 8,364
Rango fechas: 1984-09-07 a 2017-11-10
‚úÖ Sin fechas duplicadas

--- CLOSE ---
Zeros: 0 (0.0%)
NaNs: 0 (0.0%)

--- VOLUME ---
Zeros: 1 (0.0%)
NaNs: 0 (0.0%)
Fechas con zeros:
  2010-04-26 Monday [D√≠a h√°bil] ‚Üí ¬øEliminar?

=== MSFT - AN√ÅLISIS DETALLADO ===
Filas totales: 7,983
Rango fechas: 1986-03-13 a 2017-11-10
‚úÖ Sin fechas duplicadas

--- CLOSE ---
Zeros: 0 (0.0%)
NaNs: 0 (0.0%)

--- VOLUME ---
Zeros: 1 (0.0%)
NaNs: 0 (0.0%)
Fechas con zeros:
  2010-04-26 Monday [D√≠a h√°bil] ‚Üí ¬øEliminar?

=== TSLA - AN√ÅLISIS DETALLADO ===
Filas totales: 1,858
Rango fechas: 2010-06-28 a 2017-11-10
‚úÖ Sin fechas duplicadas

--- CLOSE ---
Zeros: 0 (0.0%)
NaNs: 0 (0.0%)

--- VOLUME ---
Zeros: 1 (0.1%)
NaNs: 0 (0.0%)
Fechas con zeros:
  2010-06-28 Monday [D√≠a h√°bil] ‚Üí ¬øEliminar?

=== BITCOIN - AN√ÅLISIS DETALLADO ===
Filas totales: 2,991
Rango fechas: 2013-04-29 a 2021-07-06
‚úÖ Sin fechas duplicadas

--- CLOSE ---
Zeros: 0 (0.0%)

In [None]:

from pathlib import Path
import pandas as pd
import numpy as np
print("LIMPIADOR CON FORWARD FILL PARA VOL√öMENES 0")
print("="*45)

# Funci√≥n para limpiar volumen con forward fill
def limpiar_volumen_forward_fill(df, nombre_activo):
    """Reemplaza vol√∫menes 0 con el valor del d√≠a anterior"""
    
    if 'volume' not in df.columns:
        return df, 0
    
    # Convertir fecha y ordenar
    df['date'] = pd.to_datetime(df['date'])
    df = df.sort_values('date').reset_index(drop=True)
    
    # Contar zeros antes
    zeros_antes = (df['volume'] == 0).sum()
    
    if zeros_antes > 0:
        print(f"  {nombre_activo}: {zeros_antes} vol√∫menes con 0 detectados")
        
        # Mostrar primeras fechas con 0
        fechas_zero = df[df['volume'] == 0]['date'].head(3)
        for fecha in fechas_zero:
            print(f"    {fecha.strftime('%Y-%m-%d %A')}")
        if zeros_antes > 3:
            print(f"    ... y {zeros_antes-3} m√°s")
        
        # Aplicar forward fill solo a los valores 0
        # Crear m√°scara para valores 0
        mask_zeros = df['volume'] == 0
        
        # Reemplazar 0s con NaN temporalmente
        df.loc[mask_zeros, 'volume'] = pd.NA
        
        # Aplicar forward fill (usar valor anterior)
        df['volume'] = df['volume'].fillna(method='ffill')
        
        # Si a√∫n quedan NaN (porque los primeros valores eran 0), usar backward fill
        df['volume'] = df['volume'].fillna(method='bfill')
        
        # Contar cu√°ntos se arreglaron
        zeros_despues = (df['volume'] == 0).sum()
        arreglados = zeros_antes - zeros_despues
        
        print(f"    ‚úÖ {arreglados} valores corregidos con forward fill")
        
        if zeros_despues > 0:
            print(f"    ‚ö†Ô∏è {zeros_despues} valores 0 permanecen")
    
    return df, zeros_antes

# Cargar datos desde las rutas conocidas
crypto_path = Path("../../data/raw/crypto")
stocks_path = Path("../../data/raw/stocks")

# Definir activos y rutas
activos_config = {
    # Crypto
    "bitcoin": ("crypto", "coin_Bitcoin.csv"),
    "dogecoin": ("crypto", "coin_Dogecoin.csv"),
    
    # Stocks (solo los que tienen problemas de volumen)
    "aapl": ("stocks", "aapl.us.txt"),
    "amd": ("stocks", "amd.us.txt"),
    "amzn": ("stocks", "amzn.us.txt"),
    "googl": ("stocks", "googl.us.txt"),
    "intc": ("stocks", "intc.us.txt"),
    "msft": ("stocks", "msft.us.txt"),
    "qcom": ("stocks", "qcom.us.txt"),
    "nvda": ("stocks", "nvda.us.txt"),
    "tsla": ("stocks", "tsla.us.txt"),
    "meta": ("stocks", "afb.us.txt")
}

datos_limpios = {}
resumen_limpieza = {}

for activo, (tipo, archivo) in activos_config.items():
    print(f"\nüî∏ PROCESANDO {activo.upper()}")
    
    # Determinar ruta
    if tipo == "crypto":
        ruta_archivo = crypto_path / archivo
    else:
        ruta_archivo = stocks_path / archivo
    
    if not ruta_archivo.exists():
        print(f"  ‚ùå Archivo no encontrado: {ruta_archivo}")
        continue
    
    try:
        # Cargar archivo
        df = pd.read_csv(ruta_archivo)
        filas_originales = len(df)
        
        # Estandarizar columnas
        df.columns = [c.lower().replace(' ', '_') for c in df.columns]
        
        print(f"  üìä Filas: {filas_originales:,}")
        
        # Verificar rango de fechas
        if 'date' in df.columns:
            df['date'] = pd.to_datetime(df['date'])
            fecha_inicio = df['date'].min()
            fecha_fin = df['date'].max()
            print(f"  üìÖ Rango: {fecha_inicio.strftime('%Y-%m-%d')} a {fecha_fin.strftime('%Y-%m-%d')}")
            
            # Para Bitcoin, mostrar espec√≠ficamente la fecha de inicio
            if activo == "bitcoin":
                print(f"  üìç Bitcoin empez√≥: {fecha_inicio.strftime('%Y-%m-%d')} ({fecha_inicio.strftime('%B %Y')})")
        
        # Aplicar limpieza de volumen
        df_limpio, zeros_corregidos = limpiar_volumen_forward_fill(df, activo)
        
        # Guardar resultado
        datos_limpios[activo] = df_limpio
        resumen_limpieza[activo] = {
            'filas': len(df_limpio),
            'zeros_corregidos': zeros_corregidos,
            'archivo': str(ruta_archivo)
        }
        
    except Exception as e:
        print(f"  ‚ùå Error procesando {activo}: {e}")

# RESUMEN DE LIMPIEZA
print(f"\n" + "="*50)
print("RESUMEN DE LIMPIEZA APLICADA")
print("="*50)

total_zeros_corregidos = 0
total_filas = 0

for activo, info in resumen_limpieza.items():
    zeros = info['zeros_corregidos']
    filas = info['filas']
    total_zeros_corregidos += zeros
    total_filas += filas
    
    if zeros > 0:
        print(f"‚úÖ {activo.upper()}: {zeros} vol√∫menes 0 ‚Üí forward fill ({filas:,} filas)")
    else:
        print(f"‚úÖ {activo.upper()}: Sin problemas de volumen ({filas:,} filas)")

print(f"\nüìä TOTALES:")
print(f"  Activos procesados: {len(resumen_limpieza)}")
print(f"  Total filas: {total_filas:,}")
print(f"  Vol√∫menes 0 corregidos: {total_zeros_corregidos}")
print(f"  50k+ filas: {'‚úÖ S√ç' if total_filas >= 50000 else '‚ùå NO'}")

# Funci√≥n para verificar la limpieza
def verificar_limpieza(activo):
    """Verifica que la limpieza se aplic√≥ correctamente"""
    
    if activo not in datos_limpios:
        print(f"‚ùå {activo} no encontrado en datos limpios")
        return
    
    df = datos_limpios[activo]
    
    print(f"\n=== VERIFICACI√ìN {activo.upper()} ===")
    print(f"Filas: {len(df):,}")
    
    if 'volume' in df.columns:
        zeros_restantes = (df['volume'] == 0).sum()
        nans_restantes = df['volume'].isna().sum()
        
        print(f"Volume:")
        print(f"  Zeros restantes: {zeros_restantes}")
        print(f"  NaNs restantes: {nans_restantes}")
        
        if zeros_restantes == 0 and nans_restantes == 0:
            print(f"  ‚úÖ Limpieza exitosa - sin problemas de volumen")
        else:
            print(f"  ‚ö†Ô∏è A√∫n hay {zeros_restantes} zeros y {nans_restantes} NaNs")
        
        # Mostrar algunas estad√≠sticas del volumen
        vol_stats = df['volume'].describe()
        print(f"  Estad√≠sticas volumen:")
        print(f"    Min: {vol_stats['min']:,.0f}")
        print(f"    M√°x: {vol_stats['max']:,.0f}")
        print(f"    Media: {vol_stats['mean']:,.0f}")

# Funci√≥n para guardar datos limpios
def guardar_datos_limpios():
    """Guarda los datos limpios en archivos procesados"""

    output_dir = Path("../../data/processed")
    output_dir.mkdir(exist_ok=True)
    
    print(f"\nüíæ GUARDANDO DATOS LIMPIOS EN: {output_dir}")
    
    for activo, df in datos_limpios.items():
        archivo_salida = output_dir / f"{activo}_limpio.csv"
        df.to_csv(archivo_salida, index=False)
        print(f"  ‚úÖ {activo} ‚Üí {archivo_salida}")
    
    print(f"‚úÖ {len(datos_limpios)} archivos guardados")

print(f"\nüí° FUNCIONES DISPONIBLES:")
print(f"verificar_limpieza('bitcoin')  # Ver si Bitcoin qued√≥ limpio")
print(f"verificar_limpieza('aapl')     # Ver si Apple qued√≥ limpio")
print(f"guardar_datos_limpios()        # Guardar archivos limpios")

LIMPIADOR CON FORWARD FILL PARA VOL√öMENES 0

üî∏ PROCESANDO BITCOIN
  üìä Filas: 2,991
  üìÖ Rango: 2013-04-29 a 2021-07-06
  üìç Bitcoin empez√≥: 2013-04-29 (April 2013)
  bitcoin: 242 vol√∫menes con 0 detectados
    2013-04-29 Monday
    2013-04-30 Tuesday
    2013-05-01 Wednesday
    ... y 239 m√°s
    ‚úÖ 242 valores corregidos con forward fill

üî∏ PROCESANDO DOGECOIN
  üìä Filas: 2,760
  üìÖ Rango: 2013-12-16 a 2021-07-06
  dogecoin: 11 vol√∫menes con 0 detectados
    2013-12-16 Monday
    2013-12-17 Tuesday
    2013-12-18 Wednesday
    ... y 8 m√°s
    ‚úÖ 11 valores corregidos con forward fill

üî∏ PROCESANDO AAPL
  üìä Filas: 8,364
  üìÖ Rango: 1984-09-07 a 2017-11-10
  aapl: 1 vol√∫menes con 0 detectados
    2010-04-26 Monday
    ‚úÖ 1 valores corregidos con forward fill

üî∏ PROCESANDO AMD
  üìä Filas: 8,737
  üìÖ Rango: 1983-03-21 a 2017-11-10
  amd: 1 vol√∫menes con 0 detectados
    2010-04-26 Monday
    ‚úÖ 1 valores corregidos con forward fill

üî∏ PROCESA

In [3]:
# Verificar que Bitcoin qued√≥ limpio
verificar_limpieza('bitcoin')

# Verificar un stock
verificar_limpieza('aapl')

# Guardar todos los datos limpios
guardar_datos_limpios()


=== VERIFICACI√ìN BITCOIN ===
Filas: 2,991
Volume:
  Zeros restantes: 0
  NaNs restantes: 0
  ‚úÖ Limpieza exitosa - sin problemas de volumen
  Estad√≠sticas volumen:
    Min: 2,857,830
    M√°x: 350,967,941,479
    Media: 10,910,125,638

=== VERIFICACI√ìN AAPL ===
Filas: 8,364
Volume:
  Zeros restantes: 0
  NaNs restantes: 0
  ‚úÖ Limpieza exitosa - sin problemas de volumen
  Estad√≠sticas volumen:
    Min: 668,424
    M√°x: 2,069,769,775
    Media: 106,668,160

üíæ GUARDANDO DATOS LIMPIOS EN: ..\data\processed
  ‚úÖ bitcoin ‚Üí ..\data\processed\bitcoin_limpio.csv
  ‚úÖ dogecoin ‚Üí ..\data\processed\dogecoin_limpio.csv
  ‚úÖ aapl ‚Üí ..\data\processed\aapl_limpio.csv
  ‚úÖ amd ‚Üí ..\data\processed\amd_limpio.csv
  ‚úÖ amzn ‚Üí ..\data\processed\amzn_limpio.csv
  ‚úÖ googl ‚Üí ..\data\processed\googl_limpio.csv
  ‚úÖ intc ‚Üí ..\data\processed\intc_limpio.csv
  ‚úÖ msft ‚Üí ..\data\processed\msft_limpio.csv
  ‚úÖ qcom ‚Üí ..\data\processed\qcom_limpio.csv
  ‚úÖ nvda ‚Üí ..\data\pr