# 4. Exploración de Datasets Finales

Este notebook explora los datasets finales creados por el pipeline de ciencia de datos, incluyendo:
- Datasets normalizados
- Features temporales avanzadas
- Datasets para modelado
- Análisis de calidad de datos


In [None]:
# Inicializar Kedro
import sys
sys.path.append('src')

from kedro.framework.session import KedroSession
from kedro.framework.startup import bootstrap_project

# Bootstrap del proyecto
bootstrap_project('proyecto-ml')

# Crear sesión
session = KedroSession.create('proyecto-ml')
context = session.load_context()
catalog = context.catalog
params = context.params

print("✅ Kedro inicializado correctamente")
print(f"📊 Parámetros cargados: {len(params)} secciones")
print(f"📁 Catálogo disponible: {len(catalog.list())} datasets")


In [None]:
# Cargar datasets finales
try:
    datasets_finales = catalog.load('datasets_finales_modelado')
    print("✅ Datasets finales cargados exitosamente")
    print(f"📊 Tipos de datasets: {list(datasets_finales.keys())}")
except Exception as e:
    print(f"❌ Error cargando datasets finales: {e}")
    datasets_finales = None


In [None]:
# Explorar dataset de regresión
if datasets_finales and 'dataset_regresion' in datasets_finales:
    df_regresion = datasets_finales['dataset_regresion']
    print("📊 DATASET DE REGRESIÓN")
    print(f"Forma: {df_regresion.shape}")
    print(f"Columnas: {list(df_regresion.columns)}")
    print("\n📈 Primeras 5 filas:")
    print(df_regresion.head())
    print("\n📊 Estadísticas descriptivas:")
    print(df_regresion.describe())


In [None]:
# Explorar dataset temporal
if datasets_finales and 'dataset_temporal' in datasets_finales:
    df_temporal = datasets_finales['dataset_temporal']
    print("📊 DATASET TEMPORAL")
    print(f"Forma: {df_temporal.shape}")
    print(f"Columnas: {list(df_temporal.columns)}")
    print("\n📈 Primeras 5 filas:")
    print(df_temporal.head())
    print("\n📊 Estadísticas descriptivas:")
    print(df_temporal.describe())


In [None]:
# Explorar dataset resumido
if datasets_finales and 'dataset_resumido' in datasets_finales:
    df_resumido = datasets_finales['dataset_resumido']
    print("📊 DATASET RESUMIDO")
    print(f"Forma: {df_resumido.shape}")
    print(f"Columnas: {list(df_resumido.columns)}")
    print("\n📈 Primeras 5 filas:")
    print(df_resumido.head())
    print("\n📊 Estadísticas descriptivas:")
    print(df_resumido.describe())


In [None]:
# Cargar dataset con features temporales
try:
    df_features = catalog.load('dataset_con_features_temporales')
    print("✅ Dataset con features temporales cargado")
    print(f"Forma: {df_features.shape}")
    print(f"Columnas: {list(df_features.columns)}")
except Exception as e:
    print(f"❌ Error cargando features temporales: {e}")
    df_features = None


In [None]:
# Análisis de features cíclicos
if df_features is not None:
    import matplotlib.pyplot as plt
    import seaborn as sns
    
    # Configurar estilo
    plt.style.use('default')
    sns.set_palette('husl')
    
    # Features cíclicos disponibles
    features_ciclicos = [col for col in df_features.columns if '_sin' in col or '_cos' in col]
    print(f"🔄 Features cíclicos encontrados: {len(features_ciclicos)}")
    print(f"Lista: {features_ciclicos}")
    
    # Visualizar distribución de features cíclicos
    if features_ciclicos:
        fig, axes = plt.subplots(2, 4, figsize=(16, 8))
        axes = axes.ravel()
        
        for i, feature in enumerate(features_ciclicos[:8]):
            if i < len(axes):
                axes[i].hist(df_features[feature].dropna(), bins=50, alpha=0.7)
                axes[i].set_title(f'Distribución de {feature}')
                axes[i].set_xlabel('Valor')
                axes[i].set_ylabel('Frecuencia')
        
        plt.tight_layout()
        plt.show()


In [None]:
# Análisis de features especiales
if df_features is not None:
    # Features especiales disponibles
    features_especiales = [col for col in df_features.columns if col.startswith('es_')]
    print(f"⭐ Features especiales encontrados: {len(features_especiales)}")
    print(f"Lista: {features_especiales}")
    
    # Visualizar distribución de features especiales
    if features_especiales:
        fig, axes = plt.subplots(1, len(features_especiales), figsize=(4*len(features_especiales), 4))
        if len(features_especiales) == 1:
            axes = [axes]
        
        for i, feature in enumerate(features_especiales):
            value_counts = df_features[feature].value_counts()
            axes[i].pie(value_counts.values, labels=value_counts.index, autopct='%1.1f%%')
            axes[i].set_title(f'Distribución de {feature}')
        
        plt.tight_layout()
        plt.show()


In [None]:
# Cargar métricas de calidad
try:
    metricas_calidad = catalog.load('metricas_calidad_datos')
    print("✅ Métricas de calidad cargadas")
    print(f"📊 Métricas disponibles: {list(metricas_calidad.keys())}")
    
    # Mostrar resumen de calidad
    for dataset, metricas in metricas_calidad.items():
        print(f"\n📈 {dataset.upper()}:")
        for metrica, valor in metricas.items():
            print(f"  {metrica}: {valor}")
except Exception as e:
    print(f"❌ Error cargando métricas de calidad: {e}")
    metricas_calidad = None


In [None]:
# Análisis de parámetros utilizados
print("⚙️ PARÁMETROS UTILIZADOS EN EL PIPELINE")
print("\n📊 Parámetros de features temporales:")
if 'features_temporales' in params:
    for key, value in params['features_temporales'].items():
        print(f"  {key}: {value}")

print("\n📊 Parámetros de normalización:")
if 'normalizacion' in params:
    for key, value in params['normalizacion'].items():
        print(f"  {key}: {value}")

print("\n📊 Parámetros de datasets finales:")
if 'datasets_finales' in params:
    for key, value in params['datasets_finales'].items():
        print(f"  {key}: {value}")


In [None]:
# Resumen final
print("🎯 RESUMEN FINAL DE EXPLORACIÓN")
print("\n✅ Datasets finales creados:")
if datasets_finales:
    for nombre, df in datasets_finales.items():
        print(f"  {nombre}: {df.shape}")

print("\n✅ Features temporales implementadas:")
if df_features is not None:
    features_ciclicos = [col for col in df_features.columns if '_sin' in col or '_cos' in col]
    features_especiales = [col for col in df_features.columns if col.startswith('es_')]
    print(f"  Cíclicos: {len(features_ciclicos)}")
    print(f"  Especiales: {len(features_especiales)}")

print("\n✅ Métodos de normalización aplicados:")
if 'normalizacion' in params:
    metodos = params['normalizacion'].get('metodos', [])
    print(f"  {', '.join(metodos)}")

print("\n🎉 Exploración de datasets finales completada exitosamente!")
