# Exploración de Datasets Finales para Modelado

Este notebook explora los datasets creados por el pipeline de ciencia de datos.

## Prerequisitos:
- Ejecutar primero: `kedro run --pipeline=ciencia_datos`
- Asegurarse de que los datasets estén creados en `data/03_primary/`


## 1. Configuración Inicial


In [None]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings
warnings.filterwarnings('ignore')

# Configurar visualizaciones
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

print("Librerías importadas correctamente")

# Verificar que Kedro está disponible (cuando usas kedro jupyter notebook)
print("Kedro ya está inicializado por kedro jupyter notebook")
print(f"Directorio de trabajo: {os.getcwd()}")
print(f"Catalog disponible: {catalog is not None}")
print(f"Session disponible: {session is not None}")


## 2. Dataset con Features Temporales


In [None]:
# Cargar dataset con features temporales
try:
    df_features = catalog.load('dataset_con_features_temporales')
    
    print(f"Dataset Features Temporales: {df_features.shape}")
    print(f"\nColumnas disponibles ({len(df_features.columns)}):")
    for i, col in enumerate(df_features.columns, 1):
        print(f"{i:2d}. {col}")
    
    print(f"\nPrimeras 5 filas:")
    display(df_features.head())
    
    # Verificar tipos de datos
    print(f"\nTipos de datos:")
    print(df_features.dtypes.value_counts())
    
except Exception as e:
    print(f"Error cargando dataset: {e}")
    print("Asegúrate de haber ejecutado: kedro run --pipeline=ciencia_datos")


## 3. Visualización de Features Cíclicos


In [None]:
# Visualizar features cíclicos
if 'df_features' in locals():
    try:
        fig, axes = plt.subplots(2, 2, figsize=(15, 10))
        fig.suptitle('Features Cíclicos Creados', fontsize=16)
        
        # Verificar qué columnas están disponibles
        ciclicas_cols = {
            'mes': ['mes_sin', 'mes_cos'],
            'dia_año': ['dia_año_sin', 'dia_año_cos'],
            'trimestre': ['trimestre_sin', 'trimestre_cos'],
            'dia_semana': ['dia_semana_sin', 'dia_semana_cos']
        }
        
        positions = [(0,0), (0,1), (1,0), (1,1)]
        titles = ['Mes Cíclico', 'Día del Año Cíclico', 'Trimestre Cíclico', 'Día de Semana Cíclico']
        
        for i, (key, cols) in enumerate(ciclicas_cols.items()):
            if cols[0] in df_features.columns and cols[1] in df_features.columns:
                row, col = positions[i]
                axes[row, col].scatter(df_features[cols[0]], df_features[cols[1]], alpha=0.1)
                axes[row, col].set_title(titles[i])
                axes[row, col].set_xlabel(cols[0])
                axes[row, col].set_ylabel(cols[1])
            else:
                row, col = positions[i]
                axes[row, col].text(0.5, 0.5, f'Columna {cols[0]} no encontrada', 
                                   ha='center', va='center', transform=axes[row, col].transAxes)
                axes[row, col].set_title(titles[i])
        
        plt.tight_layout()
        plt.show()
        
    except Exception as e:
        print(f"Error en visualización: {e}")
else:
    print("Primero ejecuta la celda anterior para cargar df_features")


## 4. Datasets Finales para Modelado


In [None]:
# Cargar datasets finales
try:
    datasets_finales = catalog.load('datasets_finales_modelado')
    
    print("Datasets Finales para Modelado:")
    for nombre, df in datasets_finales.items():
        if isinstance(df, pd.DataFrame):
            print(f"  {nombre}: {df.shape}")
    
    # Explorar dataset de regresión
    if 'dataset_regresion' in datasets_finales:
        df_reg = datasets_finales['dataset_regresion']
        print(f"\nDataset Regresión - Primeras 5 filas:")
        display(df_reg.head())
        
        print(f"\nEstadísticas Descriptivas:")
        display(df_reg.describe())
        
except Exception as e:
    print(f"Error cargando datasets finales: {e}")
    print("Asegúrate de haber ejecutado el pipeline de ciencia de datos")


## 5. Resumen de Datasets Disponibles


In [None]:
print("RESUMEN DE DATASETS PARA MODELADO:")
print("=" * 50)

print("\n1. DATASET REGRESIÓN:")
print("   • Propósito: Modelos de regresión y predicción")
print("   • Features: Variables temporales cíclicas")
print("   • Algoritmos: Regresión lineal, Random Forest, XGBoost")

print("\n2. DATASET TEMPORAL:")
print("   • Propósito: Análisis de series de tiempo")
print("   • Features: Índice temporal, fechas ordenadas")
print("   • Algoritmos: ARIMA, Prophet, LSTM")

print("\n3. DATASET INDEXADO:")
print("   • Propósito: Identificación única y análisis granular")
print("   • Features: ID único por año/mes/región/sexo")
print("   • Algoritmos: Clustering, análisis de cohortes")

print("\n4. DATASET RESUMIDO:")
print("   • Propósito: Análisis agregado y dashboards")
print("   • Features: Promedios por año/mes")
print("   • Algoritmos: Análisis estadístico, visualizaciones")

print("\n5. DATASET COMPLETO:")
print("   • Propósito: Modelos avanzados de ML")
print("   • Features: Todas las variables normalizadas")
print("   • Algoritmos: Deep Learning, Ensemble methods")

print("\nTodos los datasets están listos para modelado!")
