# 📘 Fase 3: Preparación de los Datos (CRISP-DM)

Este notebook documenta la **tercera fase de CRISP-DM: Preparación de los Datos**.  
Se relaciona directamente con el pipeline de *data_preparation*, que incluye:

- Selección de columnas relevantes.  
- Combinación de datasets (de distintos días).  
- Validación del dataset combinado.  
- Creación de un resumen de preparación de datos.


## 1. Selección de columnas relevantes

En esta etapa se filtran únicamente las variables necesarias para el análisis y futuros modelos.  
Por ejemplo:

- Identificadores de partida y jugador.  
- Resultado de la partida (victoria/derrota).  
- Cartas seleccionadas.  
- Rareza de las cartas.  
- Presencia de win condition.  
- Trofeos y niveles de jugadores.  


## 2. Combinación de datasets

Los datasets correspondientes a distintos días se combinan en un único dataset.  
Esto permite realizar análisis temporales y comparar la evolución del meta durante la temporada.


## 3. Validación del dataset combinado

Se verifica que el dataset final cumpla con los requisitos:

- No contiene valores nulos o duplicados críticos.  
- Tiene consistencia en los tipos de datos.  
- Los valores están en rangos válidos.  


## 4. Resumen de preparación de datos

El resumen final sintetiza los pasos realizados en la fase de preparación de datos:  
- Qué columnas se seleccionaron.  
- Cuántos registros se mantuvieron.  
- Resultados de la validación.  
- Aspectos a considerar antes de avanzar al análisis exploratorio o modelado.


In [None]:
# Cargar salidas del pipeline de data_preparation desde Kedro
from kedro.framework.context import load_context

# Cargar contexto del proyecto Kedro (ajustar path si es necesario)
context = load_context("../")
catalog = context.catalog

try:
    selected_datasets = catalog.load("selected_datasets")
    combined_dataset = catalog.load("combined_dataset")
    dataset_validation = catalog.load("dataset_validation")
    summary = catalog.load("data_preparation_summary")

    print("Dataset combinado:")
    display(combined_dataset.head())

    print("\nResumen de validación:")
    display(dataset_validation)

    print("\nResumen de preparación de datos:")
    display(summary)
except Exception as e:
    print("Aún no se han generado salidas del pipeline:", e)
