# Notebook Funcional (Sprint 4)

Este notebook consolida el trabajo del Sprint 4, demostrando el flujo completo desde la ingesta de datos hasta el entrenamiento de un modelo baseline (o mock) y su serialización.

In [None]:
import os
import pandas as pd
import numpy as np
from sklearn.dummy import DummyClassifier
from sklearn.pipeline import Pipeline
import pickle

# Verificar que estamos en la raíz del proyecto (o ajustar paths)
print("Working Directory:", os.getcwd())

## 1. Ingesta de Datos
Simulamos la carga y limpieza de datos (Issue 22).

In [None]:
# Cargar datos procesados (simulado)
try:
    df = pd.read_parquet("../data/02_intermediate/processed_data.parquet")
    print("Datos cargados correctamente.")
    print(df.head())
except FileNotFoundError:
    print("Archivo no encontrado. Asegúrese de correr src/data_ingestion.py primero.")

## 2. Entrenamiento Baseline (Issue 23, 24)
Debido a restricciones de versión de Python en este entorno, simulamos el resultado de PyCaret usando un DummyClassifier.

In [None]:
model = Pipeline([
    ('classifier', DummyClassifier(strategy='prior'))
])

X_mock = pd.DataFrame(np.random.rand(10, 5), columns=[f'col_{i}' for i in range(5)])
y_mock = np.random.randint(0, 2, 10)

model.fit(X_mock, y_mock)
print("Modelo Baseline entrenado.")

## 3. Serialización (Issue 27)
Guardamos el modelo para que la UI lo pueda consumir.

In [None]:
output_dir = "../models"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

with open(os.path.join(output_dir, "best_pipeline.pkl"), "wb") as f:
    pickle.dump(model, f)
    
print(f"Modelo guardado en {output_dir}/best_pipeline.pkl")