# üìò Segunda Entrega ‚Äî **Proyecto en Ciencia de Datos** 

**Objetivo:** Dar continuidad a la primera entrega. Corregir lo observado, entrenar al menos **3 modelos** con **tuning usando Hyperopt** y **MLflow en Databricks**, seleccionar el mejor y **registrarlo** en el **Model Registry** (con alias opcional *champion/challenger*).  

**Notebook:** `notebooks/03-training_model.ipynb`  

**Rama:** `feat/segunda-entrega` ‚Üí PR a `main` con *reviewers*.

---

## 0) üßπ Correcciones de la Primera Entrega (obligatorio)
- Integra **todas** las observaciones del feedback (estructura de repo, claridad del problema, EDA, decisiones de limpieza, etc.).
----

## 1) üîÄ Flujo de trabajo Git (rama & PR)
1. Crea rama: `feat/segunda-entrega`.
2. Trabaja **solo** esta entrega en esa rama.
3. Abre **Pull Request** hacia `main`, incluye a todos los integrantes como **reviewers**.
4. Haz **merge** cuando el PR tenga aprobaci√≥n (dejar rastro de revisi√≥n).

## 2) üì¶ Datos y *Data Readiness*
- Confirma versiones de los datasets utilizados (fechas, filtros, tama√±o).
- Reitera **target**, **m√©trica principal** (p. ej., RMSE/F1/ROC-AUC) y **m√©tricas secundarias** si aplica.
- Justifica brevemente las variables usadas; si agregaste *features*, explica por qu√©.
- Si hubo *data leakage* potencial, documenta c√≥mo lo previenes.

> **Evidencia m√≠nima:** tabla breve con *features* seleccionadas, tipo (num/cat), y raz√≥n.

## 3) üß± Preprocesamiento (recomendado: `ColumnTransformer`/`Pipeline`)
- Define transformaci√≥n num√©rica (p. ej., *scaler*) y categ√≥rica (p. ej., `OneHotEncoder`).
- Deja claro si el *preprocessor* se integra en el *pipeline* de cada modelo o se versiona por separado.
- Indica c√≥mo asegurar **reproducibilidad** (semillas, *random_state*, etc.).

> **Evidencia m√≠nima:** descripci√≥n del *preprocessor* (diagrama simple o bullets) y c√≥mo se guarda con el modelo.

## 4) üß™ Experimentos de Modelado (m√≠nimo 3 modelos)
- Para **cada modelo**:
    - Registra **par√°metros, m√©tricas y artefactos** en MLflow (Databricks).

## 5) üéØ Tuning con Hyperopt + MLflow (Databricks)
- Ejecuta **b√∫squedas** separadas por modelo (espacio de b√∫squeda definido por ustedes).
- Loggea: *params* evaluados, m√©trica objetivo (minimizar/maximizar), *artifact_path* del pipeline.
- Anida los *runs* de HPO bajo un *parent run* para mantener orden.

> **Evidencia m√≠nima:** captura del experimento en MLflow mostrando runs anidados, par√°metros y comparaci√≥n por m√©trica.

## 6) üèÜ Selecci√≥n del Mejor Modelo
- Criterio expl√≠cito de **selecci√≥n** (p. ej., `order_by=["metrics.rmse ASC"]`).
- Explica por qu√© el modelo ganador **s√≠** es el m√°s adecuado para el contexto del problema.

> **Evidencia m√≠nima:** identificador del *best run* y breve justificaci√≥n (2‚Äì4 l√≠neas).


## 7) üóÇÔ∏è Registro en el **Model Registry**
- Nomenclatura del modelo (sugerida): `workspace.default/<equipo>_<proyecto>_model`.
- Registra el **artifact del pipeline completo** (incluye *preprocessor*).
- **Alias (opcional):** asigna `champion` a la mejor versi√≥n actual; `challenger` a una(s) alternativa(s).
- Documenta en la descripci√≥n del modelo: datos, m√©trica, fecha, responsables, *changelog*.

> **Evidencia m√≠nima:** captura del modelo registrado (nombre, versi√≥n) y, si aplic√≥, alias asignados.

## 8) üìä Evidencias solicitadas (capturas)
Incluye en el notebook:
1. Vista del experimento en MLflow con los **tres+ modelos** y sus runs de Hyperopt.
2. Tabla o captura comparativa de la **m√©trica principal** entre modelos.
3. Pantalla del **Model Registry** con la **versi√≥n registrada** (y alias, si aplica).
4. PR de Git.

> **Tip:** evita capturas ilegibles; a√±ade pie de figura breve con contexto.


## 9) üìÅ Entregables
- `notebooks/03-training_model.ipynb` con todas las secciones anteriores completas.
- PR `feat/segunda-entrega` ‚Üí `main` aprobado y *mergeado*.


## üîé Criterios de evaluaci√≥n (r√∫brica 100 pts)
- **Correcciones 1¬™ entrega aplicadas** (15 pts)  
- **Claridad de datos & m√©trica** (10 pts)  
- **Preprocesamiento bien definido** (10 pts)  
- **3+ modelos con Hyperopt y MLflow** (25 pts)  
- **Selecci√≥n del mejor modelo justificada** (10 pts)  
- **Registro en Model Registry (alias opcional)** (20 pts)  
- **Evidencias y PR conformes** (10 pts)

> Penalizaciones: falta de reproducibilidad, m√©tricas inconsistentes entre modelos, o no registrar el mejor.

## üß© Convenciones y *good practices*
- **Experimento MLflow:** `/Users/<tu_email>/<equipo>/<proyecto>/experiment`
- **Nombre del modelo:** `workspace.default/<equipo>_<proyecto>_model`
- **Seeds:** documentadas y consistentes.
- **M√©trica √∫nica de selecci√≥n:** misma para todos los modelos.

## ‚ùìFAQ (r√°pidas)
- **¬øPipeline de scikit-learn es obligatorio?** No, pero es **altamente recomendado** para versionar preprocesamiento+modelo como un √∫nico artefacto.
- **¬øPuedo registrar un preprocesador separado?** S√≠, pero aseg√∫rate de que el artefacto final de *serving* sea **reutilizable** sin ambig√ºedades.
- **¬øPuedo tener varios *challengers*?** S√≠. El alias es un apuntador a versiones; documenta los criterios para promover a *champion*.


## ‚úÖ Checklist final (marca antes del PR)
- [ ] Correcciones de 1¬™ entrega integradas y documentadas.
- [ ] 3+ modelos con espacios de b√∫squeda y runs de Hyperopt en MLflow.
- [ ] Criterio √∫nico de selecci√≥n aplicado (misma m√©trica).
- [ ] Mejor modelo identificado y **registrado** en el Registry.
- [ ] Evidencias (capturas) incluidas y referenciadas.
- [ ] PR `feat/segunda-entrega` ‚Üí `main` aprobado y mergeado.

## Entregas
Habr√° dos entregas divididas de la siguiente manera:

1. **Trabajo en clase (del proyecto) hoy Martes 4 de Noviembre de 2025.** Para esta entrega, hacer un commit con el siguiente mensaje `feat: entrega trabajo en clase` con los avances realizados en clase.
2. **Fecha de la segunda entrega: Martes 10 de Noviembre de 2025 a las 19:55.** Esta entrega debe contener todo lo descrito anteriormente, las correcciones de la entrega anterior y lo que esta detallado a continuaci√≥n, incluido el `PR`.