# 🎓 Proyecto Final — Guía y **Primera Entrega**

---

## 📌 Recordatorio general
1. El **Proyecto Final** se divide en **dos partes**:
   - **Informe escrito + código** (repositorio en GitHub).
   - **Presentación** final.
2. Habrá **entregas parciales**, prerrequisito para el proyecto final:
   - Estas cuentan en **tareas y trabajo en clase**.
   - **Primera entrega**:
     + Introducción
     + Antecedentes
     + Objetivos
     + Planteamiento del problema
     + EDA
     + Data Wrangling (limpieza de datos)
     + Conclusiones
     + Referencias
3. La **Primera Entrega** se divide en **dos entregas parciales**:
   - **Entrega A (en clase):** validación del trabajo realizado durante la sesión.
      - Hacer un commit para diferenciar lo trabajado de clase de la tarea.
   - **Entrega B (tarea en casa):** completar lo pendiente y dejar todo reproducible.

> La URL del repositorio se entrega(n) en **Canvas**.


## 📂 Estructura mínima del repositorio

```
.
├── README.md
├── pyproject.toml                # requerido para gestionar dependencias con uv
├── uv.lock                       # archivo de lock generado automáticamente
├── data/
│   ├── raw/
│   ├── interim/
│   └── processed/
└── notebooks/
    ├── 00_informe_final.ipynb     # creado por el equipo
    ├── 01_eda_inicial.ipynb
    └── 02_data_wrangling.ipynb
```

## 🧾 Contenido esperado en el informe final (`00_informe_final.ipynb`)
1. **Introducción**
2. **Antecedentes**
3. **Objetivos** (general y específicos)
4. **Planteamiento del problema**
5. **EDA — resumen narrativo**
   - Hallazgos clave, gráficas seleccionadas, riesgos detectados.
   - Referencia al cuaderno `01_eda_inicial.ipynb`.
6. **Data Wrangling — resumen narrativo**
   - Reglas de limpieza aplicadas, ejemplos antes/después.
   - Referencia al cuaderno `02_data_wrangling.ipynb`.
7. **Conclusiones parciales y próximos pasos**
8. **Referencias**

## 🧾 ¿Qué se espera en cada sección del informe?

### 1) Introducción
- Contexto del dominio (¿en qué industria/área se ubica?).
- Problema general y por qué es relevante (negocio/sociedad).
- Alcance de esta **primera entrega** (qué sí / qué no).
- Breve descripción del dataset elegido (1–2 líneas).

### 2) Antecedentes
- Trabajos previos, benchmarks o casos similares (2–4 referencias).
- Cómo esos antecedentes influyen en su enfoque.
- Brecha u oportunidad que su proyecto busca cubrir.

### 3) Objetivos
- **General:** 1 frase clara y medible del propósito del proyecto.
- **Específicos (3–5):** tareas/alcances concretos (p.ej., evaluar calidad de datos, diseñar reglas de limpieza, establecer métricas base).
- **Criterios de éxito/aceptación** (si aplica): métricas o umbrales deseados.

### 4) Planteamiento del problema
- Formulación precisa del problema (pregunta de negocio o de análisis).
- Variables clave (entrada/salida) y supuestos iniciales.
- Impacto esperado si se resuelve (qué valor aporta).
- Riesgos conocidos (datos, sesgos, leakage, limitaciones).

### 5) EDA — **Resumen** (detalle en `01_eda_inicial.ipynb`)
- Qué se exploró y por qué (criterio).
- Hallazgos principales (distribuciones, nulos, duplicados, rangos, outliers).
- 1–2 visualizaciones representativas (pegadas en el informe).
- Riesgos y decisiones tempranas derivadas del EDA.

### 6) Data Wrangling — **Resumen** (detalle en `02_data_wrangling.ipynb`)
- Reglas aplicadas por tema: nulos, duplicados, outliers, casting/encoding, reglas de negocio.
- Mini-evidencias **antes/después** (tabla/figura).
- Estado del dataset limpio (ruta en `data/processed/` y esquema final).

### 7) Conclusiones parciales y próximos pasos
- Qué quedó listo en esta entrega.
- Limitaciones vigentes.
- Roadmap inmediato (feature engineering, particiones, métricas objetivo, baselines).

### 8) Referencias
- Lista estandarizada (papers, blogs técnicos, documentación oficial).

## 🔀 Estrategia de Git
- Crear **rama de entrega**:
  ```
  feat/entrega-01
  ```
- Commits usando **Conventional Commits**:
  👉 https://www.conventionalcommits.org/es/v1.0.0/
- Abrir **Pull Request** hacia `main`:
  - Usar la plantilla de PR (abajo).
  - Requiere **mínimo 1 approver** (otro miembro del equipo).
- Merge preferiblemente con **Squash & Merge**.

## 📊 Selección del conjunto de datos
**Requisitos mínimos:**
- Dataset público/abierto con fuente y licencia.
- ≥ 5,000 registros (si es tabular).
- Variables suficientes para análisis.
- Alineado con el problema planteado.

**Fuentes sugeridas (no limitadas a estas):**
- [Post de LinkedIn con fuentes generales de datasets](https://www.linkedin.com/feed/update/urn:li:activity:7012770243030708224/?utm_source=share&utm_medium=member_ios)
- [Post de LinkedIn con datasets para *Price Optimization*](https://www.linkedin.com/posts/jay-feng-ab66b049_datasets-data-pricingoptimization-activity-7058157476898078720-B912/?utm_source=share&utm_medium=member_ios)
- [Kaggle Datasets](https://www.kaggle.com/datasets)
- [Google Dataset Search](https://datasetsearch.research.google.com/)
- [UCI ML Repository](https://archive.ics.uci.edu/)
- [Data.gov](https://data.gov)
- [INEGI](https://www.inegi.org.mx/datos/)
- [World Bank Data](https://data.worldbank.org/)
- [OpenML](https://www.openml.org/)
- [FiveThirtyEight Data](https://data.fivethirtyeight.com/)
- [Awesome Public Datasets](https://github.com/awesomedata/awesome-public-datasets)




## ✅ Checklist de la entrega
- [ ] Informe en `00_informe_final.ipynb`.
- [ ] `01_eda_inicial.ipynb` reproducible.
- [ ] `02_data_wrangling.ipynb` reproducible.
- [ ] Dataset limpio en `data/processed/`.
- [ ] README con pasos de reproducción.
- [ ] PR en GitHub con al menos 1 approver.
- [ ] PR mergeado en `main`
- [ ] URL del repositorio entregado en **Canvas**.

## 🧪 Rúbrica de evaluación — Primera Entrega

| Criterio | Descripción | Peso |
|---|---|---|
| Informe (estructura y claridad) | Intro, antecedentes, objetivos, problema | 25% |
| EDA | Análisis claro, riesgos, visualizaciones | 25% |
| Limpieza | Reglas coherentes, ejemplos antes/después | 25% |
| Reproducibilidad & Git | README, dataset procesado, rama/PR, commits limpios | 25% |


## 🧷 Plantilla de Pull Request

# 📌 Resumen
Describe qué cambios se hicieron y por qué.

# 🖼️ Evidencia de ejecución
- Notebooks ejecutados
- Dataset limpio en `data/processed/`
- (opcional) capturas o logs

# ✅ Checklist
- [ ] Informe final creado
- [ ] EDA completo (`01_eda_inicial.ipynb`)
- [ ] Limpieza completa (`02_data_wrangling.ipynb`)
- [ ] Dataset limpio disponible
- [ ] README con pasos de reproducción
- [ ] Commits con Conventional Commits
- [ ] 1 approver del equipo

# ⚠️ Riesgos y pendientes
- …