<p align="center">
  <img src="https://static.educacionit.com/common/assets/logotype-istea-fill-blue.svg"
       alt="Logo ISTEA"
       width="200" />
</p>
<p align="center">
  <b>Instituto Superior ISTEA</b><br/>
  Carrera: Ciencia de Datos e Inteligencia Artificial<br/>
  Curso: Laboratorio de Miner√≠a de Datos<br/>
  Proyecto Final ‚Äî MLOps aplicado a Predicci√≥n de Churn
</p>




# 1. Contexto del caso de uso
La empresa ficticia **TelcoVision** busca reducir la **rotaci√≥n de clientes (churn)**. Cuenta con datos de uso de servicios, informaci√≥n demogr√°fica y m√©todos de pago de sus clientes.  

El objetivo del equipo de **MLOps (ustedes)** es dise√±ar y construir un **pipeline reproducible de Machine Learning** que permita predecir si un cliente se dar√° de baja (`churn = 1`) o no (`churn = 0`).  

Este proyecto simula un trabajo real de un equipo de datos, aplicando buenas pr√°cticas de **desarrollo colaborativo, versionado de datos y modelos, experimentaci√≥n controlada y automatizaci√≥n de CI/CD**.  


# 2. Dataset
Se trabajar√° con un dataset de **10.000 clientes de telecomunicaciones**.  

üìÇ Archivo: `telco_churn.csv`  

## Variables principales
- `customer_id`: identificador √∫nico  
- `age`: edad del cliente  
- `gender`: g√©nero (`Male`, `Female`)  
- `region`: regi√≥n (`North`, `South`, `East`, `West`)  
- `contract_type`: tipo de contrato (`Month-to-Month`, `One year`, `Two year`)  
- `tenure_months`: meses de antig√ºedad  
- `monthly_charges`: cargo mensual  
- `total_charges`: total pagado  
- `internet_service`: (`DSL`, `Fiber optic`, `No`)  
- `phone_service`: (`Yes`, `No`)  
- `multiple_lines`: (`Yes`, `No`, `No phone service`)  
- `payment_method`: (`Electronic check`, `Mailed check`, `Credit card`, `Bank transfer`)  
- `churn`: etiqueta binaria (0 = cliente activo, 1 = se dio de baja)  

## Ejemplo de registros

| customer_id | age | gender | region | contract_type   | tenure_months | monthly_charges | total_charges | internet_service | phone_service | multiple_lines     | payment_method    | churn |
|-------------|-----|--------|--------|-----------------|---------------|-----------------|---------------|------------------|---------------|--------------------|------------------|-------|
| CUST06253   | 79  | Male   | West   | Month-to-Month  | 62            | 50.15           | 3122.38       | DSL              | No            | No phone service   | Electronic check  | 1     |
| CUST04685   | 43  | Male   | West   | Month-to-Month  | 28            | 46.05           | 1336.77       | Fiber optic      | Yes           | Yes                | Bank transfer     | 0     |
| CUST01732   | 65  | Female | South  | One year        | 19            | 89.09           | 1695.04       | DSL              | No            | No phone service   | Electronic check  | 0     |
| CUST04743   | 49  | Male   | North  | Month-to-Month  | 18            | 97.07           | 1750.91       | DSL              | Yes           | No                 | Electronic check  | 1     |
| CUST04522   | 37  | Female | North  | Month-to-Month  | 7             | 101.48          | 729.12        | Fiber optic      | Yes           | Yes                | Electronic check  | 1     |

# 3. Etapas del proyecto y entregables

## **Etapa 1 ‚Äî Setup inicial**
- Crear repositorio en **GitHub**.  
- Conectar con **DagsHub** (mirror o como remote directo).  
- Configurar entorno local con **conda** y `requirements.txt`.  
- Crear estructura de carpetas: `src/`, `data/raw/`, `models/`, `.github/workflows/`.  
- Subir dataset inicial con **DVC**.  

üëâ **Entregable**: repo con estructura base, dataset versionado en DVC, conexi√≥n con DagsHub.



## **Etapa 2 ‚Äî Limpieza y features**
- Implementar `src/data_prep.py` para limpiar datos.  
- Versionar dataset limpio con DVC.  
- Actualizar `dvc.yaml` con nuevo stage.  

üëâ **Entregable**: pipeline reproducible con dataset crudo y limpio versionados.



## **Etapa 3 ‚Äî Entrenamiento de modelo**
- Implementar `src/train.py` con modelo base (ej. LogisticRegression).  
- Usar **params.yaml** para hiperpar√°metros.  
- Guardar m√©tricas en `metrics.json`.  

üëâ **Entregable**: modelo entrenado, m√©tricas versionadas, pipeline actualizado.



## **Etapa 4 ‚Äî Experimentos**
- Realizar al menos 3 corridas cambiando hiperpar√°metros.  
- Registrar resultados con **DVC Experiments** o **MLflow en DagsHub**.  
- Comparar runs y seleccionar el mejor modelo.  

üëâ **Entregable**: reporte comparativo de experimentos en DagsHub.



## **Etapa 5 ‚Äî CI/CD con GitHub Actions**
- Configurar workflow en `.github/workflows/ci.yaml` que:  
  - Instale dependencias.  
  - Haga `dvc pull`.  
  - Ejecute `dvc repro`.  
  - Publique m√©tricas en el log.  
- Usar **Secrets de GitHub** (`DAGSHUB_USER`, `DAGSHUB_TOKEN`).  

üëâ **Entregable**: PR con CI funcionando correctamente.



## **Etapa 6 ‚Äî Iteraci√≥n colaborativa**
- Crear ramas `feat-*` con mejoras de modelo.  
- Abrir **Pull Requests**.  
- Validaci√≥n autom√°tica con CI.  
- Merge del mejor experimento a `main`.  

üëâ **Entregable**: historial de ramas, PRs y merges documentados.



## **Etapa 7 ‚Äî Producci√≥n (bonus)**
- Implementar `src/evaluate.py` para m√©tricas adicionales y plots (ej: curva ROC).  
- Guardar artefactos en DVC.  
- Documentar c√≥mo integrar el modelo en un servicio real (ej: FastAPI o Streamlit).  

üëâ **Entregable**: pipeline final con evaluaci√≥n y documento de despliegue.

# 4. Equipos

üìå El proyecto debe ser desarrollado en equipos **m√°ximo de tres personas**.

# 5. Evaluaci√≥n (r√∫brica)

- **Setup inicial**: estructura del repo y conexi√≥n con DagsHub (10 pts)  
- **Limpieza y features**: stage reproducible con DVC (10 pts)  
- **Entrenamiento de modelo**: pipeline con m√©tricas y params.yaml (10 pts)  
- **Experimentos**: registro y comparaci√≥n de corridas (10 pts)  
- **CI/CD**: workflow en GitHub Actions con secrets configurados (10 pts)  
- **Colaboraci√≥n**: uso de ramas y PRs, calidad del c√≥digo (10 pts)  
- **Producci√≥n (bonus)**: stage de evaluaci√≥n y reflexi√≥n de despliegue (+10 pts)  

üìå **Total: 60 pts + 10 bonus**  
üìå **Nota m√≠nima de aprobaci√≥n: 50 pts**  

# 6. Entregas y calificaciones

- **Las entregas parciales (Etapas 1‚Äì6)**: se calificar√°n como **notas de curso** (pr√°cticos obligatorios).  
  - Entrega parcial 1: 28-10-2025 (m√≠nimo hasta Etapa 3)
  - Entrega parcial 2: 25-11-2025 (m√≠nimo hasta Etapa 6)
- **La entrega final (pipeline completo con todo lo aprendido)**: contar√° como **nota del examen final**.  
  - Esta entrega debe incluir obligatoriamente un **video de presentaci√≥n y ejecuci√≥n del proyecto**.
  - Fecha de entrega, finales programados por la instituci√≥n.

# 7. Requisitos del video final

Cada equipo/estudiante deber√° grabar un video de **10‚Äì15 minutos** donde se muestre:

1. Presentaci√≥n del equipo y explicaci√≥n del caso de uso.  
2. Revisi√≥n del repositorio en **GitHub** y en **DagsHub**.  
3. Ejecuci√≥n reproducible del pipeline (`git clone`, `dvc pull`, `dvc repro`).  
4. Uso de `params.yaml` y experimentos registrados en DagsHub.  
5. Ejecuci√≥n de **CI/CD en GitHub Actions** (mostrar un PR validado).  
6. Evidencia de colaboraci√≥n con ramas y merges.  
7. Resultados finales y reflexi√≥n sobre c√≥mo desplegar√≠an el modelo.  

üëâ El video debe ser subido a YouTube (en modo oculto) o a Google Drive, y el enlace debe agregarse en el `README.md` o en un archivo `ENTREGA_FINAL.md` dentro del repositorio.

# 8. Entregables finales

1. **Repositorio en GitHub** (con mirror en DagsHub) con:  
   - C√≥digo (`src/`)  
   - `params.yaml`, `dvc.yaml`, `dvc.lock`  
   - Pipelines reproducibles con DVC  
   - Workflows de GitHub Actions  
   - Documentaci√≥n (`README.md`) clara del proyecto  

2. **Dataset y modelos versionados en DagsHub** (verificables en pesta√±a DVC).  

3. **Experimentos registrados** (DVC Experiments o MLflow en DagsHub).  

4. **Reporte final** (Markdown o PDF) con:  
   - Comparaci√≥n de experimentos  
   - Justificaci√≥n del modelo final elegido  
   - Reflexi√≥n de c√≥mo lo desplegar√≠an en un entorno productivo  

5. **Video de entrega final** (link en `README.md` o `ENTREGA_FINAL.md`).  


# ‚úÖ Consigna clave
> **Cualquier persona debe poder clonar su repo, correr `dvc pull` y `dvc repro`, y obtener los mismos datasets, modelos y m√©tricas que ustedes.**