# Fase 1: Comprensión del Negocio (Business Understanding)
## Proyecto COVID-19 Chile 2020-2022 con Framework Kedro

**Estudiantes:** Claudio Murúa - Nicolas Cárdenas  
**Curso:** MLY0100 - Machine Learning  
**Fecha:** 24 de Septiembre 2025

---

## 1.1 Definición del Contexto del Negocio

### Situación Actual
La pandemia de COVID-19 representó uno de los desafíos de salud pública más significativos del siglo XXI. Chile, como muchos países, enfrentó múltiples olas de contagio entre 2020 y 2022, implementando diversas medidas de control y seguimiento epidemiológico.

### Problema de Negocio
**Contexto:** Las autoridades sanitarias necesitan herramientas analíticas y predictivas para:
- Comprender patrones temporales y geográficos de la pandemia
- Identificar tendencias y factores de riesgo
- Optimizar la asignación de recursos sanitarios
- Desarrollar sistemas de alerta temprana
- Evaluar la efectividad de medidas implementadas

### Oportunidades Identificadas
1. **Análisis Retrospectivo**: Entender cómo evolucionó la pandemia en Chile
2. **Identificación de Patrones**: Detectar tendencias temporales y regionales
3. **Modelado Predictivo**: Desarrollar capacidades de predicción a corto plazo
4. **Sistemas de Alerta**: Crear indicadores de riesgo automatizados
5. **Optimización de Recursos**: Guiar decisiones de política pública

## 1.2 Objetivos del Proyecto

### Objetivo General
Desarrollar un sistema completo de análisis y modelado predictivo de datos COVID-19 en Chile (2020-2022) utilizando metodologías de Machine Learning y el framework Kedro, que permita comprender patrones epidemiológicos y generar insights para la toma de decisiones en salud pública.

### Objetivos Específicos

#### 1.2.1 Objetivos de Negocio
- **OB1**: Analizar la evolución temporal de la pandemia COVID-19 en Chile
- **OB2**: Identificar patrones geográficos y diferencias regionales
- **OB3**: Caracterizar olas pandémicas y períodos críticos
- **OB4**: Evaluar indicadores epidemiológicos clave (tasa de letalidad, crecimiento, etc.)
- **OB5**: Generar insights para optimización de políticas sanitarias

#### 1.2.2 Objetivos de Machine Learning
- **OML1**: Desarrollar modelos predictivos para casos futuros a corto plazo (7-14 días)
- **OML2**: Crear sistema de clasificación de períodos de alta/baja transmisión
- **OML3**: Implementar detección automática de tendencias (subida/bajada)
- **OML4**: Modelar volatilidad y riesgo de saturación hospitalaria
- **OML5**: Optimizar feature engineering para máximo poder predictivo

## 1.3 Criterios de Éxito del Proyecto

### 1.3.1 Criterios de Éxito del Negocio

| Criterio | Métrica | Valor Objetivo | Prioridad |
|----------|---------|----------------|-----------|
| **Cobertura Temporal** | Años analizados | 3 años completos (2020-2022) | Alta |
| **Cobertura Geográfica** | Regiones incluidas | >300 ubicaciones | Alta |
| **Calidad de Datos** | Score de calidad | >90% | Alta |
| **Reproducibilidad** | Pipeline automatizado | 100% automatizado | Alta |
| **Insights Generados** | Reportes ejecutivos | ≥3 reportes detallados | Media |
| **Documentación** | Nivel de documentación | Completa y detallada | Media |

### 1.3.2 Criterios de Éxito de Machine Learning

| Modelo | Métrica Principal | Valor Objetivo | Métrica Secundaria |
|--------|-------------------|----------------|-------------------|
| **Regresión (Casos)** | RMSE | <500 casos/día | R² >0.85 |
| **Clasificación (Alert)** | F1-Score | >0.80 | Precision >0.85 |
| **Clasificación (Trend)** | Accuracy | >0.75 | Recall >0.70 |
| **Feature Engineering** | Importancia | Top 10 features identificadas | Correlación <0.8 entre features |

### 1.3.3 Criterios Técnicos
- **Performance**: Pipeline ejecuta en <5 minutos
- **Escalabilidad**: Capaz de procesar >100k registros
- **Mantenibilidad**: Código modular con >80% cobertura docstrings
- **Usabilidad**: Notebooks ejecutables por terceros sin errores

## 1.4 Evaluación de la Situación

### 1.4.1 Inventario de Recursos

#### Recursos de Datos
- **Dataset 1**: `chile_completo_covid_2020.csv` (33,253 registros)
- **Dataset 2**: `chile_completo_covid_2021.csv` (36,330 registros) 
- **Dataset 3**: `chile_completo_covid_2022.csv` (29,610 registros)
- **Total**: ~99,193 registros de 363 ubicaciones únicas

#### Recursos Técnicos
- **Framework**: Kedro 0.18.x
- **Lenguaje**: Python 3.8+
- **Librerías**: pandas, numpy, scikit-learn, matplotlib, seaborn
- **Infraestructura**: Ambiente local con 8GB+ RAM

#### Recursos Humanos
- **Equipo**: 2 estudiantes de Machine Learning
- **Tiempo disponible**: 4 semanas
- **Experiencia**: Nivel intermedio en Python y ML

### 1.4.2 Requerimientos y Suposiciones

#### Requerimientos
- Acceso a datos COVID-19 Chile 2020-2022
- Capacidad computacional para procesar ~100k registros
- Framework Kedro operativo
- Conocimiento en metodología CRISP-DM

#### Suposiciones
- Los datos son representativos de la situación real
- La calidad de datos es suficiente para análisis confiables
- Los patrones pasados pueden informar modelos predictivos
- Las métricas epidemiológicas estándar son aplicables

### 1.4.3 Riesgos y Contingencias

| Riesgo | Probabilidad | Impacto | Mitigación |
|--------|--------------|---------|------------|
| **Calidad de datos baja** | Media | Alto | Implementar validación robusta |
| **Formatos inconsistentes** | Alta | Medio | Pipeline de limpieza adaptativo |
| **Overfitting modelos** | Media | Medio | Validación cruzada temporal |
| **Complejidad computacional** | Baja | Medio | Optimización y sampling |
| **Interpretabilidad limitada** | Baja | Alto | Enfoque en modelos explicables |

## 1.5 Determinación de Objetivos de Machine Learning

### 1.5.1 Problemas de Machine Learning Identificados

#### Problema 1: Predicción de Casos (Regresión)
- **Tipo**: Regresión multivariable
- **Target**: `new_confirmed_next_7d` (casos próximos 7 días)
- **Features**: Lags, promedios móviles, tendencias, estacionalidad
- **Aplicación**: Planificación de recursos sanitarios

#### Problema 2: Clasificación de Períodos de Riesgo
- **Tipo**: Clasificación multiclase
- **Target**: `alert_level` (bajo/medio/alto/crítico)
- **Features**: Métricas epidemiológicas, trends, volatilidad
- **Aplicación**: Sistema de alerta temprana

#### Problema 3: Detección de Tendencias
- **Tipo**: Clasificación binaria
- **Target**: `trend_direction` (subiendo/bajando)
- **Features**: Derivadas temporales, aceleración, momentum
- **Aplicación**: Toma de decisiones reactiva

#### Problema 4: Predicción de Volatilidad
- **Tipo**: Regresión
- **Target**: `confirmed_future_volatility`
- **Features**: Variabilidad histórica, factores externos
- **Aplicación**: Gestión de incertidumbre

### 1.5.2 Técnicas de ML Candidatas

#### Para Regresión
1. **Random Forest**: Robusto a outliers, maneja no-linearidades
2. **Gradient Boosting**: Alta precisión, buena con series temporales
3. **SVR**: Efectivo en alta dimensionalidad
4. **Linear Regression**: Baseline interpretable

#### Para Clasificación
1. **XGBoost**: Excelente performance en clasificación
2. **Random Forest**: Interpretable y robusto
3. **Logistic Regression**: Baseline probabilístico
4. **SVM**: Bueno con fronteras complejas

### 1.5.3 Estrategia de Validación
- **Método**: Time Series Split (respeta orden temporal)
- **Splits**: 5 folds con ventana deslizante
- **Métricas**: RMSE, MAE (regresión); F1, Precision, Recall (clasificación)
- **Baseline**: Modelos naïve (último valor conocido, media histórica)

## 1.6 Plan del Proyecto

### 1.6.1 Cronograma Detallado

| Fase | Semana | Actividades Principales | Entregables | Responsable |
|------|--------|------------------------|-------------|-------------|
| **Setup** | 1 | Configuración Kedro, carga datos | Proyecto base | Ambos |
| **Business Understanding** | 1 | Definición objetivos, contexto | Notebook 01 | Estudiante 1 |
| **Data Understanding** | 2 | EDA, validación calidad | Notebook 02 | Estudiante 2 |
| **Data Preparation** | 2-3 | Limpieza, feature engineering | Pipeline completo | Ambos |
| **Modeling** | 3 | Implementación modelos | Modelos entrenados | Estudiante 1 |
| **Evaluation** | 4 | Validación, optimización | Métricas finales | Estudiante 2 |
| **Deployment** | 4 | Documentación, entrega | Proyecto final | Ambos |

### 1.6.2 Hitos y Checkpoints

#### Semana 1
- Configuración exitosa del proyecto Kedro
- Carga y validación inicial de 3 datasets
- Pipeline básico de data engineering funcionando
- Notebook de Business Understanding completo

#### Semana 2
- EDA exhaustivo de los 3 datasets
- Identificación de patrones temporales y geográficos
- Reporte de calidad de datos >90%
- Notebook de Data Understanding completo

#### Semana 3
- Feature engineering avanzado implementado
- Pipeline de data science completo
- 4 targets de ML definidos y validados
- Modelos baseline entrenados

#### Semana 4
- Modelos optimizados con métricas objetivo
- Pipeline de reporting funcionando
- Documentación completa
- Proyecto reproducible 100%

### 1.6.3 Herramientas y Metodologías

#### Framework Técnico
- **Kedro**: Orquestación y gestión de pipelines
- **Git**: Control de versiones
- **Jupyter**: Análisis exploratorio y documentación
- **Python**: Lenguaje principal

#### Metodología
- **CRISP-DM**: Metodología de ciencia de datos
- **Agile**: Desarrollo iterativo con sprints semanales
- **Pair Programming**: Para código crítico
- **Code Review**: Para calidad de código

### 1.6.4 Criterios de Calidad
- **Código**: PEP8, docstrings completos, modularidad
- **Datos**: Validación automática, reportes de calidad
- **Modelos**: Validación cruzada, métricas robustas
- **Documentación**: README detallado, notebooks explicativos

## 1.7 Conclusiones de Business Understanding

### Resumen
El proyecto COVID-19 Chile 2020-2022 representa una oportunidad significativa para aplicar técnicas avanzadas de Machine Learning a un problema de salud pública de alta relevancia. Con datos de calidad disponibles y objetivos claramente definidos, el proyecto está bien posicionado para generar insights valiosos y capacidades predictivas.