# Parcial de Machine Learning — Modo Estudiante  
**Instrucciones generales:**  
- Entregar todo en un repositorio (GitHub/GitLab) con un `notebook` ejecutable (`.ipynb`) y un informe en `Markdown` (`REPORT.md`) o `PDF`.  
- Cada proyecto debe contener: `README.md`, `data/` (o enlaces y scripts para descarga), `notebook.ipynb`, `requirements.txt` y `REPORT.md`.  
- Escribe el código con recomendaciones de reproducibilidad (semillas aleatorias, versión de librerías en `requirements.txt`).  
- Esta tarea está pensada para estudiantes universitarios: explica cada paso, justifica decisiones y comenta el código.

---

## Proyecto A — REGRESIÓN  
**Título:** Predicción del rendimiento energético de edificios (Heating Load)  
**Dataset (Kaggle):** Energy Efficiency Data Set — https://www.kaggle.com/datasets/elikplim/energy-efficiency-data-set

### Contexto y motivación (para el estudiante)
Los consumos energéticos de calefacción y refrigeración dependen de características físicas del edificio (compactación, áreas de superficie, altura, ventanas, orientación). Este dataset proviene de simulaciones que relacionan variables físicas de edificios con su “Heating Load” y “Cooling Load”. El objetivo práctico es poder estimar la carga de calefacción de un diseño o prototipo para optimizar materiales y diseño pasivo.

### Data definition (definición de columnas)
- `Relative Compactness` — compacidad relativa del edificio (float).  
- `Surface Area` — área superficial total (float).  
- `Wall Area` — área total de paredes (float).  
- `Roof Area` — área del techo (float).  
- `Overall Height` — altura total del edificio (float).  
- `Orientation` — orientación del edificio (1 a 4) (int / categórico ordinal).  
- `Glazing Area` — proporción/área de ventanas (float).  
- `Glazing Area Distribution` — distribución de ventanas (1 a 5) (int / categórico ordinal).  
- `Heating Load` — carga de calefacción (target, float).  
- `Cooling Load` — carga de enfriamiento (float, no usada como target principal en esta tarea).

### Objetivo de la entrega
Construir y comparar modelos de regresión que predigan `Heating Load` a partir de las demás variables, justificar las decisiones de modelado y presentar un análisis de sensibilidad (qué variables influyen más).

### Entregables específicos
1. `notebook_regresion.ipynb` con todo el desarrollo reproducible.  
2. `REPORT.md` (máximo 3 páginas) con: resumen, metodología, resultados, conclusiones y limitaciones.  
3. Código para descargar y preprocesar los datos automáticamente (`download_data.py` o celdas en el notebook).  
4. `requirements.txt` con versiones de librerías.

### Tareas paso a paso (modo estudiante — cada ítem corresponde a un bloque/celda o sección del informe)

#### 1. Exploración inicial (EDA)
- Cargar datos y mostrar primeras filas.  
- Verificar tipos de datos y buscar valores faltantes o atípicos.  
- Resumen estadístico (media, std, min, max) para cada variable.  
- Visualizar distribuciones (histogramas) de las variables numéricas y del target.  
- Matriz de correlación y mapa de calor; comentar correlaciones relevantes con `Heating Load`.

#### 2. Preprocesamiento
- Tratar valores faltantes (si existen) — explicar la estrategia (imputación media/mediana, o eliminación).  
- Transformaciones: identificar si alguna variable necesita transformación (log, escala, rank).  
- Codificación de variables ordinales (`Orientation`, `Glazing Area Distribution`) — justificar si se tratan como numéricas u one-hot.  
- Escalamiento: aplicar `StandardScaler` o `MinMaxScaler` y explicar elección.

#### 3. División de datos
- Dividir en `train` (70-80%) y `test` (20-30%) con `random_state` fijo.  
- (Opcional) reservar un `validation set` o usar `cross-validation` anidada para selección de hiperparámetros.

#### 4. Línea base (baseline)
- Implementar una regresión lineal simple (OLS) como baseline. Reportar MAE, RMSE y R² en test.  
- Documentar por qué esto sirve como referencia.

#### 5. Modelos a comparar
Entrena y compara al menos **tres** de los siguientes (justifica elección):
- Linear Regression / Ridge / Lasso (regularizados).  
- Decision Tree Regressor.  
- Random Forest Regressor.  
- Gradient Boosting (XGBoost / LightGBM / CatBoost).  
- SVR (cuando tenga sentido y dimensiones pequeñas).

Para cada modelo:
- Hacer búsqueda de hiperparámetros (GridSearchCV o RandomizedSearchCV) con `cv=5`.  
- Evaluar en `test set` con métricas: MAE, RMSE, R².  
- Mostrar aprendizaje (curvas de entrenamiento / validación) para al menos un modelo complejo.

#### 6. Interpretabilidad y análisis de características
- Reportar importancias de variables (feature importances o coeficientes).  
- Usar SHAP o Permutation Importance como análisis complementario (si se dispone).  
- Hacer un análisis de sensibilidad: ¿cómo cambia `Heating Load` cuando varía `Overall Height` o `Glazing Area` manteniendo otros factores constantes? (plot parcial dependence o gráficos sencillos).

#### 7. Evaluación de robustez
- Probar el modelo contra outliers (remover top 1% y evaluar cambios).  
- Verificar estabilidad con distintas semillas aleatorias.

#### 8. Conclusiones y recomendaciones
- Resumir el mejor modelo y por qué.  
- Recomendaciones de uso práctico (por ejemplo, si sirve para estimaciones preliminares de diseño).  
- Limitaciones del dataset (simulado, rango de valores, posibles sesgos).

### Criterio de evaluación sugerido (para el profesor)
- EDA y justificación de decisiones: 20%  
- Calidad del preprocesamiento: 15%  
- Implementación y comparación de modelos: 30%  
- Interpretabilidad y análisis: 20%  
- Presentación y reproducibilidad (notebook limpio, `requirements.txt`, README): 15%

### Pistas y recursos
- Recomendado: usar `scikit-learn`, `pandas`, `matplotlib`, `seaborn`, `shap` (opcional).  
- Mantener `random_state=42` en todas las divisiones para reproducibilidad.  
- Si usa XGBoost/LightGBM, documentar versiones.

---

## Proyecto B — CLASIFICACIÓN  
**Título:** Clasificación del tipo de mineral a partir de imágenes de difracción simulada (problema poco común)  
**Dataset sugerido (Kaggle alternativo):** Siéntase libre de usar un dataset raro con clasificación multiclase. Una opción similar es el dataset de hojas ya propuesto anteriormente — sin embargo, para variar, proponemos usar un dataset de señales espectrales o morfometría (si no encuentra uno exacto en Kaggle, puede simular características).  
> Nota: si el estudiante no encuentra exactamente el dataset de espectros en Kaggle, puede usar el siguiente dataset alternativo: Leaf Classification — https://www.kaggle.com/datasets/crawford/leaf-classification (aplicar las mismas instrucciones adaptadas).  

> Para esta tarea el objetivo es trabajar con un **problema multiclase con alta dimensionalidad** y aplicar técnicas de reducción de dimensionalidad y calibración de probabilidad.

### Contexto y motivación (para el estudiante)
En aplicaciones industriales (minería, farmacéutica) y biológicas, la clasificación de materiales o especies puede basarse en descriptores complejos (espectros, morfometría, texturas). Estos problemas tienen muchas características (alto número de variables) y clases desbalanceadas. Aprender a preprocesar, reducir dimensionalidad y calibrar modelos probabilísticos es esencial.

### Data definition (ejemplo general para dataset de características de señales o morfometría)
- `id` — identificador único (int).  
- `class` — etiqueta objetivo (string o int) con N clases (multiclase).  
- `feat_1, feat_2, ..., feat_m` — descriptores numéricos (pueden ser coeficientes de forma, textura, bandas espectrales, etc.).  
- Observaciones: muchas variables pueden ser correlacionadas o redundantes; puede existir desbalance entre clases.

### Objetivo de la entrega
Construir un clasificador multiclase robusto que maximice precisión balanceada y F1 macro, aplicar reducción de dimensionalidad para mejorar interpretabilidad y evaluar calibración de probabilidades.

### Entregables específicos
1. `notebook_clasificacion.ipynb` reproducible.  
2. `REPORT.md` con análisis, resultados y discusión.  
3. `requirements.txt`.

### Tareas paso a paso (modo estudiante)

#### 1. Exploración inicial (EDA)
- Cargar datos y visualizar la distribución por clase (barras).  
- Revisar características: resumen estadístico, correlaciones entre características.  
- Detectar características con varianza cercana a cero (eliminar si aplica).

#### 2. Preprocesamiento
- Tratamiento de valores faltantes (imputación).  
- Escalado de características (StandardScaler o RobustScaler si hay outliers).  
- Opcional: aplicar técnicas de balanceo si hay clases muy desbalanceadas (SMOTE, undersampling), justificar elección.

#### 3. Reducción de dimensionalidad y selección de características
- Realizar PCA para entender varianza explicada y reducir dimensionalidad; mostrar gráfico de codo (explained variance).  
- Alternativamente o complementariamente, realizar selección de características (SelectKBest, feature importance con Random Forest, L1-based selection).  
- Documentar trade-offs: interpretabilidad vs. performance.

#### 4. División de datos y estrategia de evaluación
- Dividir en `train`/`test` (80/20) con `stratify` por la clase.  
- Usar `StratifiedKFold` para validación durante búsqueda de hiperparámetros.  
- Métricas principales: Accuracy, Precision/Recall por clase, F1-score macro, Balanced Accuracy. Usar matriz de confusión para análisis de errores.

#### 5. Baseline y modelos a entrenar
- Baseline simple: Logistic Regression multinomial o k-NN.  
- Modelos recomendados a comparar (al menos 3):  
  - Random Forest Classifier.  
  - Gradient Boosting (XGBoost / LightGBM / CatBoost).  
  - SVM con kernel (si dimensionalidad lo permite).  
  - Neural Network simple (MLP) si hay suficientes muestras.  
- Para cada modelo: búsqueda de hiperparámetros (Grid/Random CV) con `scoring='f1_macro'`.

#### 6. Calibración de probabilidades
- Evaluar si el modelo produce probabilidades bien calibradas (calibration curve, Brier score).  
- Si es necesario, aplicar calibradores (`CalibratedClassifierCV`) y comparar resultados.

#### 7. Interpretabilidad
- Reportar importancias de características.  
- Si se aplicó PCA, mostrar representación en 2D de componentes principales coloreada por clase (scatter) para visualizar separabilidad.  
- Analizar errores: examinar casos donde el clasificador confunde clases cercanas.

#### 8. Robustez y generalización
- Evaluar performance por subgrupos (si los datos tienen metadatos: por origen, condición experimental, etc.).  
- Prueba de sensibilidad a ruido: añadir ruido gaussiano a las características y medir degradación.

#### 9. Conclusiones y recomendaciones
- Mejor modelo y por qué.  
- Recomendaciones para producción (umbral de decisión, si calibrar probabilidades, cómo tratar clase minoritaria).  
- Limitaciones del estudio.

### Criterio de evaluación sugerido
- EDA y comprensión del problema: 20%  
- Estrategia de preprocesamiento y justificación: 20%  
- Modelado y tuning apropiado: 30%  
- Evaluación, calibración e interpretabilidad: 20%  
- Presentación, reproducibilidad y claridad: 10%

### Tareas adicionales (bonus)
- Implementar un pipeline de `scikit-learn` que integre preprocesamiento, reducción de dimensionalidad y modelo final.  
- Crear una API mínima (Flask/FastAPI) que reciba un vector de características y devuelva la predicción con probabilidades.  
- Implementar explicación local con LIME o SHAP para 3 instancias mal clasificadas y documentar interpretaciones.

---

## Recomendaciones técnicas y formato de entrega
- Usa Python 3.8+ y documenta versiones en `requirements.txt`.  
- Incluye una celda de `Environment` al inicio del notebook indicando versiones principales (`pandas`, `numpy`, `scikit-learn`, `matplotlib`, `seaborn`, `xgboost`/`lightgbm` si se usan).  
- El `REPORT.md` debe incluir: resumen ejecutivo (máx 1 párrafo), metodología, resultados (tablas y figuras), conclusiones y pasos futuros.  
- Opcional: anexar una carpeta `figures/` con los plots generados en alta resolución.

---

## Entregables finales (resumen)
Para **cada proyecto** (A y B) debes subir al repositorio:
- `notebook_regresion.ipynb` / `notebook_clasificacion.ipynb`  
- `REPORT.md`  
- `README.md` (con instrucciones para reproducir)  
- `requirements.txt`  
- Script o instrucciones para descargar datos (enlace a Kaggle y comando `kaggle` o instrucción manual)  

---

## Observación final
- Explica y justifica cada decisión (por qué escalaste, por qué seleccionaste un modelo, por qué calibraste).  
- La nota se asignará en función de la calidad del análisis, reproducibilidad, rigor en la evaluación y claridad del reporte.

