# 7. Metodología de Machine Learning

Este documento presenta la metodología propuesta para el análisis de machine learning, incluyendo la selección de modelos, algoritmos, justificación de hiperparámetros y técnicas de validación.

## 7.1. Selección del Modelo

### Problema a Resolver

El objetivo principal es **predecir el éxito académico** de los estudiantes en el programa Talento Tech Bogotá. Este es un problema de **clasificación binaria** donde:

- **Variable objetivo**: exito_academico
  - Clase 0: Estudiante no completó exitosamente (NO APROBADO, INACTIVO)
  - Clase 1: Estudiante completó exitosamente (FORMADO)

- **Variables predictoras**: Características demográficas, socioeconómicas, académicas y de rendimiento inicial

### Justificación del Tipo de Modelo

Se propone un modelo de **clasificación supervisada** porque:

1. **Tenemos datos etiquetados**: Conocemos el resultado final de cada estudiante
2. **Objetivo claro**: Predecir si un estudiante tendrá éxito o no
3. **Aplicación práctica**: Permitiría identificar estudiantes en riesgo tempranamente
4. **Toma de decisiones**: Los resultados pueden guiar intervenciones pedagógicas

### Consideraciones Importantes

- **Balance de clases**: Es necesario analizar si existe desbalance entre estudiantes exitosos y no exitosos
- **Features relevantes**: Debemos identificar qué características son más predictivas del éxito
- **Interpretabilidad**: El modelo debe ser explicable para entender qué factores influyen más

## 7.2. Algoritmos y Técnicas Propuestas

### Algoritmos Seleccionados

Se propone comparar dos algoritmos complementarios:

#### 1. Random Forest (Bosque Aleatorio)

**Descripción**: Ensemble de múltiples árboles de decisión que votan para la clasificación final.

**Ventajas**:
- Maneja bien relaciones no lineales entre variables
- Robusto ante outliers y datos ruidosos
- Proporciona importancia de variables
- Menor riesgo de sobreajuste que un árbol individual
- No requiere normalización de datos

**Desventajas**:
- Menos interpretable que modelos lineales
- Mayor costo computacional
- Puede ser difícil de optimizar

**Por qué es apropiado**: Las relaciones entre variables educativas, demográficas y de rendimiento suelen ser complejas y no lineales. Random Forest puede capturar estas interacciones.

#### 2. Regresión Logística

**Descripción**: Modelo lineal que estima la probabilidad de pertenencia a una clase.

**Ventajas**:
- Altamente interpretable (coeficientes muestran efecto de cada variable)
- Rápido de entrenar
- Funciona bien con conjuntos de datos pequeños/medianos
- Proporciona probabilidades calibradas
- Menos propenso al sobreajuste

**Desventajas**:
- Asume relaciones lineales
- Puede no capturar interacciones complejas
- Sensible a multicolinealidad

**Por qué es apropiado**: Sirve como baseline interpretable y permite entender el efecto directo de cada factor en el éxito académico.

### Estrategia de Comparación

Se entrenará ambos modelos con los mismos datos y se compararán usando múltiples métricas para seleccionar el más apropiado según el contexto del problema.

## 7.3. Justificación de Hiperparámetros

### Concepto de Hiperparámetros

Los hiperparámetros son configuraciones del algoritmo que no se aprenden de los datos, sino que deben ser definidas antes del entrenamiento. Afectan directamente el rendimiento y la capacidad de generalización del modelo.

### Hiperparámetros Propuestos para Random Forest

#### 1. n_estimators (Número de árboles)
- **Valores a probar**: 50, 100, 200
- **Justificación**: Más árboles generalmente mejoran el rendimiento pero aumentan el costo computacional. Se propone probar un rango moderado.
- **Efecto**: Más árboles → mayor estabilidad y precisión, pero mayor tiempo de entrenamiento

#### 2. max_depth (Profundidad máxima)
- **Valores a probar**: 5, 10, 15, None (sin límite)
- **Justificación**: Controla la complejidad de cada árbol y previene sobreajuste
- **Efecto**: Mayor profundidad → puede capturar patrones más complejos, pero riesgo de sobreajuste

#### 3. min_samples_split (Mínimo de muestras para dividir)
- **Valores a probar**: 2, 5, 10
- **Justificación**: Controla cuándo un nodo puede dividirse, afectando la regularización
- **Efecto**: Valores mayores → modelos más conservadores y menos sobreajustados

#### 4. min_samples_leaf (Mínimo de muestras por hoja)
- **Valores a probar**: 1, 2, 4
- **Justificación**: Evita hojas con muy pocas muestras que pueden ser ruido
- **Efecto**: Valores mayores → árboles más suaves y generalizables

### Hiperparámetros Propuestos para Regresión Logística

#### 1. C (Regularización)
- **Valores a probar**: 0.01, 0.1, 1, 10, 100
- **Justificación**: Controla la fuerza de la regularización (inverso de lambda)
- **Efecto**: C pequeño → mayor regularización, modelo más simple

#### 2. penalty (Tipo de regularización)
- **Valores a probar**: 'l1' (Lasso), 'l2' (Ridge)
- **Justificación**: L1 puede hacer selección de features, L2 reduce magnitud de coeficientes
- **Efecto**: L1 → puede llevar coeficientes a 0, L2 → solo los reduce

### Método de Optimización: Grid Search con Cross-Validation

**Proceso propuesto**:
1. Definir una grilla de combinaciones de hiperparámetros
2. Para cada combinación:
   - Entrenar el modelo con validación cruzada (5 folds)
   - Calcular métrica de rendimiento promedio
3. Seleccionar la combinación con mejor rendimiento
4. Evaluar en conjunto de prueba independiente

**Métrica de optimización sugerida**: F1-Score (balance entre precisión y recall)

## 7.4. Validación Cruzada y Técnicas de Evaluación

### Estrategia de Partición de Datos

#### División Train-Test
- **Entrenamiento**: 80% de los datos
- **Prueba**: 20% de los datos
- **Estratificación**: Mantener proporción de clases en ambos conjuntos
- **Semilla aleatoria fija**: Para reproducibilidad

**Justificación**: Esta división 80/20 es estándar y proporciona suficientes datos para entrenar mientras reserva una porción representativa para evaluación final.

### Validación Cruzada (Cross-Validation)

#### K-Fold Estratificado (k=5)

**Proceso**:
1. Dividir datos de entrenamiento en 5 particiones (folds)
2. Para cada fold:
   - Usar 4 folds para entrenar
   - Usar 1 fold para validar
3. Repetir hasta que cada fold haya sido usado para validación
4. Promediar resultados de los 5 folds

**Ventajas**:
- Utiliza todos los datos para entrenamiento y validación
- Reduce varianza en la estimación del rendimiento
- Menos sensible a la partición particular de datos
- Estratificación mantiene proporción de clases

**Justificación**: 5 folds es un balance entre uso eficiente de datos y costo computacional. La estratificación es crítica con clases potencialmente desbalanceadas.

### Métricas de Evaluación

#### Métricas Principales

1. **Accuracy (Exactitud)**
   - Proporción de predicciones correctas
   - Útil cuando las clases están balanceadas
   - Fórmula: (VP + VN) / Total

2. **Precision (Precisión)**
   - De los que predijimos como éxito, ¿cuántos realmente lo fueron?
   - Importante si el costo de falsos positivos es alto
   - Fórmula: VP / (VP + FP)

3. **Recall (Sensibilidad)**
   - De los que realmente tuvieron éxito, ¿cuántos identificamos?
   - Importante si el costo de falsos negativos es alto
   - Fórmula: VP / (VP + FN)

4. **F1-Score**
   - Media armónica de precisión y recall
   - Útil con clases desbalanceadas
   - Fórmula: 2 × (Precision × Recall) / (Precision + Recall)

#### Matriz de Confusión

Se propone analizar la matriz de confusión para entender:
- **Verdaderos Positivos (VP)**: Estudiantes exitosos correctamente identificados
- **Verdaderos Negativos (VN)**: Estudiantes no exitosos correctamente identificados
- **Falsos Positivos (FP)**: Predijimos éxito pero no lo tuvieron
- **Falsos Negativos (FN)**: No predijimos éxito pero sí lo tuvieron

#### Curva ROC y AUC

- **ROC (Receiver Operating Characteristic)**: Muestra trade-off entre tasa de verdaderos positivos y falsos positivos
- **AUC (Area Under Curve)**: Métrica resumen de la capacidad discriminativa del modelo
  - AUC = 1.0: Clasificador perfecto
  - AUC = 0.5: Clasificador aleatorio

### Manejo de Desbalance de Clases (si aplica)

Si existe desbalance significativo entre clases, se propone:

#### Técnicas de Re-muestreo

1. **SMOTE (Synthetic Minority Over-sampling)**
   - Crea ejemplos sintéticos de la clase minoritaria
   - Interpola entre ejemplos cercanos
   - Previene sobreajuste vs duplicación simple

2. **Random Under-sampling**
   - Reduce ejemplos de la clase mayoritaria
   - Más rápido pero pierde información

3. **Combinación (SMOTETomek)**
   - SMOTE para sobre-muestrear minoría
   - Tomek links para limpiar ruido en frontera

#### Pesos de Clase

- Asignar mayor peso a la clase minoritaria durante entrenamiento
- Parámetro class_weight='balanced' ajusta automáticamente

**Justificación**: El desbalance puede hacer que el modelo simplemente prediga la clase mayoritaria, ignorando la minoría.

## Resumen de la Metodología Propuesta

### Pipeline Completo

1. **Preparación de Datos**
   - Dividir en train (80%) y test (20%) con estratificación
   - Aplicar re-muestreo si hay desbalance

2. **Entrenamiento Inicial**
   - Entrenar Random Forest y Regresión Logística con parámetros default
   - Evaluar con validación cruzada (5-fold estratificado)
   - Comparar métricas base

3. **Optimización de Hiperparámetros**
   - Aplicar Grid Search con CV al mejor modelo base
   - Buscar combinación óptima de hiperparámetros
   - Re-entrenar con mejores parámetros

4. **Evaluación Final**
   - Evaluar modelo optimizado en conjunto de prueba
   - Analizar matriz de confusión
   - Calcular todas las métricas
   - Interpretar importancia de features (Random Forest) o coeficientes (Regresión Logística)

5. **Análisis de Resultados**
   - Identificar variables más predictivas
   - Evaluar viabilidad de implementación
   - Proponer recomendaciones

### Criterios de Éxito

El modelo será considerado exitoso si:
- **F1-Score > 0.70**: Balance adecuado entre precisión y recall
- **Recall > 0.65**: Identifica al menos 65% de estudiantes en riesgo
- **AUC > 0.75**: Buena capacidad discriminativa
- **Interpretabilidad**: Variables importantes son accionables

### Consideraciones Éticas y Prácticas

- El modelo debe ser justo y no discriminar por género, etnia o estrato
- Las predicciones deben usarse para apoyar, no excluir estudiantes
- Debe actualizarse periódicamente con nuevos datos
- Los resultados deben comunicarse claramente a los stakeholders

---

**Nota Final**: Esta metodología proporciona un marco robusto y sistemático para predecir el éxito académico. La implementación práctica requeriría ajustes según los resultados del análisis exploratorio y las características específicas del conjunto de datos.