<a href="https://colab.research.google.com/github/evegat/usm2025-1-dip-ia-edu-v2-evegat/blob/main/InformeFinalDIPLOIAUSMEVT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dimensiones contextuales que promueven el interés por estudiar pedagogía en los egresados de cuarto medio  
## Detector de intereses para la Región Metropolitana  

---

## 1. Objetivo del modelo

Este proyecto implementa un modelo de clasificación supervisada para predecir si un estudiante optará por una carrera de pedagogía, en función de sus características personales y académicas. El modelo permite identificar patrones que podrían servir como insumo para políticas públicas orientadas a fortalecer vocaciones docentes, especialmente en la Región Metropolitana.

Se utilizan algoritmos de clasificación y selección de características para detectar combinaciones de variables asociadas a la elección de pedagogía.

---

## 2. Descripción del Conjunto de Datos

### Fuente:
Los datos provienen del portal de datos abiertos del Ministerio de Educación de Chile:

> [https://datosabiertos.mineduc.cl/matricula-en-educacion-superior/](https://datosabiertos.mineduc.cl/matricula-en-educacion-superior/)

### Estructura del dataset:
La base original contiene información de matrícula de estudiantes de educación superior para los años **2023 y 2024**, incluyendo carreras, regiones, tipo de institución, jornada, forma de ingreso, entre otros.  
Dado el peso del archivo original (cerca de 900 MB), se realizó una muestra filtrada que conserva únicamente los casos de **matrícula a primer año**, que es el foco de interés para estimar vocación pedagógica temprana.

---

## 3. Distribución y preprocesamiento

### Análisis exploratorio:
Se ejecutaron los siguientes análisis sobre el dataset (`03analisis.ipynb`):

- Recuento de observaciones y columnas.
- Tipos de datos por variable.
- Distribuciones de variables categóricas (`jornada`, `modalidad`, `nivel_carrera_1`, etc.).
- Estadísticas de variables numéricas (`valor_matricula`, `valor_arancel`).
- Matriz de correlación entre valores numéricos.
- Cantidad de estudiantes en carreras que contienen el texto "pedagogía".

### Limpieza y transformación (`04preprocesamiento.ipynb`):
- **Eliminación de duplicados:** Se removieron más de 1 millón de filas duplicadas.
- **Eliminación de valores nulos:** Se eliminaron 20 filas con valores faltantes.
- **Codificación:** Se utilizó `LabelEncoder` para transformar variables categóricas en numéricas.
- **Normalización:** Se aplicó `MinMaxScaler` sobre `valor_matricula` y `valor_arancel`.

Se agregó la variable binaria **`es_pedagogia`**, que indica si la carrera cursada corresponde a una pedagogía (`1`) o no (`0`), a partir del nombre de la carrera.

---

## 4. Métodos y Modelos Utilizados

### Modelos implementados (`05entrenamiento.ipynb`):
- **Árbol de Decisión (`DecisionTreeClassifier`)**: permite visualizar reglas claras de decisión y es fácilmente interpretable.
- **Bosque Aleatorio (`RandomForestClassifier`)**: mejora la precisión general y reduce el riesgo de sobreajuste.

### Hiperparámetros usados:
- Árbol de Decisión: `max_depth=4`
- Random Forest: `n_estimators=100`, `max_depth=10`, `random_state=42`

### División de los datos:
- Se usó `train_test_split` con un 80% para entrenamiento y 20% para test.
- Los datos fueron estratificados en la variable objetivo `es_pedagogia` para mantener proporciones representativas.

---

## 5. Evaluación del Rendimiento del Modelo

Los modelos fueron evaluados usando (`06validacion.ipynb`):

### Métricas de evaluación:
- **Accuracy**: porcentaje de predicciones correctas en general.
- **Precision**: proporción de verdaderos positivos sobre el total de predicciones positivas (evita falsos positivos).
- **Recall (Sensibilidad)**: proporción de verdaderos positivos sobre el total de casos reales positivos (evita falsos negativos).
- **F1-score**: media armónica entre precisión y recall.
- **Matriz de confusión**: para interpretar errores de clasificación por clase.

### Resultados:

| Modelo              | Accuracy | Precision Pedagogía | Recall Pedagogía | F1-score |
|---------------------|----------|----------------------|-------------------|----------|
| Árbol de Decisión   | 95.8%    | 0.76                 | 0.75              | 0.76     |
| Random Forest       | **96.9%**| **0.85**             | **0.77**          | **0.81** |

El modelo Random Forest mostró mejor rendimiento tanto en métricas generales como en la clase minoritaria, por lo que fue seleccionado como modelo final.

---

## 6. Interpretación de Resultados

La interpretación de los resultados permite destacar que:

- Variables como `tipo_inst_1`, `region_sede`, `jornada` y `forma_ingreso` son relevantes en la decisión de estudiar pedagogía.
- El modelo Random Forest logra capturar mejor la complejidad de estas interacciones y generaliza bien tanto en entrenamiento como testeo.
- La matriz de confusión muestra menos falsos negativos, lo que es clave si se desea detectar con precisión a quienes tienen interés pedagógico.

---

## 7. Prueba con ejemplos reales

Se crearon tres perfiles hipotéticos con combinaciones realistas de características (`07prueba.ipynb`).  
El modelo fue capaz de clasificar correctamente según las combinaciones, permitiendo validar su funcionamiento para fines prácticos.

---

## 8. Conclusiones

Este proyecto demuestra la viabilidad de usar aprendizaje automático para modelar vocaciones pedagógicas en estudiantes de primer año, a partir de variables académicas y demográficas.  

El enfoque puede ser útil para apoyar intervenciones del MINEDUC y orientar campañas en regiones o instituciones con menor proporción de estudiantes en pedagogía.  

Se recomienda considerar ampliaciones como el uso de modelos más avanzados (`XGBoost`, `CatBoost`) o análisis desagregados por región o tipo de institución.

---
