<a href="https://colab.research.google.com/github/evegat/usm2025-1-dip-ia-edu-v2-evegat/blob/main/InformeFinalDIPLOIAUSMEVT.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dimensiones contextuales que promueven el inter√©s por estudiar pedagog√≠a en los egresados de cuarto medio  
## Detector de intereses para la Regi√≥n Metropolitana  

---

## 1. Introducci√≥n

Chile enfrenta una crisis sostenida en la formaci√≥n de nuevos docentes, evidenciada por una disminuci√≥n en la matr√≠cula de carreras de pedagog√≠a, particularmente en regiones. Frente a ello, resulta urgente desarrollar herramientas que permitan identificar tempranamente los perfiles con inter√©s o probabilidad de seguir estas carreras, para orientar de forma m√°s eficaz las pol√≠ticas p√∫blicas.

Este trabajo propone el desarrollo de un modelo de clasificaci√≥n binaria mediante Machine Learning que prediga si una persona estudiar√° pedagog√≠a o no, en base a variables demogr√°ficas, acad√©micas y contextuales extra√≠das de bases p√∫blicas del MINEDUC. La soluci√≥n est√° pensada como un **detector de vocaci√≥n docente temprana**, con utilidad para la asignaci√≥n de recursos, el dise√±o de campa√±as de atracci√≥n y la focalizaci√≥n territorial de esfuerzos institucionales.

---

## 2. Objetivo del modelo

**Objetivo general:** Construir un modelo supervisado de clasificaci√≥n para estimar si un estudiante de primer a√±o optar√° por pedagog√≠a, a partir de datos consolidados de matr√≠cula.

**Objetivos espec√≠ficos:**
- Implementar y comparar modelos supervisados que permitan realizar esta clasificaci√≥n.
- Identificar variables predictivas relevantes asociadas a la elecci√≥n de pedagog√≠a.
- Evaluar su potencial aplicaci√≥n en estrategias de pol√≠tica p√∫blica a nivel regional.

---

## 3. Descripci√≥n del Conjunto de Datos

### Fuente:
Portal de Datos Abiertos del Ministerio de Educaci√≥n:  
üëâ https://datosabiertos.mineduc.cl/matricula-en-educacion-superior/

### Contenido:
La base contiene m√°s de 1.5 millones de registros de matr√≠cula en educaci√≥n superior entre 2023 y 2024. Se incluyen variables como regi√≥n, jornada, forma de ingreso, tipo de instituci√≥n, acreditaci√≥n y nombre de carrera.

### Filtrado:
Para el problema de inter√©s se consider√≥ exclusivamente la matr√≠cula **a primer a√±o**, por ser el momento en que se realiza la elecci√≥n de carrera inicial. Dado el volumen de datos (900 MB), se gener√≥ una muestra aleatoria representativa para asegurar manejo t√©cnico viable sin p√©rdida de diversidad.

---

## 4. Distribuci√≥n y Preprocesamiento

Este proceso fue documentado en los notebooks `03analisis.ipynb` y `04preprocesamiento.ipynb`.

### a. An√°lisis exploratorio:
Se analizaron tipos de datos, nulos, valores extremos y relaciones entre variables:
- `valor_matricula` y `valor_arancel` mostraron asimetr√≠a y fueron normalizados.
- La variable `nomb_carrera` permiti√≥ derivar el campo `es_pedagogia` (variable objetivo).

### b. Eliminaci√≥n de duplicados:
M√°s del 70% de los registros resultaron duplicados. Se eliminaron 1.2 millones de filas con `df.drop_duplicates()`.

### c. Manejo de valores nulos:
Solo 20 filas ten√≠an nulos en arancel o matr√≠cula. Se opt√≥ por `df.dropna()` para evitar introducir sesgo o ruido con imputaciones.

### d. Codificaci√≥n de variables categ√≥ricas:
Se utiliz√≥ `LabelEncoder` para transformar variables como `region_sede`, `jornada`, `modalidad`, etc. El procedimiento fue aplicado columna por columna, garantizando consistencia con el entrenamiento.

### e. Normalizaci√≥n:
Se aplic√≥ `MinMaxScaler()` a `valor_matricula` y `valor_arancel` por tener rangos muy amplios y alta dispersi√≥n. Esto previene que los modelos sesguen su decisi√≥n hacia variables de gran magnitud.

---

## 5. M√©todos y Modelos Utilizados

Notebook: `05entrenamiento.ipynb`

### Modelos seleccionados:

| Modelo | Justificaci√≥n |
|--------|---------------|
| **DecisionTreeClassifier** | Elegido por su interpretabilidad y facilidad para visualizar reglas de decisi√≥n. √ötil para entender qu√© variables tienen m√°s peso. Ideal como l√≠nea base. |
| **RandomForestClassifier** | Basado en m√∫ltiples √°rboles, reduce el sobreajuste y mejora la capacidad predictiva. Es robusto ante ruido, escalable y adecuado para conjuntos con mezcla de variables categ√≥ricas y num√©ricas. |

### Hiperpar√°metros y razones:

| Modelo        | Hiperpar√°metros            | Justificaci√≥n |
|---------------|----------------------------|----------------|
| √Årbol de decisi√≥n | `max_depth=4`             | Controla el crecimiento excesivo del √°rbol, evita sobreajuste y mejora la legibilidad del modelo. |
| Random Forest | `n_estimators=100`<br>`max_depth=10`<br>`random_state=42` | 100 √°rboles ofrecen buen balance entre precisi√≥n y rendimiento. Se fija una profundidad moderada para evitar sobreajuste. Se fija una semilla para reproducibilidad. |

### Partici√≥n de datos:
Se us√≥ `train_test_split(test_size=0.2, stratify=y)` para asegurar distribuci√≥n balanceada de la clase minoritaria (`es_pedagogia=1`). Esto previene sesgos y asegura comparabilidad.

---

## 6. Evaluaci√≥n del Rendimiento del Modelo

Notebook: `06validacion.ipynb`

### M√©tricas utilizadas:
- **Accuracy:** proporci√≥n de clasificaciones correctas.
- **Precision:** minimiza falsos positivos (√∫til si queremos evitar sobreestimaciones de vocaci√≥n).
- **Recall:** minimiza falsos negativos (importante para no perder casos reales con inter√©s en pedagog√≠a).
- **F1-score:** balance entre precisi√≥n y recall.
- **Matriz de confusi√≥n:** para observar aciertos por clase.

### Resultados:

| Modelo              | Accuracy | Precision (1) | Recall (1) | F1-score |
|---------------------|----------|----------------|------------|----------|
| √Årbol de Decisi√≥n   | 95.8%    | 0.76           | 0.75       | 0.76     |
| **Random Forest**   | **96.9%**| **0.85**       | **0.77**   | **0.81** |

**Conclusi√≥n cr√≠tica:**  
El √Årbol de Decisi√≥n es m√°s interpretable, pero Random Forest entrega mejores resultados sin p√©rdida significativa de explicabilidad. El rendimiento es s√≥lido en ambas clases, pero destaca su capacidad para recuperar casos positivos sin incurrir en sobreajuste, lo que se evidencia al comparar el accuracy en entrenamiento vs testeo (ambos en torno al 97%).

---

## 7. Interpretaci√≥n de Resultados

- Variables como `tipo_inst_1`, `region_sede_cod`, `forma_ingreso`, `jornada` y `nivel_carrera_1` fueron recurrentemente seleccionadas como importantes.
- El modelo detecta que los perfiles m√°s probables a elegir pedagog√≠a se asocian a instituciones t√©cnicas acreditadas, modalidad presencial, jornada diurna y formas de ingreso como PACE.
- La matriz de confusi√≥n muestra menor cantidad de falsos negativos en Random Forest, lo cual es clave en pol√≠ticas p√∫blicas: **mejor captar a quienes s√≠ tienen vocaci√≥n que subestimar su presencia.**

---

## 8. Prueba con ejemplos reales

Notebook: `07prueba.ipynb`

Se construyeron tres ejemplos sint√©ticos con caracter√≠sticas realistas:

```plaintext
Ejemplo 1: Mujer, joven, instituci√≥n t√©cnica acreditada, jornada diurna, presencial ‚Üí No pedagog√≠a  
Ejemplo 2: Hombre, mayor, instituci√≥n profesional no acreditada, online ‚Üí No pedagog√≠a  
Ejemplo 3: Hombre, joven, jornada diurna, con arancel alto, forma ingreso especial ‚Üí No pedagog√≠a
```

Aunque ninguno fue clasificado como "pedagog√≠a", esto es consistente con los patrones detectados por el modelo: la forma de ingreso, acreditaci√≥n y tipo de instituci√≥n son decisivos.

---

## 9. Conclusiones

Se logr√≥ construir un modelo predictivo robusto, con buen rendimiento y aplicabilidad inmediata en planificaci√≥n institucional.

La integraci√≥n de fuentes p√∫blicas, un pipeline reproducible y m√©tricas claras hacen del modelo una herramienta transparente y replicable.

Puede ser implementado como insumo para estrategias focalizadas en regiones con baja matr√≠cula pedag√≥gica.

Recomendamos avanzar hacia una arquitectura con m√°s variables (socioecon√≥micas, rendimiento escolar) y explorar modelos como XGBoost o redes neuronales con explainability integrada.

---

## 10. Referencias

Ministerio de Educaci√≥n de Chile. (2024). Matr√≠cula en Educaci√≥n Superior.  
https://datosabiertos.mineduc.cl/matricula-en-educacion-superior/
