# Proyecto Enseña Chile – Análisis de Reclutamiento

Este notebook tiene como objetivo analizar datos históricos de postulantes a Enseña Chile y cruzarlos con información externa del MINEDUC para identificar universidades y carreras con mayor concentración de candidatos idóneos, ayudando así a mejorar el proceso de reclutamiento.

## Objetivos específicos:
1. Caracterizar históricamente a postulantes y seleccionados.
2. Analizar la relación universidad-carrera-selección.
3. Identificar universidades y carreras prioritarias.
4. Proponer una categorización en niveles de prioridad.

# Entrega Inicial del Repositorio

## Contexto y motivación

Enseña Chile es una fundación que busca atraer profesionales talentosos al mundo educativo para
generar un impacto real en las comunidades escolares más vulnerables del país.

No obstante, sus procesos de postulación enfrentan desafíos importantes: la tasa de aceptación suele
ser baja y los perfiles de quienes postulan parecen ser bastante heterogéneos.

Este proyecto apunta a utilizar los datos históricos de postulaciones de Enseña Chile, junto con
información universitaria disponible en fuentes públicas como el MINEDUC, para detectar patrones,
brechas y oportunidades de mejora en el reclutamiento y selección del programa. La idea es elaborar
recomendaciones estratégicas que ayuden a la Fundación a focalizar mejor sus esfuerzos, diversificar
el perfil de candidatos y aumentar la probabilidad de éxito en las postulaciones.

La audiencia principal de este trabajo está compuesta por el equipo de gestión de Enseña Chile, aunque
también busca ser un aporte para investigadores y responsables de políticas educativas interesados en
comprender con mayor claridad cómo se distribuye el talento docente potencial en el país.

## Preguntas objetivo

¿Qué características académicas y sociodemográficas se correlacionan con un mayor éxito en el proceso de selección de Enseña Chile?

¿Existen universidades o carreras que presenten consistentemente una mayor proporción de postulantes aceptados?

¿Qué regiones del país presentan menor participación o tasa de éxito en postulaciones?

¿Es posible construir un modelo predictivo que estime la probabilidad de éxito de un postulante en función de sus características iniciales?

¿Cómo se pueden utilizar estos hallazgos para focalizar los esfuerzos de reclutamiento y reducir posibles sesgos hacia ciertas instituciones de elite?

## Datos

Datos internos de Enseña Chile:
- Registros históricos de postulaciones: Los principales datos a usar, originalmente en formato xls, contiene un total de 15 columnas:
  
    - Año Pech                      Int64  [2021, 2020, 2022, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017,2018, 2019, 2023, 2024, 2025, 2030]
    -  Generación                    float64  [2009., 2010., 2011., 2012., 2013., 2014., 2015., 2016., 2017., 2018., 2019., 2020., 2022.,  2021., 2023., 2024., 2025., 2030.]
    - \# Proceso                       float64 [1, 2]
    - Proceso                       float64 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]
     - Edad                          float64  [  37.,   29.,   31.,   30.,   35.,   28.,   33.,   34.,   36.,
         40.,   26.,   54.,   41.,   24.,   38.,   27.,   32.,   52.,
         39.,   43.,   60.,   23.,   25.,   65.,   61.,    1.,   45.,
         53.,   44.,   57.,   50.,   46.,   67.,   48.,   42.,   47.,
         nan,   63.,   56.,   51.,   49.,   59.,   71.,   64.,   66.,
         55.,   58.,   70.,   62.,   73.,   75.,   77.,   19.,   68.,
         76.,   72.,   22.,   69.,    0.,   21.,   12.,   74.,   79.,
         78.,   11.,   84.,   81.,   13.,   10.,    5.,   89.,  125.,
          6.,    7.,    8.,    4.,  117.,  -38.,  -42.,   18.,  128.,
          3.,   15.,  -31.,  -41.,    2.,  -24.,  -32.,  -13.,  131.,
        -34.,  -27.,  -26.,  -19.,  102.,  -29.,  -36.,   80.,  -44.,
        -28.,   82., -950., -937.,  -37.]
     - Resumen Estado Postulación    object ['Seleccionado', 'En proceso de selección', 'Fuera del proceso', None, 'Incompleta']
    -  Estado de la Postulación      object ['Acepta compromiso peCh', 'Posterga compromiso', 'Renuncia',
       'Aceptado a EG', 'No llega EG', 'Rechazado en PR',
       'Rechazado en EG', 'No cumple requisito habilitación', 'Sin cupo',
       'Abandona EG', 'Rechazado en DE', 'Rechaza oferta eCh',
       'Fuera del segmento de enfoque eCh', 'Abandona EP',
       'Desvinculado por eCh', 'No llega EP', 'No se acepta posterga',
       'Aceptado en DE', 'Aceptado a EP', 'Postulación Completa',
       'Postulación incompleta', 'Sin revisar', 'Aceptado a ET',
       'Aceptado a DE', 'Abandona DE', 'No cumple requisito PSU',
       'Rechazado en ET', 'Abandona ET', 'No llega a DE', 'Congelado',
       'No llega a ET', 'Renuncia a oferta', None]
    -  Nombre                        object
     - Apellidos                     object
     - Universidad                   object
    - Universidad (old)             object
    - Carrera                       object
   -  Carrera.1                      object
    - Otra Carrera                    object
     - Otra carrera, ¿Cuál?           object

memory usage: 8.3+ MB

- Significado siglas
    - DE: Día de Entrevista (Etapa de selección antingua)
    - PR: Primera Revisión (Formulario: filtro 1)
    - ET: Entrevista Telefónica (filtro 1.1)
    - EG: Entrevista Grupal (filtro 2)
    - EP: Entrevista Personal (filtro 3)








Datos externos (fuentes públicas):
- Distribución de estudiantes universitarios por institución, región y carrera.
- Información de equidad y brechas (ej. género, tipo de institución).

Datos DEMRE:
- Puntajes PAES de matrícula, por año, provistos por datos abiertos del Departamento de
Medición, Evaluación y Registro Educacional de la Universidad de Chile.



## Análisis exploratorio de los datos

# 1 Configuracion inicial

## 1.1 Bibliotecas

In [1]:
!pip install lxml



In [2]:
!pip install python-magic



In [3]:
!pip install python-magic-bin



Este notebook se desarrolló en Google Colab, donde el almacenamiento de archivos es solo temporal, por tanto, para que no tuvieramos que subir los archivos necesarios cada vez que quisieramos correr el notebook, usamos la libreria `gdown` para automatizar la descarga de archivos desde nuestra carpeta del proyecto en Google Drive.

In [4]:
!pip install gdown
import gdown



In [5]:
import magic
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import Image
import json

In [6]:
# Configuraciones de visualizacion
pd.set_option('display.max_columns', None)
sns.set_theme(style="whitegrid")

## 1.2 Descarga de archivos

In [7]:
url_drive = "https://drive.google.com/uc?id="

In [13]:
por_descargar = {'1hrwPpacqX8hg41KQG_7Yr-jhVPmYCSLr': Path("datasets/Postulaciones historicas ECh ORIGINAL.xls"),
                 '1apwRW4Evdr1vuPeOawA_oIef1_ay_Hco': Path("datasets/Postulaciones historicas ECh.csv"),
                 '1hePtnwicwz_fv-hwF7S_3bRIwvb7gfC3': Path("imagenes/ultimas filas.png"),
                 '12SGs7YOE4uzXqX3MpwZDUpk_IviKAvkI': Path("mapeos/carreras.json")}
                #'1NV_TQSis9q7Btoaa7Wmvgc9XCWQ4Xtaz': Path("datasets/titulados.csv")

In [20]:
for id_archivo, ruta_archivo in por_descargar.items():
    # Obtenemos el directorio padre
    directorio_padre = ruta_archivo.parent 
    
    # Creamos el directorio
    directorio_padre.mkdir(parents=True, exist_ok=True)
    
    # Abrir en modo binario
    with ruta_archivo.open("wb") as archivo:
        print(f'Descargando "{ruta_archivo.name}"...')
        gdown.download(url_drive + id_archivo, archivo, quiet=True)
        print('Descarga completa\n')

Descargando "Postulaciones historicas ECh ORIGINAL.xls"...
Descarga completa

Descargando "Postulaciones historicas ECh.csv"...
Descarga completa

Descargando "ultimas filas.png"...
Descarga completa

Descargando "carreras.json"...
Descarga completa



# 2 Carga y Exploración Inicial de los Datos

## 2.1 Postulantes

### 2.1.1 Crear DataFrame

El archivo que nos entregaron tiene extensión `.xls`, formato usado desde Excel 97 a Excel 2003, predecesor del actual `.xlsx` introducido en Excel 2007. <br>
Intentamos cargarlo con `read_excel()`

In [None]:
try:
    df_postulantes = pd.read_excel(ruta_xls)
except Exception as e:
    print(f"{type(e).__name__}: {e}")

inspeccionamos el tipo de archivo

In [None]:
inspector = magic.Magic(mime=False) 
tipo_archivo = inspector.from_file(ruta_xls)
print(tipo_archivo)

intentamos cargar como html

In [None]:
df_postulantes = pd.read_html(ruta_xls)

intentamos mostrar las primeras filas

In [None]:
try:
    df_postulantes.head()
except Exception as e:
    print(f"{type(e).__name__}: {e}")

investigando nos damos cuenta de que `read_html()` retorna una lista de dataframes. <br>
imprimimos cuantos hay

In [None]:
lista_html = df_postulantes
len(lista_html)

mostramos el que contiene

In [None]:
df_postulantes = lista_html[0]
display(df_postulantes.head())
display(df_postulantes.tail())

Captura de pantalla de las ultimas filas del dataset en Excel:

In [None]:
Image(ruta_ultimas_filas_png)

 Comparando la cola con lo que muestra Excel, a nuestro dataframe le faltan las ultimas 6 filas. <br>
 A pesar de que las filas extraviadas no son relevantes para nuestro analisis, el formato del archivo no nos da confianza. Puede que hayan mas celdas que se perdieron durante la carga. Para maximizar la compatibilidad optamos por exportar el archivo a un `.csv` con Excel y lo cargamos con `read_csv()`

In [None]:
df_postulantes = pd.read_csv(ruta_csv, low_memory=False)
# low_memory=False para que pandas infiera los tipos de datos despues de leer todo el archivo
# y asi no terminar con columnas con multiples tipos de datos

el `DtypeWarning` nos avisa que en la columna 0 hay varios tipos de datos, por tanto `pandas` dejó todas esas entradas como tipo `object`

In [None]:
with pd.option_context('display.max_colwidth', None):
    display(df_postulantes.tail(8))

Ahora sí se muestran las observaciones del final. Además, contando las filas desde 0 (en vez de 1) y no considerando el encabezado, las dimensiones del dataframe son iguales a las de la tabla mostrada en Excel.

### 2.1.2 Primer vistazo

Resumen de las columnas

In [None]:
df_postulantes.info()

Cantidad de datos nulos en el Dataframe por columna

In [None]:
df_postulantes.isnull().sum()

mostrar estadisticas por columna

In [None]:
df_postulantes.describe(include='all')

## 2.2 Datos Titulados 2024 (Entrega 2)

In [None]:
#df_titulados = pd.read_csv("/content/titulados.csv", sep=';')

In [None]:
#df_titulados.head()

# 3 Limpieza de Datos
**Objetivo:** Eliminar duplicados, manejar valores nulos, convertir tipos de datos, y estandarizar categorías.

## 3.1 Eliminar filas con observaciones

In [None]:
filas_antes = df_postulantes.shape[0]
df_postulantes = df_postulantes.iloc[:-5]
filas_despues = df_postulantes.shape[0]
eliminadas = filas_antes - filas_despues
print(f"Se eliminaron las {eliminadas} ultimas filas.")

## 3.2 Eliminar filas vacias

In [None]:
filas_antes = df_postulantes.shape[0]
filas_vacias = df_postulantes.isnull().all(axis=1)
df_postulantes = df_postulantes[~filas_vacias]
filas_despues = df_postulantes.shape[0]
eliminadas = filas_antes - filas_despues
print(f"Se eliminaron {eliminadas} filas vacias.")

## 3.3 Eliminar duplicados

In [None]:
filas_antes = df_postulantes.shape[0]
df_postulantes.drop_duplicates(inplace=True)
filas_despues = df_postulantes.shape[0]
eliminadas = filas_antes - filas_despues
print(f"Se eliminaron {eliminadas} filas duplicadas.")

## 3.4 Columnas `Año Pech` y `Generación`

### 3.4.1 Convertir a Int64

In [None]:
df_postulantes = df_postulantes.astype({'Año Pech': 'Int64', 'Generación': 'Int64'})

### 3.4.2 Datos conflictivos

In [None]:
con_annos_distintos = (df_postulantes['Año Pech'].notna()
                     & df_postulantes['Generación'].notna()
                     & (df_postulantes['Año Pech'] != df_postulantes['Generación']))

df_postulantes[con_annos_distintos]

seba: no hay conflictos entre annos

### 3.4.3 unir columnas

In [None]:
df_postulantes['Año Pech'] = df_postulantes['Año Pech'].combine_first(df_postulantes['Generación'])

df_postulantes = df_postulantes.rename(columns={'Año Pech': 'Año'})

df_postulantes = df_postulantes.drop(columns='Generación')

df_postulantes.head(1)

### 3.4.4 revisar datos extraños

In [None]:
print(np.sort(df_postulantes['Año'].unique().dropna()))

#### revisar filas con anno 2030

In [None]:
con_anno_2030 = (df_postulantes['Año'] == 2030).fillna(False)
df_postulantes[con_anno_2030]

por los nombres se infiere que fueron filas de testeo que a los encargados de la base de datos se les olvidó quitar <br>
por tanto las eliminamos

In [None]:
filas_antes = df_postulantes.shape[0]
df_postulantes = df_postulantes[~con_anno_2030]
filas_despues = df_postulantes.shape[0]
eliminadas = filas_antes - filas_despues
print(f"Se eliminaron {eliminadas} filas")

## 3.5 Columnas `# Proceso` y `Proceso`

### 3.5.1 Convertir a `Int64`

In [None]:
df_postulantes = df_postulantes.astype({'# Proceso': 'Int64', 'Proceso': 'Int64'})

### 3.5.2 datos conflictivos

In [None]:
con_procesos_distintos = (df_postulantes['# Proceso'].notna()
                          & df_postulantes['Proceso'].notna()
                          & (df_postulantes['# Proceso'] != df_postulantes['Proceso']))

df_postulantes[con_procesos_distintos]

### 3.5.3 revisar datos extrannos

In [None]:
for col in ('# Proceso', 'Proceso'):
    display(df_postulantes[col].value_counts().sort_index().to_frame().T)

## 3.6 Columna `Edad`

### 3.6.1 Convertir a `Int64`

In [None]:
df_postulantes = df_postulantes.astype({'Edad': 'Int64'})

### 3.6.2 mostrar valores unicos

In [None]:
print(np.sort(df_postulantes['Edad'].unique()))

### 3.6.3 Dejar solo edades razonables

In [None]:
df_postulantes = (df_postulantes[(df_postulantes['Edad'] >= 18)
                  & (df_postulantes['Edad'] <= 70)])

## 3.7 Columna `Nombre`

### 3.7.1 Revisar si hay personas sin nombre

In [None]:
sin_nombre = df_postulantes["Nombre"].isnull()
df_postulantes[sin_nombre]

no parecen redundantes

## 3.8 Columna `Universidad` y `Universidad (old)`

### 3.8.1 Datos conflictivos

In [None]:
con_ues_distintas = (df_postulantes['Universidad'].notna()
                     & df_postulantes['Universidad (old)'].notna()
                     & (df_postulantes['Universidad'] != df_postulantes['Universidad (old)']))

display(df_postulantes[con_ues_distintas].sort_values("Universidad"))

### 3.8.2 Unir columnas

In [None]:
df_postulantes['Universidad'] = df_postulantes['Universidad (old)'].combine_first(df_postulantes['Universidad'])

df_postulantes = df_postulantes.drop(columns='Universidad (old)')

df_postulantes.head(1)

### 3.8.3 estandarizar nombres universidades

Para poder explorar mejor todas las entradas para universidad que hay en la database, exportamos a json

In [None]:
universidades = df_postulantes['Universidad'].sort_values().unique().tolist()

with open(Path('por mapear/universidades.json'), 'w', encoding='utf-8') as file:
    json.dump(universidades, file, ensure_ascii=False, indent=2)

In [None]:
universidades_estandarizadas = {
    "U. Arcis": "U. de Arte y Ciencias Sociales - ARCIS",
    "U. de Arte y Ciencias Sociales - ARCIS": "U. de Arte y Ciencias Sociales - ARCIS",
    "U. Tecnológica de Chile (INACAP)": "U. Tecnológica de Chile - INACAP",
    "U. Tecnológica de Chile - INACAP": "U. Tecnológica de Chile - INACAP",
    "U. de Ciencias de la Informática": "U. de Ciencias de la Informática - UCINF",
    "U. de Ciencias de la Informática - UCINF": "U. de Ciencias de la Informática - UCINF",
    "U. Metropolitana de Ciencias de la Educación": "U. Metropolitana de Ciencias de la Educación - UMCE",
    "U. Metropolitana de Ciencias de la Educación - UMCE": "U. Metropolitana de Ciencias de la Educación - UMCE",
    "U. UNIACC": "U. de Artes, Ciencias y Comunicación - UNIACC",
    "U. de Artes, Ciencias y Comunicación - UNIACC": "U. de Artes, Ciencias y Comunicación - UNIACC",
    "UNIACC": "U. de Artes, Ciencias y Comunicación - UNIACC",
    "U. Tecnológica Metropolitana": "U. Tecnológica Metropolitana - UTEM",
    "U. Tecnológica Metropolitana - UTEM": "U. Tecnológica Metropolitana - UTEM",
    "U. Tecnológica Metropolitana UTEM": "U. Tecnológica Metropolitana - UTEM",
    "Duoc UC": "Duoc UC",
    "DuocUC": "Duoc UC",
    "Escuela Moderna de Música": "Escuela Moderna de Música y Danza",
    "Escuela Moderna de Música y Danza": "Escuela Moderna de Música y Danza",
    "U. Austral": "U. Austral de Chile",
    "U. Austral de Chile": "U. Austral de Chile",
    "U. Central": "U. Central de Chile",
    "U. Central de Chile": "U. Central de Chile",
    "U. de Playa Ancha": "U. de Playa Ancha de Ciencias de la Educación",
    "U. de Playa Ancha de Ciencias de la Educación": "U. de Playa Ancha de Ciencias de la Educación",
    "U. de Santiago": "U. de Santiago de Chile",
    "U. de Santiago de Chile": "U. de Santiago de Chile",
    "U. Católica de La Santísima Concepción": "U. Católica de la Santísima Concepción",
    "U. Católica de la Santísima Concepción": "U. Católica de la Santísima Concepción",
    "U. de La Serena": "U. de La Serena",
    "U. de la Serena": "U. de La Serena",
    "U. de Las Américas": "U. de Las Américas",
    "U. de las Américas": "U. de Las Américas",
    "U. de Los Andes": "U. de Los Andes",
    "U. de los Andes": "U. de Los Andes",
    "U. de Los Lagos": "U. de Los Lagos",
    "U. de los Lagos": "U. de Los Lagos",
    "U. del Bío Bío": "U. del Bío-Bío",
    "U. del Bío-Bío": "U. del Bío-Bío",
    "U. de O' Higgins": "U. de O'Higgins",
    "U. de O'Higgins": "U. de O'Higgins",
    "U. Iberoamericana de Ciencias y Tecnología - UNICIT": "U. Iberoamericana de Ciencias y Tecnología - UNICIT",
    "U. Iberoamericana de Ciencias y Tecnología UNICIT": "U. Iberoamericana de Ciencias y Tecnología - UNICIT",
    "Otra": pd.NA,
    "Sin información": pd.NA
}

In [None]:
df_postulantes['Universidad'] = df_postulantes['Universidad'].replace(universidades_estandarizadas)

## 3.9 Columnas carreras


### 3.9.1 datos conflictivos

mostrar filas que tengan al menos 2 valores no-nulos en las columnas de carreras

In [None]:
with pd.option_context('display.max_colwidth', None):
    display(df_postulantes.dropna(thresh=2, subset=['Carrera',
                                              'Carrera.1',
                                              'Otra Carrera',
                                              'Otra carrera, ¿Cuál?']))

### 3.9.2 unir columnas `Carrera` y `Carrera.1`

se unen las columnas asumiendo que `Carrera.1`

In [None]:
df_postulantes['Carrera'] = df_postulantes['Carrera'].combine_first(df_postulantes['Carrera.1'])
df_postulantes = df_postulantes.drop(columns=['Carrera.1'])

df_postulantes.dropna(thresh=2, subset=['Carrera', 'Otra Carrera', 'Otra carrera, ¿Cuál?']).head(1)

### 3.9.3 reemplazar carreras no especificadas por las de las columnas "otra carrera"

In [None]:
df_copia = df_postulantes.copy()

In [None]:
df_postulantes = df_copia.copy()

In [None]:
set_otras = {'otro', 'otra', 'Otro', 'Otra'}
patron_otras = '|'.join(set_otras)

puso_otra = df_postulantes['Carrera'].str.contains(patron_otras, na=False)
df_postulantes[puso_otra]

seba: para estos casos podemos reemplazar la columna "carrera" por "otra" y "otra cual"

In [None]:
otra_carrera = df_postulantes['Otra Carrera'].fillna(df_postulantes['Otra carrera, ¿Cuál?'])

tiene_carrera = puso_otra & otra_carrera.notna()

df_postulantes.loc[tiene_carrera, 'Carrera'] = otra_carrera[tiene_carrera]
df_postulantes[puso_otra]

### 3.9.4 eliminar columnas "otra" y "otra cual"

In [None]:
df_postulantes = df_postulantes.drop(columns=['Otra Carrera'])
df_postulantes = df_postulantes.drop(columns=['Otra carrera, ¿Cuál?'])

In [None]:
df_postulantes.head()

### 3.9.5 estandarizar nombres carreras

In [None]:
#guardar carreras en json para facilitar lectura manual
carreras = df_postulantes['Carrera'].dropna().unique()
carreras.sort()     #seba: faltaba sort
carreras = carreras.tolist()

with open(Path('por mapear/carreras.json'), 'w', encoding='utf-8') as f:
    json.dump(carreras, f, ensure_ascii=False, indent=2)

Diccionario con carreras estandarizadas por ChatGpt

In [None]:
with open(ruta_mapeo_carreras, encoding='utf-8') as f:
    carreras_estandarizadas = json.load(f)

In [None]:
#mapear diccionario
df_postulantes['Carrera'] = df_postulantes['Carrera'].map(carreras_estandarizadas)

# 4. Cruce e Integración de Datos (Entrega 2)
**Objetivo:** Enriquecer el dataset de postulantes con datos de contexto del MINEDUC.


# 5. EDA
**Objetivo:** Entender la distribución de los datos, encontrar patrones, outliers y relaciones clave.

## 5.1 Caracterización histórica de postulantes y seleccionados
- Distribución por año
- Edad al postular
- Universidad y carrera
- Comparación entre seleccionados y no seleccionados

In [None]:
df_eda_general = df_postulantes.copy()
seleccionados = ((df_postulantes['Resumen Estado Postulación'] == 'Seleccionado')
                 & (df_postulantes['Estado de la Postulación'] == 'Acepta compromiso peCh'))
df_eda_seleccionados = df_postulantes[seleccionados]

df_eda_seleccionados.info()
df_eda_general.info()

### 5.1.1 Comparacion edad de postulantes vs seleccionados

In [None]:
df_sel_comp = df_eda_seleccionados[['Edad']].copy()
df_sel_comp['Grupo'] = 'Seleccionados'


df_gen_comp = df_eda_general[['Edad']].copy()
df_gen_comp['Grupo'] = 'Postulantes'


df_comparativo_edad = pd.concat([df_sel_comp, df_gen_comp])

df_comparativo_edad = df_comparativo_edad.dropna(subset=['Edad'])
df_comparativo_edad = df_comparativo_edad[
    (df_comparativo_edad['Edad'] > 18) & (df_comparativo_edad['Edad'] < 70)
]

plt.figure(figsize=(10, 6))
ax = sns.kdeplot(
    data=df_comparativo_edad,
    x='Edad',
    hue='Grupo',
    fill=True,
    alpha=0.5,
    common_norm=False
)

ax.set_title('Distribución de Edad: Postulantes vs. Seleccionados', fontsize=16)
ax.set_xlabel('Edad')
ax.set_ylabel('Densidad')
ax.set(xlim=(18, 70))
plt.show();

In [None]:
df_gen_temp = df_eda_general.rename(columns={'Año Pech': 'Año'})
df_gen_temp = df_gen_temp.dropna(subset=['Año', 'Edad'])
df_gen_temp['Año'] = df_gen_temp['Año'].astype(int)


df_sel_temp = df_eda_seleccionados.dropna(subset=['Año', 'Edad'])
df_sel_temp['Año'] = df_sel_temp['Año'].astype(int)


avg_age_sel = df_sel_temp.groupby('Año')['Edad'].mean().reset_index(name='Edad Media')
avg_age_sel['Grupo'] = 'Seleccionados'

avg_age_gen = df_gen_temp.groupby('Año')['Edad'].mean().reset_index(name='Edad Media')
avg_age_gen['Grupo'] = 'Postulantes'

df_comparativo_temporal = pd.concat([avg_age_sel, avg_age_gen])


plt.figure(figsize=(12, 6))
ax = sns.lineplot(
    data=df_comparativo_temporal,
    x='Año',
    y='Edad Media',
    hue='Grupo',
    style='Grupo',
    markers=True,
    linewidth=2.5
)

ax.set_title('Evolución de la Edad Media: Postulantes vs. Seleccionados', fontsize=16)
ax.set_xlabel('Año')
ax.set_ylabel('Edad Media')
ax.set(xlim=(2010, 2025))
plt.grid(True, linestyle='--', alpha=0.6)
plt.legend(title='Grupo')
plt.show();

Al observar ambos gráficos, se aprecia una clara tendencia al rejuvenecimiento en las edades tanto de los postulantes como de los seleccionados a lo largo de los años. En los últimos periodos, la edad media de los seleccionados se ha mantenido alrededor de cuatro años por debajo de la de los postulantes, lo que sugiere que los candidatos más jóvenes tienden a tener mayores probabilidades de ser seleccionados.

Esta diferencia constante plantea una interrogante relevante: ¿la edad actúa realmente como un factor determinante en el proceso de selección, o más bien el enfoque institucional hacia postulantes más jóvenes ha provocado una disminución en la participación de personas mayores?

### 5.1.2 Analisis de tendencias etarias en los procesos de seleccion

In [None]:
plt.figure(figsize=(10, 8))

sns.boxplot(data=df_eda_general,
            x='Edad',
            y='Resumen Estado Postulación')


plt.title('Distribución de Edad por Estado de Postulación', fontsize=16)
plt.xlabel('Edad', fontsize=12)
plt.ylabel('Estado de Postulación', fontsize=12)

plt.show()

In [None]:
conteo_universidades = df_eda_seleccionados['Universidad'].value_counts()

N = 20
universidades_top_N = conteo_universidades.head(N).index

df_top_N = df_eda_seleccionados[
    df_eda_seleccionados['Universidad'].isin(universidades_top_N)
]


plt.figure(figsize=(10, 8))


sns.boxplot(data=df_top_N,
            x='Edad',
            y='Universidad',
            order=universidades_top_N)

plt.title(f'Edad de Seleccionados por Top {N} Universidades', fontsize=16)
plt.xlabel('Edad', fontsize=12)
plt.ylabel('Universidad', fontsize=12)
plt.tight_layout()
plt.show()
plt.show()

Se puede observar de los gráficos que la mayoría de los postulantes se concentran entre los 30 y 40 años, este rango etario también predomina entre los seleccionados, lo que sugiere que se favorece a perfiles con cierta experiencia profesional.
Los postulantes mas jóvenes tienden ser quienes no completan su postulación o quedan fuera del proceso, mientras que el rango etario de mayores de 50 años participan en menor medida.
En cuanto a las universidades, se puede observar que los seleccionados de universidades privadas de la región metropolitana presentan edades mas bajas, mientras que los provenientes de universidades regionales o tradicionales presentan edades mayores, esto refleja diversidad etaria del grupo seleccionado.

### 5.1.3 Analisis de distribucion entre universidades, carrera y edad

In [None]:
N = 40

# Contamos cuántos seleccionados hay por carrera
conteo_carreras = df_eda_seleccionados['Carrera'].value_counts()

# Obtenemos la lista de las Top N carreras (sus nombres)
carreras_top_N = conteo_carreras.head(N).index

# Filtramos el DataFrame para quedarnos solo con las filas de esas Top N carreras
df_filtrado_topN = df_eda_seleccionados[
    df_eda_seleccionados['Carrera'].isin(carreras_top_N)
]
altura_figura = max(15, N * 0.45)

fig, ax = plt.subplots(1, 1, figsize=(12, altura_figura))

sns.boxplot(
    data=df_filtrado_topN,
    x='Edad',
    y='Carrera',
    order=carreras_top_N,
    ax=ax
)

ax.set_title(f'Distribución de Edad de las Top {N} Carreras (Seleccionados)', fontsize=16)
ax.set_xlabel('Edad', fontsize=12)
ax.set_ylabel('Carrera', fontsize=12)


plt.show()

In [None]:
N_universidades = 15
N_carreras = 30

conteo_universidades = df_eda_seleccionados['Universidad'].value_counts()
top_universidades = conteo_universidades.head(N_universidades).index


conteo_carreras = df_eda_seleccionados['Carrera'].value_counts()
top_carreras = conteo_carreras.head(N_carreras).index


df_filtrado_heatmap = df_eda_seleccionados[
    df_eda_seleccionados['Universidad'].isin(top_universidades) &
    df_eda_seleccionados['Carrera'].isin(top_carreras)
]

tabla_contingencia = pd.crosstab(
    df_filtrado_heatmap['Universidad'],
    df_filtrado_heatmap['Carrera']
)


fig, ax = plt.subplots(1, 1, figsize=(20, 10))

sns.heatmap(
    tabla_contingencia,
    annot=True,
    fmt='d',
    cmap='viridis',
    ax=ax
)


ax.set_title(f'Conteo de Seleccionados:\nTop {N_universidades} Universidades vs. Top {N_carreras} Carreras', fontsize=16)
ax.set_xlabel('Carrera', fontsize=12)
ax.set_ylabel('Universidad', fontsize=12)


plt.xticks(rotation=45, ha='right')
plt.yticks(rotation=0)

fig.tight_layout()
plt.show()

## 5.2 Tendencias en el tiempo (por universidad/carrera)
Para cumplir con los objetivos del proyecto, no basta con saber qué universidades o carreras tienen más seleccionados en total. Necesitamos entender la evolución y la consistencia de estas cifras (Objetivos 1 y 2). El reclutamiento es un proceso dinámico; las universidades que eran prioritarias hace una década podrían no serlo hoy.

Para analizar las tendencias, se generaron tres visualizaciones clave, cada una con un propósito específico. En todas ellas, se decidió filtrar por el "Top 10" (de universidades o carreras) como un equilibrio y para mayor legibilidad, dado que mostrar todas las categorías resultaría en un gráfico de indescifrable.

In [None]:
# @title
df_general_temporal = df_eda_general.rename(columns={'Año Pech': 'Año'})
df_general_temporal = df_general_temporal.dropna(subset=['Año'])
df_general_temporal['Año'] = df_general_temporal['Año'].astype(int)

df_seleccionados_temporal = df_eda_seleccionados.dropna(subset=['Año'])
df_seleccionados_temporal['Año'] = df_seleccionados_temporal['Año'].astype(int)

In [None]:
# @title


N_Ues = 10
top_universidades = df_seleccionados_temporal['Universidad'].value_counts().head(N_Ues).index


df_seleccionados_top_u = df_seleccionados_temporal[
    df_seleccionados_temporal['Universidad'].isin(top_universidades)
]


tendencia_por_universidad = df_seleccionados_top_u.groupby(
    ['Año', 'Universidad']
).size().reset_index(name='Cantidad Seleccionados')

plt.figure(figsize=(14, 8))
sns.lineplot(data=tendencia_por_universidad,
             x='Año',
             y='Cantidad Seleccionados',
             hue='Universidad',
             style='Universidad',
             markers=True,
             linewidth=2)

plt.title(f'Tendencia de Seleccionados por Año (Top {N_Ues} Universidades)', fontsize=16)
plt.xlabel('Año', fontsize=12)
plt.ylabel('Cantidad de Seleccionados', fontsize=12)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, linestyle='--', alpha=0.6)
plt.tight_layout()
plt.show();

Este gráfico muestra el conteo absoluto de seleccionados provenientes de las 10 universidades con más seleccionados históricos.

Resultados y Conclusiones Preliminares:

- Es evidente que la Pontificia U. Católica de Chile (línea azul sólida) y la U. de Chile (línea verde punteada) dominan en términos de volumen de seleccionados, superandoa las demás.

- Las cifras no son estables. Se observa un peak extremo para la PUC alrededor de 2021. Esto genera la pregunta:
  1. ¿Qué ocurrió ese año?
  2. ¿Se llevo a cabo una campaña de  reclutamiento diferente?
  3. ¿Fue un efecto de la pandemia?

- Casi todas las universidades muestran una fuerte caída en el número de seleccionados después de 2021-2022. Esto debe investigarse.
  1. ¿Es un reflejo de datos incompletos?
  2. ¿Es una señal de una crisis en el reclutamiento de Enseña Chile?

In [None]:
# @title
df_pivot_u = tendencia_por_universidad.pivot_table(
    index='Universidad',
    columns='Año',
    values='Cantidad Seleccionados'
).fillna(0)

df_pivot_u_norm = df_pivot_u.apply(lambda x: x / x.sum(), axis=0)


plt.figure(figsize=(15, 8))
sns.heatmap(df_pivot_u_norm,
            annot=True,
            fmt='.1%',
            cmap='viridis',
            linewidths=.5)

plt.title(f'% de Seleccionados por Año y Universidad (Top {N_Ues})', fontsize=16)
plt.xlabel('Año', fontsize=12)
plt.ylabel('Universidad', fontsize=12)
plt.show();

Este grafico muestra qué porcentaje del total de seleccionados de un año específico aportó cada una de las Top 10 universidades.

Resultados y Conclusiones Preliminares:

Este gráfico responde directamente a la Pregunta 5. Confirma que la concentración en la PUC y U. de Chile es real. En la mayoría de los años, estas dos instituciones suman entre el 40% y el 60% de todos los seleccionados  Esto sugiere un fuerte sesgo histórico hacia estas instituciones.

La U. de Concepción y PUCV muestran una participación proporcional consistente (8%-15%) del total anual. Esto las posiciona como objetivos de reclutamiento fiables.

In [None]:
# @title
N_Carreras = 10
top_carreras = df_seleccionados_temporal['Carrera'].value_counts().head(N_Carreras).index

df_seleccionados_top_c = df_seleccionados_temporal[
    df_seleccionados_temporal['Carrera'].isin(top_carreras)
]

tendencia_por_carrera = df_seleccionados_top_c.groupby(
    ['Año', 'Carrera']
).size().reset_index(name='Cantidad Seleccionados')

plt.figure(figsize=(14, 8))
sns.lineplot(data=tendencia_por_carrera,
             x='Año',
             y='Cantidad Seleccionados',
             hue='Carrera',
             style='Carrera',
             markers=True,
             linewidth=2)

plt.title(f'Tendencia de Seleccionados por Año (Top {N_Carreras} Carreras)', fontsize=16)
plt.xlabel('Año', fontsize=12)
plt.ylabel('Cantidad de Seleccionados', fontsize=12)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, linestyle='--', alpha=0.6)
plt.tight_layout()
plt.show();

El grafico muestra el número de seleccionados provenientes de las 10 carreras más frecuentes en la historia del programa.

Resultados y Conclusiones Preliminares:

- El hallazgo más importante es la dominancia de dos carreras: Ingenieria Civil (línea roja punteada) e Ingeniería Comercial (línea azul). Históricamente, estas dos carreras son las que mas aportan a los seleccionados.

- Esto impacta directamente el Objetivo 3 (identificar carreras prioritarias). Estas dos son, por volumen, las más importantes.

- Este gráfico genera preguntas interesantes para Enseña Chile:

  1. ¿Por qué estas dos carreras? ¿Son el foco principal de las campañas de reclutamiento? ¿O son las que calzan con el perfil de reclutamiento?

  2. ¿Por qué carreras aparentemente más alineadas con la misión como las Pedagogías tienen números tan bajos?

  3. ¿Desea la fundación diversificar este perfil?

# 6. Estimación de Candidatos Idóneos (Entrega 2)

## 6.1 Definición del perfil idóneo
Perfil idóneo:

A. Características generales:

1. Profesionales con edad máxima 30 años (deseable, no excluyente)

2. Posibilidad de impartir matemáticas o lenguaje.

B. Competencias:

1. Experiencias de liderazgo.

2. Alineación a la visión de Enseña Chile.

3. Apertura al feedback.

4. Relaciones interpersonales.

## 6.2 Estimar cuántos candidatos idóneos hay por universidad-carrera

# 7. Categorización de Universidades y Carreras (Entrega 2)

## 7.1 Definir criterios
- Proporción de seleccionados
- Número estimado de candidatos idóneos
- Alineación histórica al perfil exitoso

## 7.2 Crear categorías: Alta, Media, Baja prioridad

## 7.3 Visualización final de categorías

#8. Modelado Predictivo (Entrega 2)

## 8.1 Objetivo: predecir la probabilidad de selección

X: edad, universidad, carrera, experiencia, etc.

y: seleccionado (sí/no)

## 8.2 Modelos posibles
- Logistic Regression
- Random Forest
- Árboles de decisión

## 8.3 Evaluación y métricas