In [1]:
import pandas as pd

# Diccionario con los años y los IDs de los archivos en Google Drive.
archivos_demre = {
    2020: '1OqSyomh5-kQSeyhLZXfva4WTPINYHgsj',
    2021: '1eNO3lge5flk_K7dviaJxLKjmF9EHQ9Np',
    2022: '1g14GDc-M514I5v5ZsvF96HVba6DW1z0q',
    2023: '1lV6AJqJd8-_iFuak8o_j2jK5mQDnUbRR',
    2024: '1aAlikLl_8YRwGX4B2Kxfc6aza4vmHknE',
    2025: '1VnfLntwHjBfKmlzI9BE8sW49c8hNl_D0' # <-- NUEVO AÑO AGREGADO
}

lista_de_dataframes = []

print("Iniciando proceso de unificación...")

# Usamos un bucle para recorrer cada año y cada ID en nuestro diccionario.
for anio, file_id in archivos_demre.items():
    try:
        # Construimos la URL de descarga para el archivo actual
        url = f'https://drive.google.com/uc?export=download&id={file_id}'

        # Leemos el CSV desde la URL
        print(f"-> Cargando datos del año {anio}...")
        df_temporal = pd.read_csv(url, sep=';')

        # ¡Este es el paso clave! Creamos una nueva columna con el año.
        df_temporal['anio_proceso'] = anio

        # Agregamos el DataFrame de este año a nuestra lista.
        lista_de_dataframes.append(df_temporal)
        print(f"   ...Datos del año {anio} cargados con éxito.")

    except Exception as e:
        print(f"   !!! Error al cargar el año {anio}: {e}")


Iniciando proceso de unificación...
-> Cargando datos del año 2020...
   ...Datos del año 2020 cargados con éxito.
-> Cargando datos del año 2021...
   ...Datos del año 2021 cargados con éxito.
-> Cargando datos del año 2022...
   ...Datos del año 2022 cargados con éxito.
-> Cargando datos del año 2023...
   ...Datos del año 2023 cargados con éxito.
-> Cargando datos del año 2024...


  df_temporal = pd.read_csv(url, sep=';')


   ...Datos del año 2024 cargados con éxito.
-> Cargando datos del año 2025...
   ...Datos del año 2025 cargados con éxito.


  df_temporal = pd.read_csv(url, sep=';')


# EDA desde 2020 hasta 2025

In [11]:
print('Año  |  Cantidad de columnas')
for df in lista_de_dataframes:
    print(f'{df['anio_proceso'][0]} |          {len(df.columns)}')

Año  |  Cantidad de columnas
2020 |          27
2021 |          27
2022 |          27
2023 |          29
2024 |          36
2025 |          37


## Sabemos que desde 2022 se comenzó a hacer una prueba de invierno, por esto han aumentado respecto a años anteriores la cantidad de datos en los csv, esto nos da la necesidad de normalizar las columnas para quedarnos con un mismo nombre en cada DataFrame. 

In [3]:
print(lista_de_dataframes[0].columns)
print(lista_de_dataframes[1].columns)
print(lista_de_dataframes[2].columns)

Index(['ID_aux', 'RBD', 'COD_ENS', 'GRUPO_DEPENDENCIA', 'RAMA_EDUCACIONAL',
       'SITUACION_EGRESO', 'CODIGO_REGION', 'CODIGO_COMUNA', 'PROMEDIO_NOTAS',
       'PORC_SUP_NOTAS', 'PTJE_NEM', 'PTJE_RANKING', 'LENG_ACTUAL',
       'MATE_ACTUAL', 'HCSO_ACTUAL', 'CIEN_ACTUAL', 'MODULO_ACTUAL',
       'PROMEDIO_LM_ACTUAL', 'PERCENTIL_LM_ACTUAL', 'LENG_ANTERIOR',
       'MATE_ANTERIOR', 'HCSO_ANTERIOR', 'CIEN_ANTERIOR', 'MODULO_ANTERIOR',
       'PROMEDIO_LM_ANTERIOR', 'PERCENTIL_LM_ANTERIOR', 'anio_proceso'],
      dtype='object')
Index(['ID_aux', 'RBD', 'COD_ENS', 'GRUPO_DEPENDENCIA', 'RAMA_EDUCACIONAL',
       'SITUACION_EGRESO', 'CODIGO_REGION', 'CODIGO_COMUNA', 'PROMEDIO_NOTAS',
       'PORC_SUP_NOTAS', 'PTJE_NEM', 'PTJE_RANKING', 'CLEC_ACTUAL',
       'MATE_ACTUAL', 'HCSO_ACTUAL', 'CIEN_ACTUAL', 'MODULO_ACTUAL',
       'PROMEDIO_CM_ACTUAL', 'PERCENTIL_CM_ACTUAL', 'LENG_ANTERIOR',
       'MATE_ANTERIOR', 'HCSO_ANTERIOR', 'CIEN_ANTERIOR', 'MODULO_ANTERIOR',
       'PROMEDIO_LM_ANTERIOR'

In [4]:
print(lista_de_dataframes[3].columns)
print(lista_de_dataframes[4].columns)
print(lista_de_dataframes[5].columns)

Index(['ID_aux', 'RBD', 'COD_ENS', 'GRUPO_DEPENDENCIA', 'RAMA_EDUCACIONAL',
       'SITUACION_EGRESO', 'CODIGO_REGION', 'CODIGO_COMUNA', 'PROMEDIO_NOTAS',
       'PORC_SUP_NOTAS', 'PTJE_NEM', 'PTJE_RANKING', 'CLEC_REG_ACTUAL',
       'MATE1_REG_ACTUAL', 'MATE2_REG_ACTUAL', 'HCSOC_REG_ACTUAL',
       'CIEN_REG_ACTUAL', 'MODULO_REG_ACTUAL', 'CLEC_INV_ACTUAL',
       'MATE_INV_ACTUAL', 'HCSOC_INV_ACTUAL', 'CIEN_INV_ACTUAL',
       'MODULO_INV_ACTUAL', 'CLEC_REG_ANTERIOR', 'MATE1_REG_ANTERIOR',
       'HCSOC_REG_ANTERIOR', 'CIEN_REG_ANTERIOR', 'MODULO_REG_ANTERIOR',
       'anio_proceso'],
      dtype='object')
Index(['ID_aux', 'RBD', 'COD_ENS', 'GRUPO_DEPENDENCIA', 'RAMA_EDUCACIONAL',
       'SITUACION_EGRESO', 'CODIGO_REGION', 'CODIGO_COMUNA', 'PROMEDIO_NOTAS',
       'PORC_SUP_NOTAS', 'PTJE_NEM', 'PTJE_RANKING', 'CLEC_REG_ACTUAL',
       'MATE1_REG_ACTUAL', 'MATE2_REG_ACTUAL', 'HCSOC_REG_ACTUAL',
       'CIEN_REG_ACTUAL', 'MODULO_REG_ACTUAL', 'CLEC_INV_ACTUAL',
       'MATE1_INV_ACTUAL'

## Viendo las columnas hemos decidido enfocarnos en los datos de las pruebas que se han rendido en verano, esto porque la implementación de la prueba en invierno es reciente (En el año 2022 fue rendida la primera prueba de invierno), por esto contamos con menos datos para trabajar y eso nos hace más difícil hacer conclusiones respecto a estos.

- Haremos una función que reciba un DataFrame y modifique los nombres de sus columnas, esto porque la prueba a cambiado de formato a lo largo de los años, dando la necesidad de modificar y normalizar sus columnas, evitando tener muchas columnas con nombres distintos, además estaremos quedándonos solo con datos de la última rendición de cada persona en verano.

In [5]:
def normalizar_nombres_y_filtrar(df):
    df_limpio = df.copy()
    mapa_renombre = {
        'ID_aux': 'id_estudiante',
        'RBD': 'id_colegio_rbd',
        'GRUPO_DEPENDENCIA': 'dependencia_colegio',
        'RAMA_EDUCACIONAL': 'rama_educacional',
        'SITUACION_EGRESO': 'situacion_egreso',
        'CODIGO_REGION': 'cod_region',
        'CODIGO_COMUNA': 'cod_comuna',
        'PROMEDIO_NOTAS': 'promedio_notas',
        'PTJE_NEM': 'puntaje_nem',
        'PTJE_RANKING': 'puntaje_ranking',
        'LENG_ACTUAL': 'puntaje_lectora',
        'CLEC_ACTUAL': 'puntaje_lectora',
        'CLEC_REG_ACTUAL': 'puntaje_lectora',

        'MATE_ACTUAL': 'puntaje_m1',
        'MATE1_REG_ACTUAL': 'puntaje_m1',

        'MATE2_REG_ACTUAL': 'puntaje_m2',

        'HCSO_ACTUAL': 'puntaje_historia',
        'HCSOC_REG_ACTUAL': 'puntaje_historia',

        'CIEN_ACTUAL': 'puntaje_ciencias',
        'CIEN_REG_ACTUAL': 'puntaje_ciencias',
        'MODULO_ACTUAL': 'tipo_ciencia',
        'MODULO_REG_ACTUAL': 'tipo_ciencia'
    }

    # Aplicamos el nuevo nombre de las columnas
    df_limpio.rename(columns=mapa_renombre, inplace=True)

    # Filtramos solo por las columnas que usaremos
    columnas_finales = [
        'id_estudiante', 'id_colegio_rbd', 'anio_proceso', 'dependencia_colegio', 'situacion_egreso','rama_educacional',
        'cod_region', 'cod_comuna', 'promedio_notas', 'puntaje_nem', 'puntaje_ranking',
        'puntaje_lectora', 'puntaje_m1', 'puntaje_m2', 'puntaje_historia', 'puntaje_ciencias', 'tipo_ciencia'
    ]

    # Filtramos para retornar solo las columnas que estén, existen años en los que no existía la M2 y esto nos ayuda a evitar errores.
    columnas_existentes_en_df = [col for col in columnas_finales if col in df_limpio.columns]
    
    return df_limpio[columnas_existentes_en_df]

In [6]:
lista_final = []
for df in lista_de_dataframes:
    # Aplica la función de limpieza
    df_limpio = normalizar_nombres_y_filtrar(df)
    lista_final.append(df_limpio)

df_final = pd.concat(lista_final, ignore_index=True)

df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1696546 entries, 0 to 1696545
Data columns (total 17 columns):
 #   Column               Dtype  
---  ------               -----  
 0   id_estudiante        object 
 1   id_colegio_rbd       float64
 2   anio_proceso         int64  
 3   dependencia_colegio  float64
 4   situacion_egreso     int64  
 5   rama_educacional     object 
 6   cod_region           float64
 7   cod_comuna           float64
 8   promedio_notas       object 
 9   puntaje_nem          int64  
 10  puntaje_ranking      int64  
 11  puntaje_lectora      float64
 12  puntaje_m1           float64
 13  puntaje_historia     float64
 14  puntaje_ciencias     float64
 15  tipo_ciencia         object 
 16  puntaje_m2           float64
dtypes: float64(9), int64(4), object(4)
memory usage: 220.0+ MB


In [7]:
import numpy as np

# Reemplazamos las comas por . para pasar a float.
df_final['promedio_notas'] = df_final['promedio_notas'].str.replace(',', '.').astype(float).replace(0.0, np.nan)
df_final['puntaje_nem'] = df_final['puntaje_nem'].replace(0, np.nan)
df_final['puntaje_ranking'] = df_final['puntaje_ranking'].replace(0, np.nan)
# Cambiamos a tipo category las columnas que tienen pocos datos unicos, esto para reducir el espacio que usan en el DataFrame.
df_final['anio_proceso'] = df_final['anio_proceso'].astype('category')
df_final['tipo_ciencia'] = df_final['tipo_ciencia'].astype('category')
df_final['rama_educacional'] = df_final['rama_educacional'].astype('category')
df_final['cod_region'] = df_final['cod_region'].astype('category')
df_final['cod_comuna'] = df_final['cod_comuna'].astype('category')
df_final['situacion_egreso'] = df_final['situacion_egreso'].astype('category')
df_final['dependencia_colegio'] = df_final['dependencia_colegio'].astype('category')
df_final['id_colegio_rbd'] = df_final['id_colegio_rbd'].astype('category')

# Pasamos a int los datos que estaban como float.
df_final['puntaje_lectora'] = df_final['puntaje_lectora'].replace(0, np.nan).astype('Int64')
df_final['puntaje_m1'] = df_final['puntaje_m1'].replace(0, np.nan).astype('Int64')
df_final['puntaje_historia'] = df_final['puntaje_historia'].replace(0, np.nan).astype('Int64')
df_final['puntaje_ciencias'] = df_final['puntaje_ciencias'].replace(0, np.nan).astype('Int64')
df_final['puntaje_m2'] = df_final['puntaje_m2'].replace(0, np.nan).astype('Int64')

## Con el DataFrame creado a partir de datos de la prueba en verano podemos ver que se redujo el espacio que pesaba el DataFrame. También podemos ver que entre el año 2020 y el año 2025 tenemos 1696546 personas que han rendido la prueba de admisión a la educación superior.

In [8]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1696546 entries, 0 to 1696545
Data columns (total 17 columns):
 #   Column               Dtype   
---  ------               -----   
 0   id_estudiante        object  
 1   id_colegio_rbd       category
 2   anio_proceso         category
 3   dependencia_colegio  category
 4   situacion_egreso     category
 5   rama_educacional     category
 6   cod_region           category
 7   cod_comuna           category
 8   promedio_notas       float64 
 9   puntaje_nem          float64 
 10  puntaje_ranking      float64 
 11  puntaje_lectora      Int64   
 12  puntaje_m1           Int64   
 13  puntaje_historia     Int64   
 14  puntaje_ciencias     Int64   
 15  tipo_ciencia         category
 16  puntaje_m2           Int64   
dtypes: Int64(5), category(8), float64(3), object(1)
memory usage: 140.9+ MB


## Ya con los datos listos podemos ver las estadísticas y notar que hacen sentido.

In [9]:
df_final.describe()

Unnamed: 0,promedio_notas,puntaje_nem,puntaje_ranking,puntaje_lectora,puntaje_m1,puntaje_historia,puntaje_ciencias,puntaje_m2
count,1677528.0,1677528.0,1677528.0,1437591.0,1416895.0,847374.0,952933.0,330787.0
mean,5.886735,645.4189,664.387,556.931156,549.796655,520.016175,497.320588,421.391859
std,0.5172924,144.5955,157.6991,131.09143,136.303264,125.014217,109.18669,107.952836
min,4.0,100.0,100.0,100.0,100.0,100.0,100.0,100.0
25%,5.5,536.0,541.0,466.0,464.0,424.0,419.0,351.0
50%,5.88,637.0,655.0,551.0,529.0,505.0,488.0,399.0
75%,6.28,750.0,782.0,647.0,616.0,599.0,566.0,459.0
max,7.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0


In [10]:
df_final

Unnamed: 0,id_estudiante,id_colegio_rbd,anio_proceso,dependencia_colegio,situacion_egreso,rama_educacional,cod_region,cod_comuna,promedio_notas,puntaje_nem,puntaje_ranking,puntaje_lectora,puntaje_m1,puntaje_historia,puntaje_ciencias,tipo_ciencia,puntaje_m2
0,id_.9+85.97e+83,5219.0,2020,3.0,1,T2,9.0,9201.0,4.83,372.0,372.0,,,372,,,
1,id_0000900070019,22388.0,2020,2.0,5,H2,14.0,14101.0,6.33,694.0,731.0,629,542,,637,BIO,
2,id_0000900070043,22374.0,2020,2.0,5,H2,14.0,14101.0,5.45,510.0,542.0,385,448,542,451,BIO,
3,id_0000900270075,12696.0,2020,2.0,1,T2,15.0,15101.0,4.98,405.0,405.0,304,444,444,,,
4,id_0000900470040,24900.0,2020,3.0,1,H2,13.0,13301.0,5.45,510.0,547.0,,,547,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1696541,id_5995599440825,9986.0,2025,3.0,1,T1,13.0,13126.0,,,,,,,,,
1696542,id_4895488246247,,2025,,4,H4,,,,,,605,700,542,502,BIO,
1696543,id_9866988747313,9140.0,2025,2.0,5,H1,13.0,13122.0,6.28,793.0,856.0,746,589,,665,BIO,362
1696544,id_5866598447255,2733.0,2025,3.0,5,H1,7.0,7301.0,5.68,622.0,631.0,,,,,,
