**CRUCES ENTRE SABER11 y SABER PRO**

Saber Pro contienen un identificador único por estudiante (“estu_consecutivo”)
para cada uno de los exámenes que, luego de aplicar un algoritmo de
emparejamiento, permite identificar los estudiantes que presentaron el examen:
1. Saber 11° entre 2010-1 y 2021-2,
2. Saber Pro, entre 2012 y 2023-1
3. Saber TyT entre la primera aplicación de 2016 y 2023-1.

El algoritmo de emparejamiento utiliza seis criterios en los que se hace uso de
llaves creadas a partir de la información de nombres y apellidos completos,
documento de identidad y fecha de nacimiento de los estudiantes. Además, en
caso de que el tipo y número del documento de identidad difieran entre los
exámenes, se utiliza información de la Registraduría Nacional del Estado Civil para
identificar al estudiante en ambos exámenes.

----

**SOBRE SABER 11**: *Tomamos muestra desde 2012-2*

**Modificacion:**
Con el objetivo de consolidar un Sistema Nacional de Evaluación Estandarizada 
(SNEE) que consiga la alineación de todos los exámenes que lo conforman, la 
estructura del examen Saber 11 fue modificada **a partir del segundo semestre de 2014**
para que sus resultados fueran comparables, en términos de las competencias 
evaluadas, con los de otras pruebas del SNEE como las pruebas Saber 3°, 5° y 9° y el 
examen Saber Pro (Icfes, 2013). Esto llevó a una nueva estructura del examen para 
evaluar las pruebas genéricas: matemáticas, lectura crítica, ciencias naturales, 
sociales y ciudadanas e inglés.



**Periodos recalificados:**

En el marco de la Resolución 503 de 2014 del Icfes, bajo la cual se definieron la 
clasificación de planteles y la estructura del examen Saber 11 vigentes, se planteó la 
necesidad de recalificar los resultados de los estudiantes en algunos de los periodos que 
preceden al cambio en la estructura del examen, ocurrido en el segundo semestre 
de 2014, con el fin de tener resultados comparables y cumplir de esta manera con los 
requerimientos técnicos de la metodología de clasificación vigente. 
Esta metodología requiere de resultados comparables de los estudiantes, en los 
últimos tres años, de cada establecimiento educativo y sus sedes. Debido a la adopción 
de la nueva estructura del examen Saber 11 y con el fin de presentar los resultados de 
la clasificación de planteles vigente desde el segundo semestre del 2014, **se realizó un 
proceso de recalificación de los puntajes de los estudiantes que tomaron el examen en 
el segundo semestre de 2012 y 2013 con el fin de hacerlos comparables a la 
estructura vigente y contar con los tres años de resultados para cada plantel 
educativo**

Con el fin de publicar los resultados de la clasificación de planteles cada semestre, 
como quedó establecido en la Resolución 503 de 2014, la recalificación de los puntajes 
de los estudiantes se hizo también para el **primer semestre del 2013 y 2014** para 
calcular la clasificación de planteles del primer semestre de 2015

----

**SOBRE SABER PRO**: *Tomamos muestra del 2016 en adelante*

Los estudiantes que actualmente toman el examen de Saber Pro son evaluados en 
competencias específicas de acuerdo al grupo de referencia al que pertenece el programa y de 
acuerdo a lo que consideren los directores de programas cuando escogen la combinatoria de 
módulos más acordes a su malla curricular. A pesar de que se evalúan las mismas 
competencias específicas que en el periodo anterior, **a partir del 2016 se produjeron cambios 
en el diseño de los módulos y en la calificación de las mismas que imposibilitan la 
comparación entre años del periodo anterior con el actual**. Los resultados de los módulos de 
competencias específicas para este periodo resultaron en una nueva escala con año base en 
2016.


-----

In [3]:
import pandas as pd
import numpy as np
import os
import glob

import constants

In [2]:
#Directorios con la datos del saber 11

#Datos antes del 20142 
data_dir_sb11_before20142 = "../data/SABER11_raw/ANTES20142/"
#Datos despues del 20142 (inclusive)
data_dir_sb11_after20142 = "../data/SABER11_raw/DESPUES20142/"

csv_files_before20142 = glob.glob(os.path.join(data_dir_sb11_before20142, "*.txt"))
csv_files_after20142 = glob.glob(os.path.join(data_dir_sb11_after20142, "*.txt"))

In [9]:
#csv con las llaves para cruzar el saber pro con saber 11
llaves = pd.read_csv("../data/LLAVES/Llave_Saber11_SaberPro.txt", sep=";")
llaves.head()

Unnamed: 0,estu_consecutivo_sbpro,estu_consecutivo_sb11
0,EK201210000628,SB11201020119179
1,EK201210001522,SB11201020119180
2,EK201210001647,SB11201020110588
3,EK201210001663,SB11201020116060
4,EK201210003701,SB11201020120759


In [3]:
#Constantes
data_dir_sb11 = "../data/SABER11_raw/"

cod_mcpio_BOGOTA = 11001

cols_before_20142 = [
    "periodo",
    "estu_consecutivo",
    "cole_cod_depto_ubicacion",
    "cole_cod_mcpio_ubicacion",
    "cole_depto_ubicacion",
    "recaf_punt_sociales_ciudadanas",
    "recaf_punt_ingles",
    "recaf_punt_lectura_critica",
    "recaf_punt_matematicas",
    "recaf_punt_c_naturales"
]

cols_after_20142 = [
    "periodo",
    "estu_consecutivo",
    "cole_cod_depto_ubicacion",
    "cole_cod_mcpio_ubicacion",
    "cole_depto_ubicacion",
    "punt_global",
    "punt_sociales_ciudadanas",
    "punt_ingles",
    "punt_lectura_critica",
    "punt_matematicas",
    "punt_c_naturales"
]


In [4]:
data_list = []

for file_path in csv_files_before20142:
    try:
        data_temp = pd.read_csv(file_path, sep=";", usecols=cols_before_20142, low_memory=False)        
        data_list.append(data_temp)
        
    except Exception as err:
        print(f"Error reading {file_path}: {err}")

for file_path in csv_files_after20142:
    try:
        data_temp = pd.read_csv(file_path, sep=";", usecols=cols_after_20142, low_memory=False)        
        data_list.append(data_temp)
        
    except Exception as err:
        print(f"Error reading {file_path}: {err}")
        
        
# Concatenate all at once (faster and more memory-efficient)
sb11 = pd.concat(data_list, ignore_index=True)
sb11["cole_cod_mcpio_ubicacion"] = sb11["cole_cod_mcpio_ubicacion"].astype("Int64")

del data_list
del data_temp

In [5]:
del data_list
sb11 = sb11[sb11["cole_cod_mcpio_ubicacion"] == cod_mcpio_BOGOTA]
sb11.head()

Unnamed: 0,periodo,estu_consecutivo,cole_cod_depto_ubicacion,cole_cod_mcpio_ubicacion,cole_depto_ubicacion,recaf_punt_c_naturales,recaf_punt_ingles,recaf_punt_lectura_critica,recaf_punt_matematicas,recaf_punt_sociales_ciudadanas,punt_c_naturales,punt_global,punt_ingles,punt_lectura_critica,punt_matematicas,punt_sociales_ciudadanas
5,20131,SB11201310074970,11.0,11001,BOGOTA,41.0,46.0,47.0,49.0,45.0,,,,,,
6,20131,SB11201310021868,11.0,11001,BOGOTA,46.0,40.0,51.0,53.0,44.0,,,,,,
19,20131,SB11201310066783,11.0,11001,BOGOTA,43.0,58.0,53.0,43.0,49.0,,,,,,
25,20131,SB11201310038449,11.0,11001,BOGOTA,50.0,40.0,43.0,40.0,40.0,,,,,,
26,20131,SB11201310038130,11.0,11001,BOGOTA,34.0,45.0,43.0,47.0,49.0,,,,,,


In [6]:
sb11.isna().sum()

periodo                                0
estu_consecutivo                       0
cole_cod_depto_ubicacion               0
cole_cod_mcpio_ubicacion               0
cole_depto_ubicacion                   0
recaf_punt_c_naturales            981409
recaf_punt_ingles                 981409
recaf_punt_lectura_critica        981409
recaf_punt_matematicas            981409
recaf_punt_sociales_ciudadanas    981409
punt_c_naturales                  200379
punt_global                       200379
punt_ingles                       203769
punt_lectura_critica              200379
punt_matematicas                  200379
punt_sociales_ciudadanas          200379
dtype: int64

In [8]:
sb11.groupby("periodo").count().estu_consecutivo

periodo
20122    94059
20131     7515
20132    92559
20141     6246
20142    92808
20151     6883
20152    90645
20161     5214
20162    91138
20171     4923
20172    89514
20181     4979
20182    88514
20191     5150
20192    84293
20201     3610
20202    78367
20211     3278
20212    80333
20221     4888
20222    78181
20231     4971
20232    79596
20241     4739
20242    79385
Name: estu_consecutivo, dtype: int64

In [17]:
#Agregamos las columnas de las llaves al dataframe del saber 11 
base_sb11 = pd.merge(
    sb11,
    llaves,
    how = "left",
    left_on = "estu_consecutivo",
    right_on = "estu_consecutivo_sb11")

del sb11
del llaves

In [22]:
base_sb11.sort_values(by = "periodo", inplace = True)
base_sb11.set_index("estu_consecutivo",inplace=True)

In [23]:
base_sb11.to_csv("../data/SABER11_cleaned/base_sb11.csv")

-----

SABER PRO

In [80]:
cod_mcpio_BOGOTA = 11001
sbpro = pd.read_csv("../data/SABERPRO_cleaned/base_sbpro.csv")
sbpro = sbpro[sbpro["estu_cod_mcpio_presentacion"] == cod_mcpio_BOGOTA]

In [49]:
sbpro.periodo.count()

118444

In [50]:
num_duplicates = sbpro['estu_consecutivo'].duplicated().sum()
num_obs = sbpro.periodo.count()
print("Obs:")
print(num_obs)

print("Sampled duplicates:")
print(num_duplicates)

print("unique:")
print(num_obs-num_duplicates)



Obs:
118444
Sampled duplicates:
0
unique:
118444


------

MERGE SABER PRO con SABER 11

In [76]:
sb11 = pd.read_csv("../data/SABER11_cleaned/base_sb11.csv")

  sb11 = pd.read_csv("../data/SABER11_cleaned/base_sb11.csv")


In [77]:
sb11.drop(columns="Unnamed: 0",axis=1,inplace=True)

In [84]:
num_duplicates = sb11['estu_consecutivo'].duplicated().sum()

In [88]:
data = pd.merge(sb11,sbpro, left_on = "estu_consecutivo_sbpro", right_on = "estu_consecutivo", suffixes= ("_icfes","_pro"))

In [92]:
data["dif_periodo"] = data["periodo_pro"]- data["periodo_icfes"]

In [96]:
data[data["dif_periodo"]==19][['periodo_pro',"periodo_icfes","dif_periodo"]]

Unnamed: 0,periodo_pro,periodo_icfes,dif_periodo
31950,20231,20212,19
31951,20231,20212,19
31952,20231,20212,19
31953,20231,20212,19
31954,20231,20212,19
31955,20231,20212,19


In [100]:
data.to_csv("../data/BD/bd.csv")