**CRUCES ENTRE SABER11 y SABER PRO**

Saber Pro contienen un identificador único por estudiante (“estu_consecutivo”)
para cada uno de los exámenes que, luego de aplicar un algoritmo de
emparejamiento, permite identificar los estudiantes que presentaron el examen:
1. Saber 11° entre 2010-1 y 2021-2,
2. Saber Pro, entre 2012 y 2023-1
3. Saber TyT entre la primera aplicación de 2016 y 2023-1.

El algoritmo de emparejamiento utiliza seis criterios en los que se hace uso de
llaves creadas a partir de la información de nombres y apellidos completos,
documento de identidad y fecha de nacimiento de los estudiantes. Además, en
caso de que el tipo y número del documento de identidad difieran entre los
exámenes, se utiliza información de la Registraduría Nacional del Estado Civil para
identificar al estudiante en ambos exámenes.

----

**SOBRE SABER 11**: *Tomamos muestra desde 2012-2*

**Modificacion:**
Con el objetivo de consolidar un Sistema Nacional de Evaluación Estandarizada 
(SNEE) que consiga la alineación de todos los exámenes que lo conforman, la 
estructura del examen Saber 11 fue modificada **a partir del segundo semestre de 2014**
para que sus resultados fueran comparables, en términos de las competencias 
evaluadas, con los de otras pruebas del SNEE como las pruebas Saber 3°, 5° y 9° y el 
examen Saber Pro (Icfes, 2013). Esto llevó a una nueva estructura del examen para 
evaluar las pruebas genéricas: matemáticas, lectura crítica, ciencias naturales, 
sociales y ciudadanas e inglés.



**Periodos recalificados:**

En el marco de la Resolución 503 de 2014 del Icfes, bajo la cual se definieron la 
clasificación de planteles y la estructura del examen Saber 11 vigentes, se planteó la 
necesidad de recalificar los resultados de los estudiantes en algunos de los periodos que 
preceden al cambio en la estructura del examen, ocurrido en el segundo semestre 
de 2014, con el fin de tener resultados comparables y cumplir de esta manera con los 
requerimientos técnicos de la metodología de clasificación vigente. 
Esta metodología requiere de resultados comparables de los estudiantes, en los 
últimos tres años, de cada establecimiento educativo y sus sedes. Debido a la adopción 
de la nueva estructura del examen Saber 11 y con el fin de presentar los resultados de 
la clasificación de planteles vigente desde el segundo semestre del 2014, **se realizó un 
proceso de recalificación de los puntajes de los estudiantes que tomaron el examen en 
el segundo semestre de 2012 y 2013 con el fin de hacerlos comparables a la 
estructura vigente y contar con los tres años de resultados para cada plantel 
educativo**

Con el fin de publicar los resultados de la clasificación de planteles cada semestre, 
como quedó establecido en la Resolución 503 de 2014, la recalificación de los puntajes 
de los estudiantes se hizo también para el **primer semestre del 2013 y 2014** para 
calcular la clasificación de planteles del primer semestre de 2015

----

**SOBRE SABER PRO**: *Tomamos muestra del 2016 en adelante*

Los estudiantes que actualmente toman el examen de Saber Pro son evaluados en 
competencias específicas de acuerdo al grupo de referencia al que pertenece el programa y de 
acuerdo a lo que consideren los directores de programas cuando escogen la combinatoria de 
módulos más acordes a su malla curricular. A pesar de que se evalúan las mismas 
competencias específicas que en el periodo anterior, **a partir del 2016 se produjeron cambios 
en el diseño de los módulos y en la calificación de las mismas que imposibilitan la 
comparación entre años del periodo anterior con el actual**. Los resultados de los módulos de 
competencias específicas para este periodo resultaron en una nueva escala con año base en 
2016.


-----

In [None]:
import pandas as pd
import os
import glob

#Archivo con constantes
import constants

### Lectura de las llaves para cruzar el saber pro con el saber 11

In [28]:
#csv con las llaves para cruzar el saber pro con saber 11
llaves = pd.read_csv("../data/LLAVES/Llave_Saber11_SaberPro.txt", sep=";")
llaves.head()

Unnamed: 0,estu_consecutivo_sbpro,estu_consecutivo_sb11
0,EK201210000628,SB11201020119179
1,EK201210001522,SB11201020119180
2,EK201210001647,SB11201020110588
3,EK201210001663,SB11201020116060
4,EK201210003701,SB11201020120759


### Procesamiento informacion saber 11

In [3]:
#Directorios con la datos del saber 11
#Datos antes del 20142 
data_dir_sb11_before20142 = "../data/SABER11_raw/ANTES20142/"
#Datos despues del 20142 (inclusive)
data_dir_sb11_after20142 = "../data/SABER11_raw/DESPUES20142/"

csv_files_before20142 = glob.glob(os.path.join(data_dir_sb11_before20142, "*.txt"))
csv_files_after20142 = glob.glob(os.path.join(data_dir_sb11_after20142, "*.txt"))

In [4]:
#Direccion de los datos del saber 11 
data_dir_sb11 = "../data/SABER11_raw/"

#Codigo DANE de Bogota
cod_mcpio_BOGOTA = 11001

#Variables a seleccionar del saber 11 antes del 2014-2 
cols_before_20142 = constants.cols_sb11before_20142
#Variables a seleccionar del saber 11 despues del 2014-2 (inclusive) 
cols_after_20142 = constants.cols_sb11after_20142


In [29]:
data_list = []

#Leer los archivos del saber 11 antes del 2014-2
for file_path in csv_files_before20142:
    try:
        data_temp = pd.read_csv(file_path, sep=";", usecols=cols_before_20142, low_memory=False)        
        data_list.append(data_temp)
        
    except Exception as err:
        print(f"Error reading {file_path}: {err}")


#Leer los archivos del saber 11 despues del 2014-2
for file_path in csv_files_after20142:
    try:
        data_temp = pd.read_csv(file_path, sep=";", usecols=cols_after_20142, low_memory=False)        
        data_list.append(data_temp)
        
    except Exception as err:
        print(f"Error reading {file_path}: {err}")
        
        
#concatenar los dataframes
sb11 = pd.concat(data_list, ignore_index=True)
sb11["cole_cod_mcpio_ubicacion"] = sb11["cole_cod_mcpio_ubicacion"].astype("Int64")

#Quedarse con las observaciones del saber 11 que corresponden a Bogota 
sb11 = sb11[sb11["cole_cod_mcpio_ubicacion"] == cod_mcpio_BOGOTA]
sb11 = sb11.sort_values(by="periodo")
sb11 = sb11.reset_index(drop=True)

del data_list
del data_temp

In [6]:
sb11.head()

Unnamed: 0,periodo,estu_consecutivo,cole_cod_depto_ubicacion,cole_cod_mcpio_ubicacion,cole_depto_ubicacion,recaf_punt_c_naturales,recaf_punt_ingles,recaf_punt_lectura_critica,recaf_punt_matematicas,recaf_punt_sociales_ciudadanas,punt_c_naturales,punt_global,punt_ingles,punt_lectura_critica,punt_matematicas,punt_sociales_ciudadanas
0,20122,SB11201220332424,11.0,11001,BOGOTA,38.0,43.0,39.0,48.0,34.0,,,,,,
1,20122,SB11201220285852,11.0,11001,BOGOTA,65.0,62.0,57.0,65.0,62.0,,,,,,
2,20122,SB11201220311644,11.0,11001,BOGOTA,51.0,53.0,56.0,48.0,69.0,,,,,,
3,20122,SB11201220295440,11.0,11001,BOGOTA,53.0,43.0,49.0,51.0,48.0,,,,,,
4,20122,SB11201220288642,11.0,11001,BOGOTA,55.0,54.0,54.0,59.0,53.0,,,,,,


In [None]:
#Añadir a sb11 las 2 llaves para cruzar el saber 11 con el saber pro
#estu_consecutivo_sb11: llave del saber 11
#estu_consecutivo_sbpro:  llave del saber pro
base_sb11 = pd.merge(
    sb11,
    llaves,
    how = "inner",
    left_on = "estu_consecutivo",
    right_on = "estu_consecutivo_sb11")

base_sb11.rename(columns={"estu_consecutivo_sbpro":"llave_saber_pro"},inplace=True) 
base_sb11.rename(columns={"estu_consecutivo_sb11":"llave_saber_11"},inplace=True) 

del sb11
del llaves

In [32]:
#Guardar el dataframe como un archivo csv en la carpeta SABER11_cleaned
base_sb11.to_csv("../data/SABER11_cleaned/base_sb11.csv", index=False)

-----

### Cargar la base consolidada del SABER PRO
To do: Encontrar la manera de poder leer las bases en python para no tener distintos scripts.
La dificultad pandas no tolora el separador de los csv con la info de los saber pro. 

In [10]:
sbpro = pd.read_csv("../data/SABERPRO_cleaned/base_sbpro.csv")

In [11]:
num_duplicates = sbpro['estu_consecutivo'].duplicated().sum()
num_obs = sbpro.periodo.count()
print("Numero Observaciones:")
print(num_obs)

print("Observaciones duplicadas:")
print(num_duplicates)

print("Observaciones unicas:")
print(num_obs-num_duplicates)



Numero Observaciones:
783257
Observaciones duplicadas:
1893
Observaciones unicas:
781364


In [43]:
sbpro = sbpro.drop_duplicates("estu_consecutivo",keep="first")

**TODO: Analizar las observaciones duplicadas** (se eliminó el 0.2% de la info del sbpro )

------

### MERGE SABER PRO con SABER 11

In [46]:
sb11 = pd.read_csv("../data/SABER11_cleaned/base_sb11.csv",low_memory=False)

In [47]:
print(f"Numero observaciones {sb11.periodo.count()}")
sb11.head()

Numero observaciones 209131


Unnamed: 0,periodo,estu_consecutivo,cole_cod_depto_ubicacion,cole_cod_mcpio_ubicacion,cole_depto_ubicacion,recaf_punt_c_naturales,recaf_punt_ingles,recaf_punt_lectura_critica,recaf_punt_matematicas,recaf_punt_sociales_ciudadanas,punt_c_naturales,punt_global,punt_ingles,punt_lectura_critica,punt_matematicas,punt_sociales_ciudadanas,llave_saber_pro,llave_saber_11
0,20122,SB11201220332424,11.0,11001,BOGOTA,38.0,43.0,39.0,48.0,34.0,,,,,,,EK202030270834,SB11201220332424
1,20122,SB11201220285852,11.0,11001,BOGOTA,65.0,62.0,57.0,65.0,62.0,,,,,,,EK201950105652,SB11201220285852
2,20122,SB11201220311644,11.0,11001,BOGOTA,51.0,53.0,56.0,48.0,69.0,,,,,,,EK201830162608,SB11201220311644
3,20122,SB11201220295440,11.0,11001,BOGOTA,53.0,43.0,49.0,51.0,48.0,,,,,,,EK201420019964,SB11201220295440
4,20122,SB11201220301685,11.0,11001,BOGOTA,61.0,54.0,67.0,65.0,59.0,,,,,,,EK201730028821,SB11201220301685


In [48]:
sb11.dtypes


periodo                             int64
estu_consecutivo                   object
cole_cod_depto_ubicacion          float64
cole_cod_mcpio_ubicacion            int64
cole_depto_ubicacion               object
recaf_punt_c_naturales            float64
recaf_punt_ingles                 float64
recaf_punt_lectura_critica        float64
recaf_punt_matematicas            float64
recaf_punt_sociales_ciudadanas    float64
punt_c_naturales                  float64
punt_global                       float64
punt_ingles                       float64
punt_lectura_critica              float64
punt_matematicas                  float64
punt_sociales_ciudadanas          float64
llave_saber_pro                    object
llave_saber_11                     object
dtype: object

In [49]:
sbpro.head()

Unnamed: 0,periodo,estu_genero,estu_consecutivo,punt_global,inst_cod_institucion,estu_cod_mcpio_presentacion,inst_nombre_institucion,estu_prgm_academico,estu_snies_prgmacademico,estu_prgm_codmunicipio,...,estu_nucleo_pregrado,estu_inst_codmunicipio,estu_inst_municipio,estu_inst_departamento,inst_caracter_academico,mod_razona_cuantitat_punt,mod_lectura_critica_punt,mod_competen_ciudada_punt,mod_ingles_punt,mod_comuni_escrita_punt
0,20233,F,EK202330112088,90,1826,44001.0,UNIVERSIDAD ANTONIO NARIÑO-BOGOTÁ D.C.,PSICOLOGIA,2533.0,11001,...,PSICOLOGÍA,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,103,127,104,118.0,0.0
1,20233,M,EK202330137360,158,1701,11001.0,PONTIFICIA UNIVERSIDAD JAVERIANA-BOGOTÁ D.C.,ODONTOLOGIA,947.0,11001,...,ODONTOLOGÍA,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,150,139,135,210.0,154.0
2,20233,M,EK202330130033,159,1826,11001.0,UNIVERSIDAD ANTONIO NARIÑO-BOGOTÁ D.C.,MEDICINA,4911.0,11001,...,MEDICINA,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,159,159,134,210.0,134.0
3,20234,M,EK202340173425,163,1813,11001.0,UNIVERSIDAD DE LOS ANDES-BOGOTÁ D.C.,CONTADURÍA INTERNACIONAL,104235.0,11001,...,CONTADURÍA PUBLICA,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,155,134,148,211.0,168.0
4,20234,F,EK202340173235,214,1701,11001.0,PONTIFICIA UNIVERSIDAD JAVERIANA-BOGOTÁ D.C.,BIOINGENIERÍA,108889.0,11001,...,"INGENIERÍA AMBIENTAL, SANITARIA Y AFINES",11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,219,208,207,300.0,135.0


In [50]:
sbpro.dtypes

periodo                          int64
estu_genero                     object
estu_consecutivo                object
punt_global                      int64
inst_cod_institucion             int64
estu_cod_mcpio_presentacion    float64
inst_nombre_institucion         object
estu_prgm_academico             object
estu_snies_prgmacademico       float64
estu_prgm_codmunicipio           int64
estu_prgm_municipio             object
estu_prgm_departamento          object
estu_nivel_prgm_academico       object
estu_nucleo_pregrado            object
estu_inst_codmunicipio           int64
estu_inst_municipio             object
estu_inst_departamento          object
inst_caracter_academico         object
mod_razona_cuantitat_punt        int64
mod_lectura_critica_punt         int64
mod_competen_ciudada_punt        int64
mod_ingles_punt                float64
mod_comuni_escrita_punt        float64
dtype: object

In [None]:
num_duplicates = sbpro['estu_consecutivo'].duplicated().sum()
num_obs = sbpro.periodo.count()
print("--SABER PRO--")
print("Numero Observaciones:")
print(num_obs)

print("Observaciones duplicadas:")
print(num_duplicates)

print("Observaciones unicas:")
print(num_obs-num_duplicates)

num_duplicates = sb11['estu_consecutivo'].duplicated().sum()
num_obs = sb11.periodo.count()
print("\n--SABER 11--")
print("Numero Observaciones:")
print(num_obs)

print("Observaciones duplicadas:")
print(num_duplicates)

print("Observaciones unicas:")
print(num_obs-num_duplicates)

--SABER PRO--
Numero Observaciones:
781364
Observaciones duplicadas:
0
Observaciones unicas:
781364

--SABER 11--
Numero Observaciones:
209131
Observaciones duplicadas:
0
Observaciones unicas:
209131


In [52]:
#Unimos la base consolidada del Saber 11 con la base consolidada del Saber.
#Inner join
data = pd.merge(sb11,sbpro, left_on = "llave_saber_pro", right_on = "estu_consecutivo", suffixes= ("_icfes","_pro"))

### Base de datos consolidada
Características de esta base:
- Existen estudiantes en la base del Saber 11 que no tienen llave para unirse con la base del Saber Pro. 
    - Recordar las llaves: estu_consecutivo_sbpro y estu_consecutivo_sb11
- No existen estudiantes duplicados (var: estu_consecutivo_icfes) en la base del saber 11
- Existen duplicados (var: estu_consecutivo_pro) en la base del saber pro
- Información eliminada 0.2% del saber pro

In [57]:
data.head()

Unnamed: 0,periodo_icfes,estu_consecutivo_icfes,cole_cod_depto_ubicacion,cole_cod_mcpio_ubicacion,cole_depto_ubicacion,recaf_punt_c_naturales,recaf_punt_ingles,recaf_punt_lectura_critica,recaf_punt_matematicas,recaf_punt_sociales_ciudadanas,...,estu_nucleo_pregrado,estu_inst_codmunicipio,estu_inst_municipio,estu_inst_departamento,inst_caracter_academico,mod_razona_cuantitat_punt,mod_lectura_critica_punt,mod_competen_ciudada_punt,mod_ingles_punt,mod_comuni_escrita_punt
0,20122,SB11201220332424,11.0,11001,BOGOTA,38.0,43.0,39.0,48.0,34.0,...,ARQUITECTURA,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,130,120,153,168.0,137.0
1,20122,SB11201220285852,11.0,11001,BOGOTA,65.0,62.0,57.0,65.0,62.0,...,"INGENIERÍA DE MINAS, METALURGIA Y AFINES",11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,168,158,125,177.0,131.0
2,20122,SB11201220311644,11.0,11001,BOGOTA,51.0,53.0,56.0,48.0,69.0,...,DERECHO Y AFINES,11001,BOGOTÁ D.C.,BOGOTÁ,UNIVERSIDAD,102,159,167,144.0,166.0
3,20122,SB11201220301685,11.0,11001,BOGOTA,61.0,54.0,67.0,65.0,59.0,...,ADMINISTRACION,11001,"BOGOTÁ, D.C.",BOGOTA,INSTITUCIÓN UNIVERSITARIA,207,178,157,129.0,150.0
4,20122,SB11201220296754,11.0,11001,BOGOTA,51.0,50.0,49.0,47.0,55.0,...,ADMINISTRACION,11001,BOGOTÁ D.C.,BOGOTA,INSTITUCIÓN UNIVERSITARIA,136,125,124,123.0,155.0


In [60]:
num_duplicates = data['estu_consecutivo_icfes'].duplicated().sum()
print(f"Observaciones duplicadas = {num_duplicates}")

Observaciones duplicadas = 0


**Calcular Nuevas columnas** 
- Diferencia entre el periodo del Saber Pro y el Saber11
    - Para el cálculo del VA, el ICFES utiliza una diferencia de 4-8 años entre la evaluación del Saber 11 y el Saber Pro para los programas distintos a medicina. Medicina tiene un rango de 4-9 años
     

In [61]:
data["dif_periodos"] = data["periodo_pro"]- data["periodo_icfes"]

In [62]:
data[data["dif_periodos"]==19][['periodo_pro',"periodo_icfes","dif_periodos"]]

Unnamed: 0,periodo_pro,periodo_icfes,dif_periodos
183363,20231,20212,19
183364,20231,20212,19
183365,20231,20212,19
183366,20231,20212,19
183367,20231,20212,19
183368,20231,20212,19
183369,20231,20212,19


In [None]:
#Guardamos la base de datos consolidada en el subdirectorio BD
data.to_csv("../data/BD/bd.csv",index=False)