# Notebook de consolidación de datos

Desarrollado por Adrian Esteban Velasquez Solano

Octubre de 2025
Centro de Aseguración del Aprendizaje
Universidad de los Andes, Bogotá D.C.

## Importación de librerías para la consolidación

Se utilizará Pandas para trabajar el Excel, MatPlotLib para la visualización de los datos, y NumPy para la estandarización de los tipos.

In [145]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas.core.interchange.dataframe_protocol import DataFrame

## Carga inicial

La carga inicial del excel utilizando la librería Pandas. Se almacena la ruta del archivo base.

In [146]:
BASE = "data/base.xlsx"
base_df = pd.read_excel(BASE) # dataframe de datos base

ADMIT = "data/admitidos.xlsx"
admit_df = pd.read_excel(ADMIT) # dataframe de admitidos

admit_df = admit_df.sort_values('Fecha inicio de clases').drop_duplicates(subset='CODIGO', keep='last') # Mantener la última fecha de inicio de clases en caso de múltiples admisiones

In [147]:
# Otras constantes de interés
SAVE_DIR = "../data/procesada/"

## Consolidación de datos

Se espera una tabla casi idéntica a la base original, pero con una columna adicional que indique el cohorte real del estudiante.

In [148]:
shape = base_df.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
base_df.sample(5)

Filas: 26269
Columnas: 14


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador
21144,MM,202320,202320_MMER4301_01,COMPORTAMIENTO DEL CONSUMIDOR (Ciclo 2 de 8 se...,n.hincapie23,201122861,Caso 2 - Disney+ (Individual - 20%),M-MERC_RCO-E_V1 | Comunicación escrita,CO,M-MERC_CO Será un profesional capaz de comunic...,M-MERC_CO_OA2-E Realizará propuestas de mercad...,M-MERC_CO_OA2-E_C1 | Posición y tesis,5.0,af.romero233
6348,AFIN,202314,202314_AFIN5005_01,FINANZAS CORPORATIVAS,sf.cruz,202223067,Trabajo Final (AoL),E-AFIN_RTD_V1 | Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C1 | Criterios de decisión,5.0,df.trivino
15213,MF,202320,202320_MFIN4261_02,ESTRATEGIA FINANCIERA (Ciclo 2 de 8 semanas),js.restrepo10,201217382,Informe de caso 7_TD (AoL),M-FINZ_RTD_V1 | Toma de decisiones,TD,M-FINZ_TD Será un tomador de decisiones que ge...,M-FINZ_TD_OA3 Elegirá las alternativas que max...,M-FINZ_TD_OA3_C3 | Evaluar el impacto de las...,3.5,df.trivino
22767,MM,202310,202310_MMER4341_01,ESTRATEGIA DE MARCA (Ciclo 1 de 8 semanas),i.garciaf,202224145,Caso 1: Linc pen and plastics limited,M-MERC_RTD_V1 | Toma de decisiones,TD,M-MERC_TD Será un tomador de decisiones de mer...,M-MERC_TD_OA1 Tomará decisiones de mercados su...,M-MERC_TD_OA1_C7 | Evaluación de resultados,5.0,je.maring
4642,AFIN,202311,202311_AFIN5011_01,CONTABILIDAD FINANCIERA,c.gomezt,201924200,Entrega Inicial Proyecto Transversal,E-AFIN_RCO-O_V1 | Comunicación oral,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA1-O Realizará presentaciones orale...,E-AFIN_CO_OA1-O_C1 | Estructura,4.4,ex.nensthiel220


In [149]:
shape = admit_df.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
admit_df.sample(5)

Filas: 2171
Columnas: 33


Unnamed: 0,PERIODO,CODIGO,PROGRAMA,FACULTAD,NIVEL,APELLIDO,NOMBRE,DOCUMENTO,ESTADO_CIVIL,SEXO,...,UNIVERSIDAD_PAIS,FECHA_INICIO_EST,FECHA_FIN_EST,TITULO_OBTENIDO,PROMEDIO,FECHA_GRADO,Fecha inicio de clases,AÑOS EXPERIENCIA TOTAL AL INICIO DE CLASES/desde la fecha de grado,EDAD,Decisión comité
1432,202320,202124397,M-MERC,AD,MA,RAMIREZ PUERTO,NIDYA VANESSA,1032444847,U,F,...,COLOMBIA,2008-01-21,2014-04-05,INGENIERO INDUSTRIAL,3.86,2014-04-05 00:00:00,2023-08-08,9.347945,32.057534,Admitido
1632,202411,202412534,E-AFIN,AD,ES,SALCEDO SALCEDO,JOHAN SEBASTIAN,1018503290,S,M,...,COLOMBIA,2018-02-05,2021-12-05,ADMINISTRADOR,4.27,2022-03-16 00:00:00,2024-01-22,1.854795,25.750685,Admitido
313,202120,201117388,M-FINZ,AD,MA,MARTIN BERNAL,CLAUDIA PAOLA,1032442036,S,F,...,COLOMBIA,2008-02-01,2014-09-26,INGENIERO INDUSTRIAL,3.95,2014-09-26 00:00:00,2021-08-09,6.873973,30.471233,Admitido
1162,202314,201533260,E-AFIN,AD,ES,JIMENEZ VILLAMIL,ANDRES CAMILO,1098802652,S,M,...,COLOMBIA,2016-01-12,2020-06-12,INGENIERO CIVIL,3.8,2020-11-06 00:00:00,2023-08-08,2.583562,25.693151,Admitido
57,202110,201810427,M-FINZ,AD,MA,VARGAS URREA,ANDRES FELIPE,1018457806,S,M,...,COLOMBIA,2010-01-15,2016-06-23,ARQUITECTO,4.17,2016-11-19 00:00:00,2021-01-25,4.186301,27.945205,Admitido


In [150]:
df = base_df.merge(
    admit_df[['CODIGO', 'Fecha inicio de clases']],
    left_on='Código del estudiante',
    right_on='CODIGO',
    how='left'
).rename(columns={'Fecha inicio de clases': 'Cohorte Real'}).drop(columns=['CODIGO'])

df['Cohorte Real'] = pd.to_datetime(df['Cohorte Real'], errors='coerce')

df['Cohorte Real'] = df['Cohorte Real'].apply(lambda x: f"{x.year}{'10' if x.month <= 6 else '20'}" if pd.notnull(x) else None)

shape = df.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
df.head(5)

Filas: 26269
Columnas: 15


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador,Cohorte Real
0,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C1 | Criterios de decisión,5.0,je.beltran,
1,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA1 Identificará problemas/oportunid...,E-AFIN_TD_OA1_C1 | Datos relevantes del caso,5.0,je.beltran,
2,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C5 | Evaluar el impacto de las d...,3.333333,je.beltran,
3,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C4 | Alternativas de curso de ac...,3.333333,je.beltran,
4,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C3 | Estructuras financieras,3.333333,je.beltran,


In [151]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26269 entries, 0 to 26268
Data columns (total 15 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Programa                      26269 non-null  object 
 1   Semestre o ciclo              26269 non-null  int64  
 2   Código del curso y sección    26269 non-null  object 
 3   Nombre del curso              26269 non-null  object 
 4   Usuario del estudiante        26269 non-null  object 
 5   Código del estudiante         26269 non-null  int64  
 6   Nombre de actividad           26269 non-null  object 
 7   Nombre de la rúbrica          26269 non-null  object 
 8   Competencia                   26269 non-null  object 
 9   Meta de aprendizaje           26269 non-null  object 
 10  Objetivo de aprendizaje       26269 non-null  object 
 11  Código y nombre del criterio  26269 non-null  object 
 12  Puntaje criterio              25986 non-null  float64
 13  C

In [152]:
nulls = df.isnull().sum().sum()
print(f"Nulos totales: {nulls}")
nulls_per_col = df.isnull().sum()
print(f"Nulos por columna:\n{nulls_per_col}")

Nulos totales: 2350
Nulos por columna:
Programa                           0
Semestre o ciclo                   0
Código del curso y sección         0
Nombre del curso                   0
Usuario del estudiante             0
Código del estudiante              0
Nombre de actividad                0
Nombre de la rúbrica               0
Competencia                        0
Meta de aprendizaje                0
Objetivo de aprendizaje            0
Código y nombre del criterio       0
Puntaje criterio                 283
Calificador                        0
Cohorte Real                    2067
dtype: int64


Los datos que no tienen cohorte asignado corresponden a estudiantes que no fueron admitidos, por lo que no se les asignó una fecha de inicio de clases. Estas filas serán removidas para futuros análisis.

In [153]:
dupes = df.duplicated().sum()
print(f"Filas totalmente duplicadas: {dupes}")
df = df.drop_duplicates()

Filas totalmente duplicadas: 24


## Opción 1: Filtrar filas con puntaje criterio no nulo

In [154]:
# Opción 1: Filtrar filas con puntaje criterio no nulo
df_no_puntaje = df[df['Puntaje criterio'].notnull()]
shape = df_no_puntaje.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
df_no_puntaje.sample(5)

Filas: 25986
Columnas: 15


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador,Cohorte Real
19081,MGA,202410,UN_202410_MGAD4401_I,ORGANIZACIONES - UNIFICADO,j.castillam,202322568,Entregable Salida de Campo,M-MGPD_&_M-GAMB_RCO-E_V1 | Comunicación escrita,CO,M-GAMB_CO Será un profesional capaz de comuni...,M-GAMB_CO_OA1-E Escribirá documentos gerencial...,M-MGPD_&_M-GAMB_CO_OA1-E_C1 | Posición y tesis,4.4,n.sanabriar,202320
16800,MF,202420,202420_MFIN4100_1,ASPECTOS LEGALES FINANCIEROS (CICLO 1 DE 8 SEM...,m.foreron,202322529,Examen Final - Parte 2,M-FINZ_RET_V1 | Comportamiento ético,ET,M-FINZ_ET Será un profesional que incorporará ...,M-FINZ_ET_OA1 Identificará los dilemas éticos ...,M-FINZ_ET_OA1_C2 | Identificación de actores...,4.4,c.salazar135,202320
17344,MF,202420,202420_MFIN4251_2,Contabilidad Financiera 2,j.dallos,202322577,Entrega final,M-FINZ_RCO-O_V1 | Comunicación oral,CO,M-FINZ_CO Será un profesional capaz de comunic...,M-FINZ_CO_OA1-O Realizará presentaciones orale...,M-FINZ_CO_OA1-O_C7 | Lenguaje verbal. Hacer ...,4.8,mc.gomezm,202420
21838,MM,202310,202310_MMER4341_01,ESTRATEGIA DE MARCA (Ciclo 1 de 8 semanas),i.garciaf,202224145,Caso 1: Linc pen and plastics limited,M-MERC_RTD_V1 | Toma de decisiones,TD,M-MERC_TD Será un tomador de decisiones de mer...,M-MERC_TD_OA1 Tomará decisiones de mercados su...,M-MERC_TD_OA1_C1 | Análisis desde múltiples di...,5.0,je.maring,202220
18114,MGA,202410,202410_MGAD4454_01,OBJETIVOS DE DESARROLLO SOSTENIBLE,dm.ruedas1,202110111,Tarea 5 - Ganadería Silvopastoril,M-MGPD_&_M-GAMB_RCO-E_V1 | Comunicación escrita,CO,M-GAMB_CO Será un profesional capaz de comuni...,M-GAMB_CO_OA1-E Escribirá documentos gerencial...,M-MGPD_&_M-GAMB_CO_OA1-E_C1 | Posición y tesis,5.0,s.ayalar,202320


In [163]:
df_no_puntaje.to_excel(f"{SAVE_DIR}consolidada_puntaje.xlsx", index=False)

## Opción 2: Filtrar filas con cohorte no nulo

In [155]:
# Opción 2: Filtrar filas con cohorte no nulo
df_no_cohorte = df[df['Cohorte Real'].notnull()]
shape = df_no_cohorte.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
df_no_cohorte.sample(5)

Filas: 24179
Columnas: 15


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador,Cohorte Real
13917,MF,202320,202320_MFIN4251_01,CONTABILIDAD FINANCIERA (Ciclo 1 de 8 semanas),m.quinteroj,202225177,Diagnóstico individual (AoL),M-FINZ_RCO-O_V1 | Comunicación oral,CO,M-FINZ_CO Será un profesional capaz de comunic...,M-FINZ_CO_OA1-O Realizará presentaciones orale...,M-FINZ_CO_OA1-O_C1 | Estructura. La estructu...,5.0,asistente-mf-mm,202320
6300,AFIN,202314,202314_AFIN5005_01,FINANZAS CORPORATIVAS,lm.maya,201631524,Trabajo Final (AoL),E-AFIN_RTD_V1 | Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C4 | Alternativas de curso de ac...,5.0,df.trivino,202310
5441,AFIN,202313,202313_AFIN5021_01,MODELAJE FINANCIERO,cc.romero10,201317714,Análisis compañía (word),E-AFIN_RCO-E_V1 | Comunicación escrita,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA2-E Realizará propuestas financier...,E-AFIN_CO_OA2-E_C2 | Argumentación,5.0,d.deiscar,202220
2962,AFIN,202212,202212_AFIN5016_01,ANALISIS FINANCIERO,ja.palaciosc1,200310919,Caso Lao - Parte 2 - Reflexión ética - (Rúbrica),E-AFIN_RET_V1 | Ética,ET,E-AFIN_ET Será un profesional que comprenderá ...,E-AFIN_ET_OA1 Identificará los elementos ético...,E-AFIN_ET_OA1_C2 | Argumentación ética,5.0,df.trivino,202210
21455,MM,202320,202320_MMER4346_01,GERENCIA ESTRATÉGICA DE MERCADEO (Ciclo 2 de 8...,pa.ortizs,200519112,Caso 3. Colombina Entrega #2 - 5%,M-MERC_RCO-E_V1 | Comunicación escrita,CO,M-MERC_CO Será un profesional capaz de comunic...,M-MERC_CO_OA2-E Realizará propuestas de mercad...,M-MERC_CO_OA2-E_C4 | Reconocimiento de la prop...,3.5,af.romero233,202220


In [156]:
df_no_cohorte.to_excel(f"{SAVE_DIR}consolidada_cohorte.xlsx", index=False)

## Opción 3: Filtrar filas con cohorte no nulo y puntaje criterio no nulo

In [162]:
# Opción 3: Filtrar filas con cohorte no nulo y puntaje criterio no nulo
df_no_cohorte_no_puntaje = df[df['Cohorte Real'].notnull() & df['Puntaje criterio'].notnull()]
shape = df_no_cohorte_no_puntaje.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
df_no_cohorte_no_puntaje.sample(5)

Filas: 23927
Columnas: 15


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador,Cohorte Real
23180,MSCM,202320,202320_MSCM4004_01,PBL 2 (Ciclo 2 de 8 semanas),s.guerra11,202325272,Competencia Comunicación Oral - CASA,M-GSUM_RCO_V1 | Comunicación oral,CO,M-GSUM_CO Los estudiantes serán comunicadores ...,M-GSUM_CO_OA1-O Los estudiantes realizarán una...,M-GSUM_CO_OA1-O_C2 | Transiciones,3.5,na.delosreyes,202320
1973,AFIN,202211,202211_AFIN5011_01,CONTABILIDAD FINANCIERA,je.murcia,201328335,Proyecto - Presentación Final,E-AFIN_RCO-O_V1 | Comunicación oral,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA1-O Realizará presentaciones orale...,E-AFIN_CO_OA1-O_C6 | Evidencias / uso de fuentes,5.0,ex.nensthiel220,202210
4606,AFIN,202311,202311_AFIN5011_01,CONTABILIDAD FINANCIERA,jd.robledo,201730308,Proyecto Transversal - Presentación Final,E-AFIN_RCO-O_V1 | Comunicación oral,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA1-O Realizará presentaciones orale...,E-AFIN_CO_OA1-O_C3 | Conocimiento del tema,4.0,ex.nensthiel220,202310
5714,AFIN,202313,202313_AFIN5021_02,MODELAJE FINANCIERO,d.zuluagaa,201819617,Análisis compañía (word),E-AFIN_RCO-E_V1 | Comunicación escrita,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA2-E Realizará propuestas financier...,"E-AFIN_CO_OA2-E_C3 | Sustentación, uso de fuen...",3.5,d.deiscar,202320
18827,MGA,202410,UN_202410_MGAD4401_I,ORGANIZACIONES - UNIFICADO,ja.gomezm12,202120861,Entregable Salida de Campo,M-MGPD_&_M-GAMB_RCO-E_V1 | Comunicación escrita,CO,M-GAMB_CO Será un profesional capaz de comuni...,M-GAMB_CO_OA1-E Escribirá documentos gerencial...,M-MGPD_&_M-GAMB_CO_OA1-E_C2 | Argumentación,5.0,n.sanabriar,202120


In [143]:
df_no_cohorte_no_puntaje.to_excel(f"{SAVE_DIR}consolidada_cohorte_puntaje.xlsx", index=False)