# Notebook de exploración de datos

Desarrollado por Adrian Esteban Velasquez Solano

Octubre de 2025
Centro de Aseguración del Aprendizaje
Universidad de los Andes, Bogotá D.C.

## Importación de librerías para la exploración

Se utilizará Pandas para trabajar el Excel, MatPlotLib para la visualización de los datos, y NumPy para la estandarización de los tipos.

In [49]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Carga inicial

La carga inicial del excel utilizando la librería Pandas. Se almacena la ruta del archivo base.

In [50]:
BASE = "data/base.xlsx"
base_df = pd.read_excel(BASE) # dataframe de datos base

ADMIT = "data/admitidos.xlsx"
admit_df = pd.read_excel(ADMIT) # dataframe de admitidos

## Exploración de los datos BASE

Se examina la forma del dataset, verificando el número de filas y columnas, al igual que una muestra de 5 entradas para examinar con detalle

In [51]:
shape = base_df.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
base_df.head(5)

Filas: 26269
Columnas: 14


Unnamed: 0,Programa,Semestre o ciclo,Código del curso y sección,Nombre del curso,Usuario del estudiante,Código del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Puntaje criterio,Calificador
0,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C1 | Criterios de decisión,5.0,je.beltran
1,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA1 Identificará problemas/oportunid...,E-AFIN_TD_OA1_C1 | Datos relevantes del caso,5.0,je.beltran
2,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C5 | Evaluar el impacto de las d...,3.333333,je.beltran
3,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C4 | Alternativas de curso de ac...,3.333333,je.beltran
4,AFIN,202114,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,202023117,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C3 | Estructuras financieras,3.333333,je.beltran


Se examina cada columna por separado, verificando el tipado y los nulos presentes en el dataset

In [52]:
base_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26269 entries, 0 to 26268
Data columns (total 14 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Programa                      26269 non-null  object 
 1   Semestre o ciclo              26269 non-null  int64  
 2   Código del curso y sección    26269 non-null  object 
 3   Nombre del curso              26269 non-null  object 
 4   Usuario del estudiante        26269 non-null  object 
 5   Código del estudiante         26269 non-null  int64  
 6   Nombre de actividad           26269 non-null  object 
 7   Nombre de la rúbrica          26269 non-null  object 
 8   Competencia                   26269 non-null  object 
 9   Meta de aprendizaje           26269 non-null  object 
 10  Objetivo de aprendizaje       26269 non-null  object 
 11  Código y nombre del criterio  26269 non-null  object 
 12  Puntaje criterio              25986 non-null  float64
 13  C

In [53]:
total_nulls = base_df.isnull().sum().sum()
print(f"Nulos totales del dataset: {total_nulls}")
nulls = base_df.isnull().sum()
print(f"Nulos por columna:\n{nulls}")

Nulos totales del dataset: 283
Nulos por columna:
Programa                          0
Semestre o ciclo                  0
Código del curso y sección        0
Nombre del curso                  0
Usuario del estudiante            0
Código del estudiante             0
Nombre de actividad               0
Nombre de la rúbrica              0
Competencia                       0
Meta de aprendizaje               0
Objetivo de aprendizaje           0
Código y nombre del criterio      0
Puntaje criterio                283
Calificador                       0
dtype: int64


In [54]:
dupes = base_df.duplicated().sum()
print(f"Filas totalmente duplicadas: {dupes}\n"
      f"En caso de haber duplicados totales, se deben remover antes de cualquier análisis")

Filas totalmente duplicadas: 24
En caso de haber duplicados totales, se deben remover antes de cualquier análisis


### Separación de categóricas y numéricas

In [55]:
cat = base_df.select_dtypes(include='object') # No hay tipos String, solo se obtienen variables de tipo object
num = base_df.select_dtypes(exclude='object')

In [56]:
cat.head()

Unnamed: 0,Programa,Código del curso y sección,Nombre del curso,Usuario del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Calificador
0,AFIN,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C1 | Criterios de decisión,je.beltran
1,AFIN,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA1 Identificará problemas/oportunid...,E-AFIN_TD_OA1_C1 | Datos relevantes del caso,je.beltran
2,AFIN,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C5 | Evaluar el impacto de las d...,je.beltran
3,AFIN,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C4 | Alternativas de curso de ac...,je.beltran
4,AFIN,202114_AFIN5005_01,FINANZAS CORPORATIVAS,m.hernandezb,Informe de caso 2 - Individual,E-AFIN_RTD_V1 |Toma de decisiones,TD,E-AFIN_TD Será un profesional que analizará e ...,E-AFIN_TD_OA2 Evaluará alternativas para la so...,E-AFIN_TD_OA2_C3 | Estructuras financieras,je.beltran


In [57]:
num.head()

Unnamed: 0,Semestre o ciclo,Código del estudiante,Puntaje criterio
0,202114,202023117,5.0
1,202114,202023117,5.0
2,202114,202023117,3.333333
3,202114,202023117,3.333333
4,202114,202023117,3.333333


### Descripción variables numéricas

In [58]:
num.describe()

Unnamed: 0,Semestre o ciclo,Código del estudiante,Puntaje criterio
count,26269.0,26269.0,25986.0
mean,202346.175644,201874100.0,4.399736
std,86.84878,566664.0,0.69591
min,202114.0,199611300.0,0.0
25%,202311.0,201512000.0,4.0
50%,202410.0,202210100.0,4.5
75%,202413.0,202322500.0,5.0
max,202420.0,202426000.0,5.0


No obtenemos información muy relevante de estas variables más allá del puntaje promedio del criterio, sin embargo, podemos ver detenidamente el semestre y cíclo académico.

### Descripción variables categóricas

In [59]:
cat.describe()

Unnamed: 0,Programa,Código del curso y sección,Nombre del curso,Usuario del estudiante,Nombre de actividad,Nombre de la rúbrica,Competencia,Meta de aprendizaje,Objetivo de aprendizaje,Código y nombre del criterio,Calificador
count,26269,26269,26269,26269,26269,26269,26269,26269,26269,26269,26269
unique,8,113,64,1226,128,49,9,28,46,275,67
top,AFIN,202211_AFIN5011_01,CONTABILIDAD FINANCIERA,ga-marti,Análisis compañía (word),E-AFIN_RCO-E_V1 | Comunicación escrita,CO,E-AFIN_CO Será un profesional capaz de comunic...,E-AFIN_CO_OA1-O Realizará presentaciones orale...,"E-AFIN_CO_OA2-E_C5 | Lenguaje, ortografía, ora...",df.trivino
freq,9102,920,3581,69,969,3532,14615,7113,3581,719,3350


## Exploración de los datos ADMIT

Se examina la forma del dataset, verificando el número de filas y columnas, al igual que una muestra de 5 entradas para examinar con detalle

In [60]:
shape = admit_df.shape
print(f"Filas: {shape[0]}\nColumnas: {shape[1]}")
admit_df.head(5)

Filas: 2260
Columnas: 33


Unnamed: 0,PERIODO,CODIGO,PROGRAMA,FACULTAD,NIVEL,APELLIDO,NOMBRE,DOCUMENTO,ESTADO_CIVIL,SEXO,...,UNIVERSIDAD_PAIS,FECHA_INICIO_EST,FECHA_FIN_EST,TITULO_OBTENIDO,PROMEDIO,FECHA_GRADO,Fecha inicio de clases,AÑOS EXPERIENCIA TOTAL AL INICIO DE CLASES/desde la fecha de grado,EDAD,Decisión comité
0,202110,202110023,M-FINZ,AD,MA,ANZOLA ANZOLA,ESTIVEN MANUEL,1031139671,S,M,...,COLOMBIA,2009-07-01,2014-12-15,CONTADOR,4.37,2015-03-30 00:00:00,2021-01-25,5.830137,28.531507,Admitido
1,202110,202110029,M-FINZ,AD,MA,BARCO BARCO,JUAN CARLOS,1018484038,S,M,...,COLOMBIA,2013-01-14,2018-05-04,FINANZAS Y NEGOCIOS INTERNACIONALES,4.35,2018-05-04 00:00:00,2021-01-25,2.731507,24.906849,Admitido
2,202110,201216791,M-FINZ,AD,MA,BECERRA ROJAS,JHON FREDY,1015456960,S,M,...,COLOMBIA,2012-01-16,2016-11-25,ECONOMISTA,4.35,2017-05-04 00:00:00,2021-01-25,3.731507,25.361644,Admitido
3,202110,202110036,M-FINZ,AD,MA,BURGOS ROMERO,GLORIA ESPERANZA,1010161533,U,F,...,COLOMBIA,2005-01-15,2009-12-18,CONTADOR,3.8,2010-03-11 00:00:00,2021-01-25,10.884932,34.882192,Admitido
4,202110,202026988,M-FINZ,AD,MA,CARDENAS SABOGAL,LAURA,1071630416,S,F,...,COLOMBIA,2011-01-17,2015-12-23,CONTADOR,4.02,2016-05-11 00:00:00,2021-01-25,4.712329,27.575342,Admitido


Se examina cada columna por separado, verificando el tipado y los nulos presentes en el dataset

In [61]:
admit_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2260 entries, 0 to 2259
Data columns (total 33 columns):
 #   Column                                                               Non-Null Count  Dtype         
---  ------                                                               --------------  -----         
 0   PERIODO                                                              2260 non-null   int64         
 1   CODIGO                                                               2260 non-null   int64         
 2   PROGRAMA                                                             2260 non-null   object        
 3   FACULTAD                                                             2260 non-null   object        
 4   NIVEL                                                                2260 non-null   object        
 5   APELLIDO                                                             2260 non-null   object        
 6   NOMBRE                                          

In [62]:
total_nulls = admit_df.isnull().sum().sum()
print(f"Nulos totales del dataset: {total_nulls}")
nulls = admit_df.isnull().sum()
print(f"Nulos por columna:\n{nulls}")

Nulos totales del dataset: 512
Nulos por columna:
PERIODO                                                                  0
CODIGO                                                                   0
PROGRAMA                                                                 0
FACULTAD                                                                 0
NIVEL                                                                    0
APELLIDO                                                                 0
NOMBRE                                                                   0
DOCUMENTO                                                                0
ESTADO_CIVIL                                                             7
SEXO                                                                     0
FECHA_NAC                                                                1
NACIONALIDAD                                                             1
PAIS_NAC                                          

In [63]:
dupes = admit_df.duplicated().sum()
print(f"Filas totalmente duplicadas: {dupes}\n"
      f"En caso de haber duplicados totales, se deben remover antes de cualquier análisis")

Filas totalmente duplicadas: 0
En caso de haber duplicados totales, se deben remover antes de cualquier análisis


### Separación de categóricas y numéricas

In [64]:
cat = admit_df.select_dtypes(include='object') # No hay tipos String, solo se obtienen variables de tipo object
num = admit_df.select_dtypes(exclude='object')

In [65]:
cat.head()

Unnamed: 0,PROGRAMA,FACULTAD,NIVEL,APELLIDO,NOMBRE,DOCUMENTO,ESTADO_CIVIL,SEXO,NACIONALIDAD,PAIS_NAC,...,EMAIL,EMPRESA,EMPRESA_SECTOR,UNIVERSIDAD_PREGRADO,UNIVERSIDAD_CIUDAD,UNIVERSIDAD_PAIS,TITULO_OBTENIDO,PROMEDIO,FECHA_GRADO,Decisión comité
0,M-FINZ,AD,MA,ANZOLA ANZOLA,ESTIVEN MANUEL,1031139671,S,M,COLOMBIANO,COLOMBIA,...,manuel9367@hotmail.com,Baxalta Colombia S.A.S.,PRIVADO,C.UNIV. REMINGTON,MEDELLIN,COLOMBIA,CONTADOR,4.37,2015-03-30 00:00:00,Admitido
1,M-FINZ,AD,MA,BARCO BARCO,JUAN CARLOS,1018484038,S,M,COLOMBIANO,COLOMBIA,...,juanc.barco6@gmail.com,BANCO DAVIVIENDA S.A.,PRIVADO,U. SERGIO ARBOLEDA,BOGOTA D.C.,COLOMBIA,FINANZAS Y NEGOCIOS INTERNACIONALES,4.35,2018-05-04 00:00:00,Admitido
2,M-FINZ,AD,MA,BECERRA ROJAS,JHON FREDY,1015456960,S,M,COLOMBIANO,COLOMBIA,...,fredy.becerra@outlook.es,KPMG,PRIVADO,U. SERGIO ARBOLEDA,BOGOTA D.C.,COLOMBIA,ECONOMISTA,4.35,2017-05-04 00:00:00,Admitido
3,M-FINZ,AD,MA,BURGOS ROMERO,GLORIA ESPERANZA,1010161533,U,F,COLOMBIANO,COLOMBIA,...,burgosr.esperanza@gmail.com,TAX ACCOUNTIG SAS,PRIVADO,U. NACIONAL DE COLOMBIA,BOGOTA D.C.,COLOMBIA,CONTADOR,3.8,2010-03-11 00:00:00,Admitido
4,M-FINZ,AD,MA,CARDENAS SABOGAL,LAURA,1071630416,S,F,COLOMBIANO,COLOMBIA,...,l.cardenass@uniandes.edu.co,Schlumberger PES S.a.S,PRIVADO,U. EXTERNADO DE COLOMBIA,BOGOTA D.C.,COLOMBIA,CONTADOR,4.02,2016-05-11 00:00:00,Admitido


In [66]:
num.head()

Unnamed: 0,PERIODO,CODIGO,FECHA_NAC,FECHA_INICIO_EST,FECHA_FIN_EST,Fecha inicio de clases,AÑOS EXPERIENCIA TOTAL AL INICIO DE CLASES/desde la fecha de grado,EDAD
0,202110,202110023,1992-07-22,2009-07-01,2014-12-15,2021-01-25,5.830137,28.531507
1,202110,202110029,1996-03-06,2013-01-14,2018-05-04,2021-01-25,2.731507,24.906849
2,202110,201216791,1995-09-22,2012-01-16,2016-11-25,2021-01-25,3.731507,25.361644
3,202110,202110036,1986-03-18,2005-01-15,2009-12-18,2021-01-25,10.884932,34.882192
4,202110,202026988,1993-07-06,2011-01-17,2015-12-23,2021-01-25,4.712329,27.575342


### Descripción variables numéricas

In [67]:
num.describe()

Unnamed: 0,PERIODO,CODIGO,FECHA_NAC,FECHA_INICIO_EST,FECHA_FIN_EST,Fecha inicio de clases,AÑOS EXPERIENCIA TOTAL AL INICIO DE CLASES/desde la fecha de grado,EDAD
count,2260.0,2260.0,2259,2208,2206,2259,2259.0,2257.0
mean,202292.976991,201834000.0,1991-10-17 19:55:13.147410304,2014-01-27 08:43:41.739130624,2016-06-26 00:09:08.322755840,2023-03-01 17:57:55.697211392,7.251492,31.426716
min,202110.0,199324600.0,1964-07-20 00:00:00,1900-09-20 00:00:00,1992-06-26 00:00:00,2021-01-24 00:00:00,-0.367123,0.416438
25%,202210.0,201414500.0,1988-02-19 12:00:00,2008-01-15 00:00:00,2012-11-27 00:00:00,2022-01-24 00:00:00,2.849315,26.654795
50%,202311.0,202114700.0,1993-02-14 00:00:00,2012-01-30 00:00:00,2017-03-12 12:00:00,2023-01-23 00:00:00,5.432877,29.879452
75%,202414.0,202314300.0,1996-07-16 12:00:00,2015-06-01 00:00:00,2019-12-31 00:00:00,2024-08-05 00:00:00,10.069863,34.873973
max,202520.0,202516600.0,2021-08-20 00:00:00,2099-07-15 00:00:00,2099-12-30 00:00:00,2025-08-04 00:00:00,125.679452,60.084932
std,132.564692,593302.3,,,,,6.674555,6.325397


### Descripción variables categóricas

In [68]:
cat.describe()

Unnamed: 0,PROGRAMA,FACULTAD,NIVEL,APELLIDO,NOMBRE,DOCUMENTO,ESTADO_CIVIL,SEXO,NACIONALIDAD,PAIS_NAC,...,EMAIL,EMPRESA,EMPRESA_SECTOR,UNIVERSIDAD_PREGRADO,UNIVERSIDAD_CIUDAD,UNIVERSIDAD_PAIS,TITULO_OBTENIDO,PROMEDIO,FECHA_GRADO,Decisión comité
count,2260,2260,2260,2260,2260,2260,2253,2260,2259,2190,...,2260,2107,2196,2260,2214,2221,2260,2252,2258,2260
unique,8,1,3,2117,1335,2171,6,2,2,23,...,2191,1827,11,214,69,22,130,328,1341,4
top,M-FINZ,AD,MA,SANCHEZ,ANDRES FELIPE,1013600955,S,M,COLOMBIANO,COLOMBIA,...,smendozac@unal.edu.co,BANCO DE BOGOTÁ,PRIVADO,U. DE LOS ANDES,BOGOTA D.C.,COLOMBIA,ADMINISTRADOR,4,2022-10-31 00:00:00,Admitido
freq,570,2260,1765,4,44,3,1660,1406,2218,2136,...,3,18,1682,428,1788,2176,363,139,21,2226
