In [1]:
#Importar librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [2]:
# Cargar el archivo Excel
df = pd.read_csv('saber2012.csv')

In [3]:
# Verificar dimensiones y columnas iniciales
print("Dimensiones:", df.shape)
print("Columnas disponibles:", df.columns.tolist())


Dimensiones: (680388, 51)
Columnas disponibles: ['periodo', 'estu_tipodocumento', 'estu_consecutivo', 'cole_area_ubicacion', 'cole_bilingue', 'cole_calendario', 'cole_caracter', 'cole_cod_dane_establecimiento', 'cole_cod_dane_sede', 'cole_cod_depto_ubicacion', 'cole_cod_mcpio_ubicacion', 'cole_codigo_icfes', 'cole_depto_ubicacion', 'cole_genero', 'cole_jornada', 'cole_mcpio_ubicacion', 'cole_naturaleza', 'cole_nombre_establecimiento', 'cole_nombre_sede', 'cole_sede_principal', 'estu_cod_depto_presentacion', 'estu_cod_mcpio_presentacion', 'estu_cod_reside_depto', 'estu_cod_reside_mcpio', 'estu_depto_presentacion', 'estu_depto_reside', 'estu_estadoinvestigacion', 'estu_estudiante', 'estu_fechanacimiento', 'estu_genero', 'estu_mcpio_presentacion', 'estu_mcpio_reside', 'estu_nacionalidad', 'estu_pais_reside', 'estu_privado_libertad', 'fami_cuartoshogar', 'fami_educacionmadre', 'fami_educacionpadre', 'fami_estratovivienda', 'fami_personashogar', 'fami_tieneautomovil', 'fami_tienecomputador'

In [4]:
# Paso 1: Filtrar solo datos del Antioquia
# ------------------------------------------------------------------------
# Normalizar nombres de columnas
df.columns = df.columns.str.strip().str.upper()
# Filtrar registros del departamento de Antioquia
df = df[df['COLE_DEPTO_UBICACION'] == 'ANTIOQUIA'].copy()
print("Registros en Antioquia:", df.shape[0])

Registros en Antioquia: 112297


In [5]:
# Paso 2: Filtrar solo los estudiantes con puntaje en matemáticas
# ---------------------------
df = df[df['PUNT_MATEMATICAS'].notnull()]


In [6]:
# Paso 3: Limpieza de Columnas con muchos nulos
# ---------------------------
# Eliminar columnas con más del 50% de nulos (excepto claves)
porcentaje_nulos = df.isnull().mean()
columnas_a_eliminar = [
    col for col in df.columns if porcentaje_nulos[col] > 0.5 
]
df = df.drop(columns=columnas_a_eliminar)
print("Columnas eliminadas:", columnas_a_eliminar)

Columnas eliminadas: ['PUNT_SOCIALES_CIUDADANAS', 'PUNT_C_NATURALES', 'PUNT_LECTURA_CRITICA', 'PUNT_GLOBAL']


In [7]:
# Paso 4: Identificar Varibales y Tipos
# ---------------------------
# 1. Porcentaje de datos no nulos por variable
porcentaje_no_nulos = df.notnull().mean().sort_values(ascending=False) * 100
porcentaje_no_nulos = porcentaje_no_nulos.to_frame(name='% Datos no nulos')
porcentaje_no_nulos['Tipo de Dato'] = df.dtypes

# 2. Contar número de categorías únicas para variables categóricas
categorias = df.select_dtypes(include='object').nunique()
porcentaje_no_nulos['# Categorías únicas'] = categorias
porcentaje_no_nulos['# Categorías únicas'] = porcentaje_no_nulos['# Categorías únicas'].fillna('Numérica')


# Mostrar el resumen de variables directamente en tu notebook
porcentaje_no_nulos.head(51)  # Puedes ajustar el número de filas según necesidad


Unnamed: 0,% Datos no nulos,Tipo de Dato,# Categorías únicas
PERIODO,100.0,int64,Numérica
ESTU_TIPODOCUMENTO,100.0,object,9.0
ESTU_CONSECUTIVO,100.0,object,79673.0
COLE_AREA_UBICACION,100.0,object,2.0
COLE_CALENDARIO,100.0,object,3.0
COLE_COD_DANE_SEDE,100.0,float64,Numérica
COLE_COD_DANE_ESTABLECIMIENTO,100.0,float64,Numérica
COLE_DEPTO_UBICACION,100.0,object,1.0
COLE_GENERO,100.0,object,3.0
COLE_COD_DEPTO_UBICACION,100.0,int64,Numérica


In [8]:
# Paso 5: Identificar Variables Categóricas y Binarias
# ---------------------------
# Asegurarse de que los valores de categorías únicas sean numéricos donde se pueda
cat_unicas = pd.to_numeric(porcentaje_no_nulos['# Categorías únicas'], errors='coerce')

#Se identican las varibales que son de una sola categoria para eliminar (Todos son estudiantes)
# Filtrar variables con exactamente 1 categoría
variables_una_categoria = cat_unicas[cat_unicas == 1].index.tolist()
# Mostrar resultado
print("Variables 1 categoría:")
print(variables_una_categoria)

#Se identican las varibales que son de dos categorias para volver binarios
# Filtrar variables con exactamente 2 categoría
variables_dos_categoria = cat_unicas[cat_unicas == 2].index.tolist()
# Mostrar resultado
print("Variables 2 categoría:")
print(variables_dos_categoria)

#Se identican las varibales que son de más de 2 y menos de 15 categorias para volver categoricos
# Filtrar variables con exactamente 2 categoría
variables_categoricas = cat_unicas[(cat_unicas > 2) & (cat_unicas < 16)].index.tolist()
# Mostrar resultado
print("Variables categorícas:")
print(variables_categoricas)


Variables 1 categoría:
['COLE_DEPTO_UBICACION', 'ESTU_ESTUDIANTE']
Variables 2 categoría:
['COLE_AREA_UBICACION', 'COLE_NATURALEZA', 'COLE_SEDE_PRINCIPAL', 'ESTU_GENERO', 'ESTU_ESTADOINVESTIGACION', 'ESTU_PRIVADO_LIBERTAD', 'FAMI_TIENEAUTOMOVIL', 'FAMI_TIENELAVADORA', 'FAMI_TIENEINTERNET', 'FAMI_TIENECOMPUTADOR', 'COLE_BILINGUE']
Variables categorícas:
['ESTU_TIPODOCUMENTO', 'COLE_CALENDARIO', 'COLE_GENERO', 'COLE_JORNADA', 'ESTU_DEPTO_PRESENTACION', 'ESTU_PAIS_RESIDE', 'ESTU_NACIONALIDAD', 'DESEMP_INGLES', 'COLE_CARACTER', 'FAMI_CUARTOSHOGAR', 'FAMI_PERSONASHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'FAMI_ESTRATOVIVIENDA']


In [9]:
# Paso 6: Convertir Variables Categóricas y Binarias
# ---------------------------
# Eliminar columnas que tienen una sola categoría
df.drop(columns=variables_una_categoria, inplace=True)

# Convertir a variables binarias usando pd.get_dummies con drop_first=True
for col in variables_dos_categoria:
    if col in df.columns:
        dummies = pd.get_dummies(df[col], drop_first=True, prefix=col)
        df = pd.concat([df.drop(columns=[col]), dummies], axis=1)

# Convertir variables con entre 3 y 14 categorías a tipo 'category'
for col in variables_categoricas:
    if col in df.columns:
        df[col] = df[col].astype('category')

In [10]:
# Paso 7: Modificaciones Adicionales DF
# ---------------------------
#Convertir columna periodo en categorica
df['PERIODO'] = df['PERIODO'].astype('category')

# Eliminar columna de la identificacion del estudiante examinado
df.drop(columns='ESTU_CONSECUTIVO', inplace=True)
# Eliminar columna de la identificacion del colegio del estudiante examinado
df.drop(columns='COLE_NOMBRE_ESTABLECIMIENTO', inplace=True)
df.drop(columns='COLE_NOMBRE_SEDE', inplace=True)
df.drop(columns='COLE_CODIGO_ICFES', inplace=True)
df.drop(columns='COLE_COD_DANE_ESTABLECIMIENTO', inplace=True)


#Cambiar columna de fecha de nacimiento a solo año de nacimiento
# Asegúrate de que la columna esté en formato de fecha
df['ESTU_FECHANACIMIENTO'] = pd.to_datetime(df['ESTU_FECHANACIMIENTO'], errors='coerce')
# Crear nueva columna con solo el año
df['ESTU_AÑONACIMIENTO'] = df['ESTU_FECHANACIMIENTO'].dt.year
# Eliminar la columna original si ya no se necesita
df.drop(columns=['ESTU_FECHANACIMIENTO'], inplace=True)
# Eliminar columna de la fecha de nacimiento del estudiante examinado
df.drop(columns='ESTU_AÑONACIMIENTO', inplace=True)

In [11]:
# Paso 8: Variable Binaria de Alto Rendimiento en Matemáticas
# ---------------------------
# Crear variable de alto rendimiento en matemáticas
q75 = df['PUNT_MATEMATICAS'].quantile(0.75)
df['ALTO_RENDIMIENTO_MATE'] = (df['PUNT_MATEMATICAS'] >= q75).astype(int)
print("Umbral de alto rendimiento:", q75)
print("Total alto rendimiento:", df['ALTO_RENDIMIENTO_MATE'].sum())

Umbral de alto rendimiento: 52.0
Total alto rendimiento: 32768


In [12]:
# Paso 9: Revisión de Varibales Atípicas
# ---------------------------
# Verificar valores extremos o erróneos en puntajes
print(df['PUNT_MATEMATICAS'].describe())

# Filtrar valores válidos (puntajes entre 0 y 500)
df = df[(df['PUNT_MATEMATICAS'] >= 0) & (df['PUNT_MATEMATICAS'] <= 500)]

count    112297.000000
mean         45.619358
std          11.610872
min           0.000000
25%          39.000000
50%          45.000000
75%          52.000000
max         126.000000
Name: PUNT_MATEMATICAS, dtype: float64


In [13]:
df.to_csv("df_limpio.csv", index=False)

In [14]:
# Paso 4: Identificar Varibales y Tipos
# ---------------------------
# 1. Porcentaje de datos no nulos por variable
porcentaje_no_nulos = df.notnull().mean().sort_values(ascending=False) * 100
porcentaje_no_nulos = porcentaje_no_nulos.to_frame(name='% Datos no nulos')
porcentaje_no_nulos['Tipo de Dato'] = df.dtypes

# 2. Contar número de categorías únicas para variables categóricas
categorias = df.select_dtypes(include='object').nunique()
porcentaje_no_nulos['# Categorías únicas'] = categorias
porcentaje_no_nulos['# Categorías únicas'] = porcentaje_no_nulos['# Categorías únicas'].fillna('Numérica')


# Mostrar el resumen de variables directamente en tu notebook
porcentaje_no_nulos.head(51)

Unnamed: 0,% Datos no nulos,Tipo de Dato,# Categorías únicas
PERIODO,100.0,category,Numérica
ESTU_TIPODOCUMENTO,100.0,category,Numérica
COLE_CALENDARIO,100.0,category,Numérica
COLE_COD_DANE_SEDE,100.0,float64,Numérica
COLE_COD_MCPIO_UBICACION,100.0,int64,Numérica
COLE_COD_DEPTO_UBICACION,100.0,int64,Numérica
COLE_GENERO,100.0,category,Numérica
COLE_JORNADA,100.0,category,Numérica
FAMI_TIENEINTERNET_Si,100.0,bool,Numérica
COLE_MCPIO_UBICACION,100.0,object,125.0


In [15]:
# Filtrar las variables cuyo nombre empieza por 'COLE'
columnas_cole = [col for col in porcentaje_no_nulos.index if col.startswith('COLE')]

# Mostrar lista
print("Variables que comienzan con 'COLE':")
print(columnas_cole)


Variables que comienzan con 'COLE':
['COLE_CALENDARIO', 'COLE_COD_DANE_SEDE', 'COLE_COD_MCPIO_UBICACION', 'COLE_COD_DEPTO_UBICACION', 'COLE_GENERO', 'COLE_JORNADA', 'COLE_MCPIO_UBICACION', 'COLE_SEDE_PRINCIPAL_S', 'COLE_AREA_UBICACION_URBANO', 'COLE_NATURALEZA_OFICIAL', 'COLE_BILINGUE_S', 'COLE_CARACTER']


In [16]:
# Filtrar las variables cuyo nombre empieza por 'COLE'
columnas_estu = [col for col in porcentaje_no_nulos.index if col.startswith('ESTU')]
columnas_fam = [col for col in porcentaje_no_nulos.index if col.startswith('FAMI')]
# Mostrar lista
print("Variables que comienzan con 'ESTU':")
print(columnas_estu)
print("Variables que comienzan con 'FAMI':")
print(columnas_fam)

Variables que comienzan con 'ESTU':
['ESTU_TIPODOCUMENTO', 'ESTU_COD_DEPTO_PRESENTACION', 'ESTU_COD_MCPIO_PRESENTACION', 'ESTU_DEPTO_PRESENTACION', 'ESTU_PAIS_RESIDE', 'ESTU_NACIONALIDAD', 'ESTU_MCPIO_PRESENTACION', 'ESTU_ESTADOINVESTIGACION_PUBLICAR', 'ESTU_PRIVADO_LIBERTAD_S', 'ESTU_GENERO_M', 'ESTU_COD_RESIDE_DEPTO', 'ESTU_COD_RESIDE_MCPIO', 'ESTU_MCPIO_RESIDE', 'ESTU_DEPTO_RESIDE']
Variables que comienzan con 'FAMI':
['FAMI_TIENEINTERNET_Si', 'FAMI_TIENECOMPUTADOR_Si', 'FAMI_TIENEAUTOMOVIL_Si', 'FAMI_TIENELAVADORA_Si', 'FAMI_CUARTOSHOGAR', 'FAMI_PERSONASHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'FAMI_ESTRATOVIVIENDA']


In [17]:
# Cargar el archivo Excel
df = pd.read_csv('df_limpio.csv')

#Identificar Dummies
def identificar_dummies(df):
    dummies = []
    no_dummies = []
    
    for col in df.columns:
        valores = df[col].dropna().unique()
        if len(valores) == 2 and sorted(valores) in [[0, 1], [False, True]]:
            dummies.append(col)
        else:
            no_dummies.append(col)
    
    return pd.DataFrame({
        'Variable': dummies + no_dummies,
        'Es Dummy': ['Sí'] * len(dummies) + ['No'] * len(no_dummies)
    })

df_clasificacion = identificar_dummies(df)

def separar_dummies_y_no_dummies(df_clasificacion, prefijos):
    dummies = []
    no_dummies = []

    for col in df.columns:
        if not col.startswith(tuple(prefijos)):
            continue
        valores = df[col].dropna().unique()
        if len(valores) == 2 and sorted(valores) in [[0, 1], [False, True]]:
            dummies.append(col)
        else:
            no_dummies.append(col)
    
    return dummies, no_dummies

In [18]:
from tensorflow.keras.utils import to_categorical
from sklearn.ensemble import RandomForestRegressor

#Para el Modelo 1
# Ejecutar
df_clasificacion = identificar_dummies(df)
dummies, no_dummies = separar_dummies_y_no_dummies(df, prefijos=['ESTU', 'FAMI'])

# Construcción de X
X_dummies = df[dummies]
X_categoricas = pd.get_dummies(df[no_dummies], drop_first=True)  # one-hot para las categóricas
X = pd.concat([X_dummies, X_categoricas], axis=1)

# Variable objetivo en 3 niveles
df['CLASIFICACION_MATEMATICAS'] = pd.qcut(df['PUNT_MATEMATICAS'], q=[0, 0.25, 0.75, 1.0], labels=[0, 1, 2])
y = df['CLASIFICACION_MATEMATICAS'].astype(int)

# Entrenar modelo
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X, y)

# Importancia de variables
importances = pd.Series(rf.feature_importances_, index=X.columns).sort_values(ascending=False)

# Mostrar top 10
print(importances.head(10))

ESTU_COD_RESIDE_MCPIO          0.051507
FAMI_TIENECOMPUTADOR_Si        0.051052
ESTU_COD_MCPIO_PRESENTACION    0.041690
FAMI_PERSONASHOGAR_Cuatro      0.034861
FAMI_TIENELAVADORA_Si          0.033337
FAMI_TIENEAUTOMOVIL_Si         0.031412
ESTU_TIPODOCUMENTO_TI          0.030699
FAMI_CUARTOSHOGAR_Tres         0.028235
FAMI_PERSONASHOGAR_Tres        0.027878
FAMI_CUARTOSHOGAR_Dos          0.024840
dtype: float64


In [19]:
from tensorflow.keras.utils import to_categorical
from sklearn.ensemble import RandomForestRegressor

#Para el Modelo 2
# Ejecutar
df_clasificacion = identificar_dummies(df)
dummies, no_dummies = separar_dummies_y_no_dummies(df, prefijos=['ESTU', 'FAMI'])

# Construcción de X
X_dummies = df[dummies]
X_categoricas = pd.get_dummies(df[no_dummies], drop_first=True)  # one-hot para las categóricas
X = pd.concat([X_dummies, X_categoricas], axis=1)

# Variable objetivo en 3 niveles
y = df['ALTO_RENDIMIENTO_MATE']  

# Entrenar modelo
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X, y)

# Importancia de variables
importances = pd.Series(rf.feature_importances_, index=X.columns).sort_values(ascending=False)

# Mostrar top 10
print(importances.head(10))

ESTU_COD_RESIDE_MCPIO          0.041559
FAMI_PERSONASHOGAR_Cuatro      0.037925
FAMI_TIENECOMPUTADOR_Si        0.037388
FAMI_TIENEAUTOMOVIL_Si         0.036978
ESTU_COD_MCPIO_PRESENTACION    0.034866
ESTU_TIPODOCUMENTO_TI          0.033270
FAMI_TIENELAVADORA_Si          0.033013
FAMI_CUARTOSHOGAR_Tres         0.031745
FAMI_PERSONASHOGAR_Tres        0.031469
FAMI_CUARTOSHOGAR_Dos          0.026974
dtype: float64
