In [1]:
import pandas as pd
import csv

### CONSTANTES

In [2]:
RUTA_SABERPRO = "data/SABERPRO_raw/"
RUTA_SABERTYT = "data/SABERTYT_raw/"
RUTA_TIR = "data/TIR/"

In [3]:
#Llaves TIR
LLAVE_TIR = ['codigo_snies_del_programa']
COLUMNAS_TIR = ['tir']
#Llaves Saber PRO/TYT
LLAVE_ICFES = ['estu_snies_prgmacademico']
COLUMNAS_ICFES = ['estu_consecutivo','punt_global']

### FUNCIONES

In [4]:
def clean_percentage_column(df, column_name):
    """
    Converts a percentage string column like '40,51%' to a float decimal like 0.4051.
    Leaves NaN values untouched.

    Parameters:
        df (pd.DataFrame): The DataFrame containing the TIR column.
        column_name (str): The name of the column to clean.

    Returns:
        pd.DataFrame: The DataFrame with the cleaned column.
    """
    df[column_name] = (
        df[column_name]
        .str.replace("%", "", regex=False)
        .str.replace(",", ".", regex=False)
        .astype(float)
        / 100
    )
    return df


In [5]:
def calcular_cuantiles(
    df,
    columnas_grupo,
    columna_calcular,
    n_cuantiles=100,
    n_cuantiles_top=None,
    nombres_index=None
):
    """
    Calcula tabla de cuantiles con conteos y total de personas por grupo,
    usando ranking porcentual para asignar grupos.

    Parámetros:
    - df: DataFrame de entrada
    - columnas_grupo: lista de columnas para agrupar (puede ser 1 o más)
    - columna_calcular: columna sobre la que se calcularán los cuantiles
    - n_cuantiles: número total de grupos en que se divide (deciles=10, percentiles=100, etc.)
    - n_cuantiles_top: cuántos grupos desde el mayor hacia el menor se quieren mantener (opcional)
    - nombres_index: diccionario opcional para renombrar los índices, ej. {"columna1": "NuevoNombre"}

    Retorna:
    - DataFrame con conteo por grupo y total por grupo (solo últimos n_cuantiles_top si se indica)
    """
    df = df.copy()

    # Ranking porcentual dentro de cada grupo
    df["pct_rank"] = df.groupby(columnas_grupo)[columna_calcular].transform(
        lambda x: x.rank(method='first', pct=True)
    )

    # Asignar grupo cuantílico según ranking
    df["grupo_cuantil"] = (df["pct_rank"] * n_cuantiles).apply(np.ceil).astype(int)

    # Corrección valores fuera de rango por redondeo
    df.loc[df["grupo_cuantil"] < 1, "grupo_cuantil"] = 1
    df.loc[df["grupo_cuantil"] > n_cuantiles, "grupo_cuantil"] = n_cuantiles

    # Contar personas por grupo y cuantil
    conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")

    # Crear tabla pivote
    tabla = conteo.pivot(index=columnas_grupo, columns="grupo_cuantil", values="conteo").fillna(0).astype(int)

    # Si se indica n_cuantiles_top, mantener solo los últimos n grupos
    if n_cuantiles_top is not None:
        ultimos_cuantiles = list(range(n_cuantiles - n_cuantiles_top + 1, n_cuantiles + 1))
        # Filtrar columnas para mantener solo los cuantiles deseados
        tabla = tabla[ultimos_cuantiles]

    # Agregar columna total sumando solo los cuantiles presentes
    tabla["total_personas"] = tabla.sum(axis=1)

    # Renombrar índices si se indica
    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla

In [6]:
def calcular_cuantiles_general(
    df,
    columnas_grupo,
    columna_calcular,
    n_cuantiles=100,
    n_cuantiles_top=None,
    nombres_index=None,
    columna_clasificacion=None
):
    """
    Calcula tabla de cuantiles con conteo de personas por grupo,
    usando ranking porcentual para asignar grupos.

    Opcionalmente clasifica las filas según el valor de una columna numérica
    en 'positiva', 'negativa' o 'nula' y agrega conteo por esas categorías.

    Parámetros:
    - df: DataFrame de entrada
    - columnas_grupo: lista de columnas para agrupar (puede ser 1 o más)
    - columna_calcular: columna sobre la que se calcularán los cuantiles
    - n_cuantiles: número total de grupos en que se divide (deciles=10, percentiles=100, etc.)
    - n_cuantiles_top: cuántos grupos desde el mayor hacia el menor se quieren mantener (opcional)
    - nombres_index: diccionario opcional para renombrar los índices
    - columna_clasificacion: columna numérica para clasificar en 'positiva', 'negativa' o 'nula' (opcional)

    Retorna:
    - DataFrame con conteo por grupo y total de personas por cuantil,
      y por clasificación si se indica columna_clasificacion.
    """
    import numpy as np

    df = df.copy()

    # Ranking porcentual dentro de cada grupo
    df["pct_rank"] = df.groupby(columnas_grupo)[columna_calcular].transform(
        lambda x: x.rank(method='first', pct=True)
    )

    # Asignar grupo cuantílico según ranking
    df["grupo_cuantil"] = (df["pct_rank"] * n_cuantiles).apply(np.ceil).astype(int)
    df["grupo_cuantil"] = df["grupo_cuantil"].clip(1, n_cuantiles)

    if columna_clasificacion:
        # Clasificación en positiva/negativa/nula
        df["clasificacion"] = df[columna_clasificacion].apply(
            lambda x: "positiva" if x > 0 else ("negativa" if x < 0 else "nula")
        )
        # Agrupar por grupo, cuantil y clasificación
        conteo = df.groupby(columnas_grupo + ["grupo_cuantil", "clasificacion"]).size().reset_index(name="conteo")

        # Pivotar tabla para columnas por clasificación
        tabla = conteo.pivot_table(
            index=columnas_grupo + ["grupo_cuantil"],
            columns="clasificacion",
            values="conteo",
            fill_value=0,
            aggfunc="sum"
        )
    else:
        # Sin clasificación, solo contar por grupo y cuantil
        conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")
        tabla = conteo.pivot_table(
            index=columnas_grupo + ["grupo_cuantil"],
            values="conteo"
        )

    # Filtrar últimos cuantiles si se indica
    if n_cuantiles_top is not None:
        ultimos_cuantiles = list(range(n_cuantiles - n_cuantiles_top + 1, n_cuantiles + 1))
        tabla = tabla[tabla.index.get_level_values("grupo_cuantil").isin(ultimos_cuantiles)]

    # Calcular total personas por grupo-cuantil
    tabla["total_personas"] = tabla.sum(axis=1)

    # Renombrar índices si se pide
    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla.reset_index()


### LECTURA

### Lectura TIR

In [7]:
base_tir = pd.read_csv(
    RUTA_TIR + "base_TIR.csv",
    sep=";",
    engine="python",
    encoding="utf-8",
    quoting=csv.QUOTE_NONE
).rename(columns=str.lower)[LLAVE_TIR + COLUMNAS_TIR]


base_tir = clean_percentage_column(base_tir, column_name = "tir")

### Lectura Saber Pro

In [8]:
sb_20231_gen = (
    pd.read_csv(
        RUTA_SABERPRO + "saberpro_20231.txt",
        sep="¬",
        engine="python",
        encoding="utf-8",
        quoting=csv.QUOTE_NONE
    )
    .rename(columns=str.lower)
    .query('estu_prgm_municipio == "BOGOTÁ D.C."')
)[LLAVE_ICFES + COLUMNAS_ICFES]

In [9]:
sb_20212_gen = (
    pd.read_csv(
        RUTA_SABERPRO + "saberpro_2021.txt",
        sep="¬",
        engine="python",
        encoding="utf-8",
        quoting=csv.QUOTE_NONE
    )
    .rename(columns=str.lower)
    .query('estu_prgm_municipio == "BOGOTÁ D.C." and periodo == 20212')
)[LLAVE_ICFES + COLUMNAS_ICFES]

In [10]:
sb_20212_esp = pd.read_csv(
    RUTA_SABERPRO + "saberpro_esp_20212.txt",
    sep="¬",
    engine="python",
    encoding="utf-8",
    quoting=csv.QUOTE_NONE
).rename(columns=str.lower)

### Lectura Saber TYT

In [11]:
tyt_20231_gen = (
    pd.read_csv(
        RUTA_SABERTYT + "SaberTyT_2023-1.txt",
        sep=";",
        engine="python",
        encoding="utf-8",
        quoting=csv.QUOTE_NONE
    )
    .query('estu_prgm_municipio == "BOGOTÁ D.C."')
)#[LLAVE_ICFES + COLUMNAS_ICFES]

------

### MERGE

### Merge pruebas especificas con genericas 2021-2

In [54]:
#Merge purebas especificas con genericas
data_20212 = pd.merge(sb_20212_esp, sb_20212_gen, on = "ESTU_CONSECUTIVO", how = "inner")

In [55]:
estudiantes_duplicados = data_20212.shape[0] - data_20212[["ESTU_CONSECUTIVO", "ESTU_NUCLEO_PREGRADO", "RESULT_NOMBREPRUEBA"]].drop_duplicates().shape[0]

In [56]:
print(f"Estudiantes duplicados: {estudiantes_duplicados}")

Estudiantes duplicados: 0


### Merge Saber pro con base de TIR

In [64]:
data_sbpro_20231 = pd.merge(
    sb_20231_gen,
    base_tir,
    left_on = LLAVE_ICFES,
    right_on = LLAVE_TIR,
    how = "left"
)

In [117]:
data_sbtyt_20231 = pd.merge(
    tyt_20231_gen,
    base_tir,
    left_on = LLAVE_ICFES,
    right_on = LLAVE_TIR,
    how = "left"
)

### Merge Saber TYT con base de TIR

### CALCULAR DECILES

In [120]:
resumen_percentiles_sbpro_gen_20231 = calcular_cuantiles_general(
    df=data_sbpro_20231,
    columnas_grupo=["estu_nucleo_pregrado"],
    columna_calcular="punt_global",
    columna_clasificacion="tir",
    n_cuantiles=100,
    n_cuantiles_top=11
)

In [125]:
resumen_percentiles_sbtyt_gen_20231 = calcular_cuantiles_general(
    df=data_sbtyt_20231,
    columnas_grupo=["estu_nucleo_pregrado"],
    columna_calcular="punt_global",
    columna_clasificacion="tir",
    n_cuantiles=100,
    n_cuantiles_top=11
)

In [131]:
with pd.ExcelWriter("percentiles_sbpro_sbtyt.xlsx") as writer:
    resumen_percentiles_sbtyt_gen_20231.to_excel(writer, sheet_name="percentiles_generales_sbtyt_20231")
    resumen_percentiles_sbpro_gen_20231.to_excel(writer, sheet_name="percentiles_generales_sbpro_20231")



### APENDICE

-----

In [64]:
def calcular_cuantiles(df, columnas_grupo, columna_calcular, n_cuantiles=10, nombres_index=None):
    """
    Calcula tabla de cuantiles con conteos y total de personas por grupo.

    Parámetros:
    - df: DataFrame de entrada
    - columnas_grupo: lista de columnas para agrupar (puede ser 1 o más)
    - columna_calcular: columna sobre la que se calcularán los cuantiles
    - n_cuantiles: número de divisiones (por ejemplo, 10 para deciles, 4 para cuartiles)
    - nombres_index: diccionario opcional para renombrar los índices

    Retorna:
    - DataFrame con conteo por cuantil y total por grupo
    """
    df = df.copy()

    # Calcular grupo de cuantil dentro de cada grupo
    df["grupo_cuantil"] = df.groupby(columnas_grupo)[columna_calcular].transform(
        lambda x: pd.qcut(x, q=n_cuantiles, labels=False) + 1
    )

    # Contar personas por grupo y cuantil
    conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")

    # Crear tabla pivote
    tabla = conteo.pivot(index=columnas_grupo, columns="grupo_cuantil", values="conteo").fillna(0).astype(int)

    # Agregar total por grupo
    tabla["total_personas"] = tabla.sum(axis=1)

    # Renombrar índices si se desea
    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla

In [68]:
import numpy as np

def calcular_cuantiles(df, columnas_grupo, columna_calcular, n_cuantiles=10, nombres_index=None, ruido=1e-6):
    df = df.copy()

    # Añadir ruido pequeño para romper empates
    df[columna_calcular + "_ruido"] = df[columna_calcular] + np.random.uniform(-ruido, ruido, size=len(df))

    df["grupo_cuantil"] = df.groupby(columnas_grupo)[columna_calcular + "_ruido"].transform(
        lambda x: pd.qcut(x, q=n_cuantiles, labels=False) + 1
    )

    conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")

    tabla = conteo.pivot(index=columnas_grupo, columns="grupo_cuantil", values="conteo").fillna(0).astype(int)

    tabla["total_personas"] = tabla.sum(axis=1)

    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla


In [114]:
import numpy as np
import pandas as pd

def calcular_cuantiles(
    df,
    columnas_grupo,
    columna_calcular,
    n_cuantiles=100,
    n_cuantiles_top=None,
    nombres_index=None
):
    """
    Calcula tabla de cuantiles con conteos y total de personas por grupo,
    usando ranking porcentual para asignar grupos.

    Parámetros:
    - df: DataFrame de entrada
    - columnas_grupo: lista de columnas para agrupar (puede ser 1 o más)
    - columna_calcular: columna sobre la que se calcularán los cuantiles
    - n_cuantiles: número total de grupos en que se divide (deciles=10, percentiles=100, etc.)
    - n_cuantiles_top: cuántos grupos desde el mayor hacia el menor se quieren mantener (opcional)
    - nombres_index: diccionario opcional para renombrar los índices, ej. {"columna1": "NuevoNombre"}

    Retorna:
    - DataFrame con conteo por grupo y total por grupo (solo últimos n_cuantiles_top si se indica)
    """
    df = df.copy()

    # Ranking porcentual dentro de cada grupo
    df["pct_rank"] = df.groupby(columnas_grupo)[columna_calcular].transform(
        lambda x: x.rank(method='first', pct=True)
    )

    # Asignar grupo cuantílico según ranking
    df["grupo_cuantil"] = (df["pct_rank"] * n_cuantiles).apply(np.ceil).astype(int)

    # Corrección valores fuera de rango por redondeo
    df.loc[df["grupo_cuantil"] < 1, "grupo_cuantil"] = 1
    df.loc[df["grupo_cuantil"] > n_cuantiles, "grupo_cuantil"] = n_cuantiles

    # Contar personas por grupo y cuantil
    conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")

    # Crear tabla pivote
    tabla = conteo.pivot(index=columnas_grupo, columns="grupo_cuantil", values="conteo").fillna(0).astype(int)

    # Si se indica n_cuantiles_top, mantener solo los últimos n grupos
    if n_cuantiles_top is not None:
        ultimos_cuantiles = list(range(n_cuantiles - n_cuantiles_top + 1, n_cuantiles + 1))
        # Filtrar columnas para mantener solo los cuantiles deseados
        tabla = tabla[ultimos_cuantiles]

    # Agregar columna total sumando solo los cuantiles presentes
    tabla["total_personas"] = tabla.sum(axis=1)

    # Renombrar índices si se indica
    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla


In [66]:
import numpy as np
import pandas as pd

def calcular_cuantiles(df, columnas_grupo, columna_calcular, n_cuantiles=10, nombres_index=None):
    """
    Calcula tabla de cuantiles con conteos y total de personas por grupo,
    usando ranking porcentual para asignar grupos.

    Parámetros:
    - df: DataFrame de entrada
    - columnas_grupo: lista de columnas para agrupar (puede ser 1 o más)
    - columna_calcular: columna sobre la que se calcularán los cuantiles
    - n_cuantiles: número de grupos en que se divide (deciles=10, percentiles=100, etc.)
    - nombres_index: diccionario opcional para renombrar los índices, ej. {"columna1": "NuevoNombre"}

    Retorna:
    - DataFrame con conteo por grupo y total por grupo
    """
    df = df.copy()

    # Ranking porcentual dentro de cada grupo
    df["pct_rank"] = df.groupby(columnas_grupo)[columna_calcular].transform(
        lambda x: x.rank(method='first', pct=True)
    )

    # Asignar grupo cuantílico según ranking
    df["grupo_cuantil"] = (df["pct_rank"] * n_cuantiles).apply(np.ceil).astype(int)

    # Corregir valores que queden en 0 (si los hay)
    df.loc[df["grupo_cuantil"] < 1, "grupo_cuantil"] = 1
    # Corregir valores que queden > n_cuantiles (por efecto redondeo)
    df.loc[df["grupo_cuantil"] > n_cuantiles, "grupo_cuantil"] = n_cuantiles

    # Contar personas por grupo y cuantil
    conteo = df.groupby(columnas_grupo + ["grupo_cuantil"]).size().reset_index(name="conteo")

    # Crear tabla pivote
    tabla = conteo.pivot(index=columnas_grupo, columns="grupo_cuantil", values="conteo").fillna(0).astype(int)

    # Agregar columna de total
    tabla["total_personas"] = tabla.sum(axis=1)

    # Renombrar índices si se indica
    if nombres_index:
        tabla = tabla.rename_axis(index=nombres_index)

    return tabla


In [120]:
deciles_esp_20212 = calcular_cuantiles(data_20212, columnas_grupo = ["ESTU_NUCLEO_PREGRADO", "RESULT_NOMBREPRUEBA"], columna_calcular = "RESULT_PUNTAJE")
deciles_gen_20212 = calcular_cuantiles(sb_20212_gen, columnas_grupo = ["ESTU_NUCLEO_PREGRADO"], columna_calcular = "PUNT_GLOBAL")
deciles_gen_20231 = calcular_cuantiles(sb_20231_gen, columnas_grupo = ["ESTU_NUCLEO_PREGRADO"], columna_calcular = "PUNT_GLOBAL")
percentiles_gen_20231 = calcular_cuantiles(sb_20231_gen, ["ESTU_NUCLEO_PREGRADO"], "PUNT_GLOBAL", n_cuantiles=100,n_cuantiles_top = 11)

with pd.ExcelWriter("percentiles_resultados.xlsx") as writer:
    deciles_esp_20212.to_excel(writer, sheet_name="Deciles_Específicas_20212")
    deciles_gen_20212.to_excel(writer, sheet_name="Deciles_Generales_20212")
    deciles_gen_20231.to_excel(writer, sheet_name="Deciles_Generales_20231")
    percentiles_gen_20231.to_excel(writer, sheet_name="Percentiles_Generales_20231")

In [61]:
# 1. Calcular los límites de deciles por grupo
def obtener_deciles(grupo):
    cuantiles = grupo["RESULT_PUNTAJE"].quantile([i/10 for i in range(1, 10)]).reset_index()
    cuantiles.columns = ["decil", "puntaje"]
    cuantiles["decil"] = cuantiles["decil"].apply(lambda x: int(x * 10))  # convertir 0.1 -> 1, etc.
    cuantiles["RESULT_NOMBREPRUEBA"] = grupo["RESULT_NOMBREPRUEBA"].iloc[0]
    return cuantiles

# Aplicamos la función por grupo
valores_deciles = sb_20212_especificas.groupby("RESULT_NOMBREPRUEBA").apply(obtener_deciles).reset_index(drop=True)

# 2. Asignar el decil como antes
sb_20212_especificas["decil"] = sb_20212_especificas.groupby("RESULT_NOMBREPRUEBA")["RESULT_PUNTAJE"].transform(
    lambda x: pd.qcut(x, 10, labels=False, duplicates="drop") + 1
)

# 3. Contar personas por prueba y decil
conteo_deciles = sb_20212_especificas.groupby(["RESULT_NOMBREPRUEBA", "decil"]).size().reset_index(name="personas")

# 4. Unir con los valores de deciles
conteo_con_valores = conteo_deciles.merge(
    valores_deciles,
    how="left",
    on=["RESULT_NOMBREPRUEBA", "decil"]
)


  valores_deciles = sb_20212_especificas.groupby("RESULT_NOMBREPRUEBA").apply(obtener_deciles).reset_index(drop=True)


In [62]:
conteo_con_valores.head(10)

Unnamed: 0,RESULT_NOMBREPRUEBA,decil,personas,puntaje
0,ANÁLISIS ECONÓMICO,1,401,88.0
1,ANÁLISIS ECONÓMICO,2,399,98.0
2,ANÁLISIS ECONÓMICO,3,369,105.0
3,ANÁLISIS ECONÓMICO,4,380,112.0
4,ANÁLISIS ECONÓMICO,5,381,119.0
5,ANÁLISIS ECONÓMICO,6,400,128.0
6,ANÁLISIS ECONÓMICO,7,369,137.0
7,ANÁLISIS ECONÓMICO,8,389,151.0
8,ANÁLISIS ECONÓMICO,9,397,172.0
9,ANÁLISIS ECONÓMICO,10,370,
