In [None]:
import pandas as pd
import os
import numpy as np
import joblib
import re

from joblib import Parallel, delayed
from tqdm import tqdm
import pandas as pd

import matplotlib.pyplot as plt

from matplotlib.backends.backend_pdf import PdfPages

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import LabelEncoder


#Typing
from typing import List

from datetime import datetime

In [10]:
pd.set_option('display.max_columns', 50)

### **Notebook para proyectar los estados de las convocatorias de Jóvenes a la U**

**Estructura**:
1.  Lectura de datos y del Pipeline (Fine tuned)
2.  Definicion de las matrices de aprobación y perdida acumulada
3.  Limpieza del dataframe
4.  Definicion de funciones para la predicción.
5.  Ejecución de las predicciones.
6.  TO DO: Limpieza de casos atipicos
7.  Graficas con los resultados.

In [11]:
fecha_actual = datetime.now().strftime("%Y%m%d")
print(f"Fecha actual: {fecha_actual}")

Fecha actual: 20251028


### **Lectura de datos**

In [12]:
WEIGHTS_PATH = "../../../03_Modeling/Classification_Task/05_Fine_Tuning/pesos_modelo/"
DATA_PATH = "../../../03_Modeling/Classification_Task/99_Data/Future_Engineering/"

data_file = "panel_after_futureengineering_panelV12.pkl"
version_panel = re.search(r'V\d{2}', data_file).group(0)
print(f"Version Panel: {version_panel}")

df = pd.read_pickle(DATA_PATH + data_file) #panel_estudiantes_v2509.pkl

pipeline = joblib.load(WEIGHTS_PATH + "pipeline_rf_panelV12.pkl")
le = joblib.load(WEIGHTS_PATH + "labelencoder_panelV12.pkl")
thresholds_pr = joblib.load(WEIGHTS_PATH + "prob_thresholds_precisionRecall_panelV12.pkl")

Version Panel: V12


In [13]:
def documentos_no_crecientes(df: pd.DataFrame) -> List[str]:
    """
    Devuelve una lista de documentos cuyo campo 'periodo_orden'
    no es estrictamente creciente dentro de cada grupo de 'DOCUMENTO'.
    
    Args:
        df (pd.DataFrame): DataFrame con las columnas 'DOCUMENTO' y 'periodo_orden'.
    
    Returns:
        List[str]: Lista de identificadores de documentos no crecientes.
    """
    group = df.groupby("DOCUMENTO")['periodo_orden']
    return [doc for doc, periodo in group if not periodo.is_monotonic_increasing]


In [14]:
print(f"Documentos donde periodo_orden no está en orden cronológico {documentos_no_crecientes(df)}")

Documentos donde periodo_orden no está en orden cronológico []


**Corección de duplicados**

In [15]:
print(f"Observaciones antes de correción de duplicados: {df.shape[0]}")
df = df.drop_duplicates(subset=["DOCUMENTO", "estado", "periodo_key"], keep="first")
print(f"Observaciones después de correción de duplicados: {df.shape[0]}")

Observaciones antes de correción de duplicados: 132060
Observaciones después de correción de duplicados: 132060


**Convocatorias a predecir**

### **Definir matrices de aprobación y perdida acumulada por semestre**

### **Matrices de aprobación**

In [16]:
Distr_apr_tecnico = {
    1:  [1.00],
    2:  [0.90, 1.00],
    3:  [0.39, 0.74, 1.00],
    4:  [0.32, 0.61, 0.82, 1.00],
    5:  [0.28, 0.53, 0.71, 0.86, 1.00],
    6:  [0.25, 0.47, 0.63, 0.76, 0.89, 1.00],
    7:  [0.22, 0.42, 0.57, 0.69, 0.80, 0.90, 1.00],
    8:  [0.20, 0.38, 0.52, 0.63, 0.73, 0.82, 0.91, 1.00],
    9:  [0.19, 0.35, 0.48, 0.58, 0.67, 0.76, 0.84, 0.92, 1.00],
    10: [0.17, 0.33, 0.44, 0.54, 0.63, 0.71, 0.79, 0.86, 0.93, 1.00],
    11: [0.16, 0.31, 0.42, 0.51, 0.59, 0.66, 0.74, 0.80, 0.87, 0.94, 1.00],
    12: [0.15, 0.29, 0.39, 0.48, 0.55, 0.62, 0.69, 0.76, 0.82, 0.88, 0.94, 1.00]
}



Distr_apr_tecnologico = {
    1:  [1.00],
    2:  [0.41, 1.00],
    3:  [0.28, 0.69, 1.00],
    4:  [0.22, 0.54, 0.79, 1.00],
    5:  [0.19, 0.46, 0.66, 0.84, 1.00],
    6:  [0.16, 0.40, 0.57, 0.73, 0.87, 1.00],
    7:  [0.14, 0.35, 0.51, 0.65, 0.77, 0.89, 1.00],
    8:  [0.13, 0.32, 0.46, 0.58, 0.69, 0.80, 0.90, 1.00],
    9:  [0.12, 0.29, 0.42, 0.53, 0.63, 0.73, 0.82, 0.91, 1.00],
    10: [0.11, 0.27, 0.39, 0.49, 0.58, 0.67, 0.76, 0.84, 0.92, 1.00],
    11: [0.10, 0.25, 0.36, 0.45, 0.54, 0.62, 0.70, 0.78, 0.86, 0.93, 1.00],
    12: [0.09, 0.23, 0.33, 0.42, 0.51, 0.58, 0.66, 0.73, 0.80, 0.87, 0.93, 1.00],
    13: [0.09, 0.22, 0.31, 0.40, 0.48, 0.55, 0.62, 0.68, 0.75, 0.81, 0.88, 0.94, 1.00],
    14: [0.08, 0.20, 0.30, 0.38, 0.45, 0.52, 0.58, 0.65, 0.71, 0.77, 0.83, 0.89, 0.94, 1.00],
    15: [0.08, 0.19, 0.28, 0.36, 0.42, 0.49, 0.55, 0.61, 0.67, 0.73, 0.78, 0.84, 0.89, 0.95, 1.00],
    16: [0.07, 0.18, 0.27, 0.34, 0.40, 0.46, 0.52, 0.58, 0.64, 0.69, 0.74, 0.80, 0.85, 0.90, 0.95, 1.00]
}



Distr_apr_universitario = {
    1:  [1.00],
    2:  [0.45, 1.00],
    3:  [0.29, 0.64, 1.00],
    4:  [0.22, 0.49, 0.77, 1.00],
    5:  [0.18, 0.40, 0.63, 0.83, 1.00],
    6:  [0.16, 0.35, 0.54, 0.71, 0.861, 1.00],
    7:  [0.14, 0.31, 0.48, 0.63, 0.76, 0.88, 1.00],
    8:  [0.12, 0.28, 0.43, 0.57, 0.69, 0.80, 0.90, 1.00],
    9:  [0.11, 0.25, 0.39, 0.52, 0.62, 0.73, 0.82, 0.91, 1.00],
    10: [0.10, 0.23, 0.36, 0.48, 0.58, 0.67, 0.76, 0.84, 0.92, 1.00],
    11: [0.10, 0.21, 0.34, 0.44, 0.53, 0.62, 0.70, 0.78, 0.86, 0.93, 1.00],
    12: [0.09, 0.20, 0.32, 0.41, 0.50, 0.58, 0.66, 0.73, 0.80, 0.87, 0.93, 1.00],
    13: [0.08, 0.19, 0.30, 0.39, 0.47, 0.54, 0.62, 0.68, 0.75, 0.81, 0.88, 0.94, 1.00],
    14: [0.08, 0.18, 0.28, 0.37, 0.44, 0.51, 0.58, 0.65, 0.71, 0.77, 0.83, 0.89, 0.94, 1.00],
    15: [0.08, 0.17, 0.26, 0.35, 0.42, 0.49, 0.55, 0.61, 0.67, 0.73, 0.78, 0.84, 0.89, 0.95, 1.00],
    16: [0.07, 0.16, 0.25, 0.33, 0.40, 0.46, 0.52, 0.58, 0.64, 0.69, 0.75, 0.80, 0.85, 0.90, 0.95, 1.00],
    17: [0.07, 0.15, 0.24, 0.31, 0.38, 0.44, 0.50, 0.55, 0.61, 0.66, 0.71, 0.76, 0.81, 0.86, 0.91, 0.95, 1.00],
    18: [0.07, 0.15, 0.23, 0.30, 0.36, 0.42, 0.48, 0.53, 0.58, 0.63, 0.68, 0.73, 0.77, 0.82, 0.87, 0.91, 0.96, 1.00]
}


### **Matrices de pérdida**

In [17]:

#Matrices de perdida acumulada

Distr_tecnico = {
    1:  [1.00],
    2:  [0.90, 1.00],
    3:  [0.75, 0.91, 1.00],
    4:  [0.70, 0.85, 0.94, 1.00],
    5:  [0.67, 0.81, 0.90, 0.95, 1.00],
    6:  [0.65, 0.78, 0.86, 0.92, 0.96, 1.00],
    7:  [0.63, 0.76, 0.84, 0.89, 0.94, 0.97, 1.00],
    8:  [0.61, 0.74, 0.82, 0.87, 0.91, 0.95, 0.98, 1.00],
    9:  [0.60, 0.73, 0.80, 0.85, 0.89, 0.93, 0.95, 0.98, 1.00],
    10: [0.59, 0.71, 0.79, 0.84, 0.88, 0.91, 0.94, 0.96, 0.98, 1.00],
    11: [0.58, 0.70, 0.77, 0.82, 0.86, 0.89, 0.92, 0.94, 0.96, 0.98, 1.00],
    12: [0.57, 0.69, 0.76, 0.81, 0.85, 0.88, 0.91, 0.93, 0.95, 0.97, 0.98, 1.00]
}

Distr_tecnologico = {
    1:  [1.00],
    2:  [0.46, 1.00],
    3:  [0.35, 0.76, 1.00],
    4:  [0.30, 0.65, 0.86, 1.00],
    5:  [0.27, 0.59, 0.77, 0.90, 1.00],
    6:  [0.25, 0.54, 0.71, 0.83, 0.92, 1.00],
    7:  [0.24, 0.51, 0.67, 0.78, 0.87, 0.94, 1.00],
    8:  [0.22, 0.48, 0.63, 0.74, 0.82, 0.89, 0.95, 1.00],
    9:  [0.21, 0.46, 0.61, 0.71, 0.79, 0.86, 0.91, 0.96, 1.00],
    10: [0.21, 0.45, 0.59, 0.68, 0.76, 0.82, 0.88, 0.92, 0.96, 1.00],
    11: [0.20, 0.43, 0.57, 0.66, 0.74, 0.80, 0.85, 0.89, 0.93, 0.97, 1.00],
    12: [0.19, 0.42, 0.55, 0.64, 0.72, 0.78, 0.83, 0.87, 0.91, 0.94, 0.97, 1.00],
    13: [0.19, 0.41, 0.54, 0.63, 0.70, 0.76, 0.80, 0.85, 0.88, 0.92, 0.95, 0.97, 1.00],
    14: [0.19, 0.40, 0.52, 0.61, 0.68, 0.74, 0.79, 0.83, 0.86, 0.90, 0.93, 0.95, 0.98, 1.00],
    15: [0.18, 0.39, 0.51, 0.60, 0.67, 0.72, 0.77, 0.81, 0.85, 0.88, 0.91, 0.93, 0.96, 0.98, 1.00],
    16: [0.18, 0.38, 0.50, 0.59, 0.66, 0.71, 0.75, 0.79, 0.83, 0.86, 0.89, 0.91, 0.94, 0.96, 0.98, 1.00]
}

Distr_universitario = {
    1:  [1.00],
    2:  [0.67, 1.00],
    3:  [0.56, 0.84, 1.00],
    4:  [0.50, 0.75, 0.90, 1.00],
    5:  [0.46, 0.69, 0.83, 0.93, 1.00],
    6:  [0.44, 0.65, 0.78, 0.87, 0.943, 1.00],
    7:  [0.42, 0.62, 0.75, 0.83, 0.90, 0.95, 1.00],
    8:  [0.40, 0.60, 0.72, 0.80, 0.86, 0.92, 0.96, 1.00],
    9:  [0.39, 0.58, 0.69, 0.77, 0.84, 0.89, 0.93, 0.97, 1.00],
    10: [0.38, 0.56, 0.67, 0.75, 0.81, 0.86, 0.90, 0.94, 0.97, 1.00],
    11: [0.37, 0.55, 0.66, 0.73, 0.79, 0.84, 0.88, 0.92, 0.95, 0.97, 1.00],
    12: [0.36, 0.54, 0.64, 0.72, 0.77, 0.82, 0.86, 0.90, 0.93, 0.95, 0.98, 1.00],
    13: [0.35, 0.53, 0.63, 0.70, 0.76, 0.80, 0.84, 0.88, 0.91, 0.93, 0.96, 0.98, 1.00],
    14: [0.35, 0.52, 0.62, 0.69, 0.74, 0.79, 0.83, 0.86, 0.89, 0.92, 0.94, 0.96, 0.98, 1.00],
    15: [0.34, 0.51, 0.61, 0.68, 0.73, 0.78, 0.81, 0.85, 0.88, 0.90, 0.92, 0.95, 0.97, 0.98, 1.00],
    16: [0.33, 0.50, 0.60, 0.67, 0.72, 0.76, 0.80, 0.83, 0.86, 0.89, 0.91, 0.93, 0.95, 0.97, 0.98, 1.00],
    17: [0.33, 0.49, 0.59, 0.66, 0.71, 0.75, 0.79, 0.82, 0.85, 0.87, 0.90, 0.92, 0.94, 0.95, 0.97, 0.99, 1.00],
    18: [0.32, 0.49, 0.58, 0.65, 0.70, 0.74, 0.78, 0.81, 0.84, 0.86, 0.88, 0.91, 0.92, 0.94, 0.96, 0.97, 0.99, 1.00]
}

**Manipulación dataframe**
1. Normalizar periodos a semestres
2. Recuperar la última observación de los jovenes de JE1 y JE2
3. Obtener los datos de JU1-JU6

**1. Normalizar periodos a semestres**

**TODO:**

- [ ] La normalización de los periodos debe ir en la sección de cleaning o future engineering

In [18]:
df["PERIODOS_BD_SNIES"] = np.where(
    (df["PERIODOS_BD_SNIES"] > 12) &
    (df["NIVEL_FORMACION"] != "UNIVERSITARIO"),
    df["PERIODOS_BD_SNIES"] // 6,  # conversión a semestres
    df["PERIODOS_BD_SNIES"]        # se mantiene igual
)

**2. Recuperar la ultima observacion de los Jovenes de JE1 y JE2**

In [19]:
#Recuperar la ultima observaciones de los jovenes de JE1 y JE2.

# Filtramos por convocatoria
df_JE = df.query("CONVOCATORIA in ['JE1', 'JE2']")

# Si 'semestre' indica el orden temporal, usamos sort_values + drop_duplicates
#dataframe con los jovenes de JE1 y JE2
df_ultimas_observaciones_je = (
    df_JE
    .sort_values(["DOCUMENTO", "semestre"], ascending = True)   # ordenamos por documento y semestre
    .drop_duplicates("DOCUMENTO", keep="last") # nos quedamos con la última por documento
)

df_ultimas_observaciones_je[
    'creditos_x_semestre'
    ] = df_ultimas_observaciones_je['CREDITOS_PROGRAMA']/df_ultimas_observaciones_je['PERIODOS_BD_SNIES']

df_ultimas_observaciones_je['pct_aprob_acum_teorica'] = (
    df_ultimas_observaciones_je.creditos_x_semestre/df_ultimas_observaciones_je.CREDITOS_PROGRAMA
)*df_ultimas_observaciones_je['semestre']

In [20]:
df_JE.groupby("CONVOCATORIA")["DOCUMENTO"].nunique()

CONVOCATORIA
JE1    2296
JE2      34
Name: DOCUMENTO, dtype: int64

**3. Obtener los datos de JU1-JU6**

In [21]:
df_JU = df[~df["DOCUMENTO"].isin(df_ultimas_observaciones_je["DOCUMENTO"])]

## **Pipeline de predicción**

**Definicion de funciones para la predicción**

In [22]:
def predict_with_thresholds(
    pipeline: "sklearn.pipeline.Pipeline",
    X: "pd.DataFrame | np.ndarray",
    thresholds: dict[str, float],
    classes: "list[str] | np.ndarray"
) -> tuple[list[str], pd.DataFrame]:
    """
    Genera predicciones aplicando umbrales personalizados por clase en lugar de 
    usar el criterio estándar de argmax de predict_proba. También devuelve las
    probabilidades estimadas por el modelo para cada clase.

    Parameters
    ----------
    pipeline : sklearn.Pipeline
        Pipeline ya entrenado que incluye tanto el preprocesamiento como el modelo.
    X : pandas.DataFrame o numpy.ndarray
        Observaciones de entrada para predecir.
    thresholds : dict[str, float]
        Diccionario con thresholds por clase, e.g. {"Abandono": 0.5, "Aplazado": 0.42, "Matriculado": 0.5}.
    classes : list[str] o np.ndarray
        Lista de clases en el mismo orden que las columnas de predict_proba (e.g. le.classes_).

    Returns
    -------
    preds : list[str]
        Lista de etiquetas predichas (una por observación).
    probas_df : pandas.DataFrame
        DataFrame con las probabilidades por clase. 
        Las columnas se nombran como "prob_<nombre_clase>".
        Ejemplo: ["prob_Abandono", "prob_Aplazado", "prob_Matriculado"].

    Notes
    -----
    - Para cada observación, se identifican las clases cuya probabilidad supera su threshold.
    - Si varias clases lo superan, se elige la de mayor probabilidad.
    - Si ninguna supera su threshold, se usa el argmax tradicional.
    - Esta versión extiende la anterior agregando las probabilidades por clase al retorno.
    """
    probas = pipeline.predict_proba(X)
    preds = []

    # recorrer cada observación
    for row in probas:
        passed = [c for c, p in zip(classes, row) if p >= thresholds[c]]
        if passed:
            idx = np.argmax([row[list(classes).index(c)] for c in passed])
            final_class = passed[idx]
        else:
            final_class = classes[row.argmax()]
        preds.append(final_class)

    # convertir probabilidades a DataFrame con nombres de columnas claros
    probas_df = pd.DataFrame(probas, columns=[f"prob_{c}" for c in classes])

    return preds, probas_df


In [23]:
# ==========================
# Estados absorbentes
# ==========================
ABSORBENTES = {"Graduado", "Abandono", "Pérdida_del_beneficio", "Sin_bolsa_de_creditos"}

# ==========================
# Función de predicción (reglas + modelo)
# ==========================
def predecir_estado(
    df: pd.DataFrame,
    pipeline: "sklearn.pipeline.Pipeline",
    le: "sklearn.preprocessing.LabelEncoder",
    thresholds: dict[str, float]
) -> dict[str, list]:
    """
    Predice el estado siguiente aplicando primero reglas de negocio y,
    si no se cumplen, usa el modelo con thresholds optimizados.

    Si una observación cumple una regla, se asigna una probabilidad de 1.0 
    a la clase correspondiente y se registra la razón textual.
    Si no cumple ninguna regla, el estado y las probabilidades se obtienen 
    del modelo predictivo.

    Parameters
    ----------
    df : pandas.DataFrame
        DataFrame de entrada con las variables necesarias para la predicción.
    pipeline : sklearn.Pipeline
        Pipeline entrenado (incluye preprocesamiento y modelo).
    le : sklearn.preprocessing.LabelEncoder
        Codificador de etiquetas de clase (usado para mapear las salidas del modelo).
    thresholds : dict[str, float]
        Umbrales personalizados por clase (e.g. {"Abandono": 0.5, "Aplazado": 0.42, "Matriculado": 0.5}).

    Returns
    -------
    resultados : dict
        Diccionario con tres llaves:
        - "estado": list[str] → etiqueta final por observación.
        - "probabilidades": list[dict[str, float]] → probabilidades por clase.
        - "razon_estado": list[str] → descripción textual del origen:
            - "Regla: ..." si se aplicó una regla.
            - "Modelo" si fue predicho por el modelo.

    Notes
    -----
    - Las reglas de negocio tienen prioridad sobre las predicciones del modelo.
    - Las probabilidades del modelo provienen de `pipeline.predict_proba(X)` y se ajustan
      según los thresholds especificados.
    """

    df = df.copy()
    n = len(df)

    # Inicialización de vectores
    resultados = np.full(n, None, dtype=object)
    razon_estado = np.full(n, None, dtype=object)
    probas_df = pd.DataFrame(0.0, index=df.index, columns=[f"prob_{c}" for c in le.classes_])

    # ====== REGLAS vectorizadas ======
    reglas = [
        (df["N_Aplazado"] >= 4, "Abandono", "Regla: 4 o más aplazados consecutivos"),
        (df["N_Abandono"] >= 1, "Abandono", "Regla: Historial de abandono previo"),
        (df["N_Sin_bolsa_de_creditos"] >= 1, "Sin_bolsa_de_creditos", "Regla: Ya tuvo sin bolsa de créditos"),
        (
            (df["pct_aprob_acum"] + df["pct_perd_acum"] >= 1.1)
            & (df["N_Periodos_adicionales"] < 4)
            & (df["pct_perd_acum"] > 0.1),
            "Sin_bolsa_de_creditos",
            "Regla: Exceso de créditos acumulados (>110%) con pérdida moderada"
        ),
        (df["N_Periodos_adicionales"] > 4, "Pérdida_del_beneficio", "Regla: Más de 4 periodos adicionales"),
        (df["N_Pérdida_del_beneficio"] >= 1, "Pérdida_del_beneficio", "Regla: Ya tuvo pérdida del beneficio"),
        (df["N_Graduado"] >= 1, "Graduado", "Regla: Ya tiene graduado"),
        (df["pct_aprob_acum"] >= 0.95, "Graduado", "Regla: Aprobó 95% o más de los créditos"),
    ]

    # Aplicar reglas
    for mask, estado, razon in reglas:
        resultados[mask.values] = estado
        razon_estado[mask.values] = razon
        clase_col = f"prob_{estado}"
        if clase_col in probas_df.columns:
            probas_df.loc[mask, clase_col] = 1.0  # Regla = probabilidad total 1

    # ====== MODELO ======
    mask_modelo = pd.isna(resultados)
    if mask_modelo.any():
        # Obtener predicciones y probabilidades del modelo
        X_pred = df.loc[mask_modelo, :]
        y_proba = pipeline.predict_proba(X_pred)

        # Convertir a DataFrame
        model_probas = pd.DataFrame(y_proba, columns=[f"prob_{c}" for c in le.classes_], index=X_pred.index)
        probas_df.loc[mask_modelo, :] = model_probas

        # Aplicar thresholds personalizados
        for i, row in model_probas.iterrows():
            clase_pred = None
            for clase in le.classes_:
                if clase not in thresholds:
                    raise ValueError(f"No se encontró threshold definido para la clase '{clase}'")
                if row[f"prob_{clase}"] >= thresholds[clase]:
                    clase_pred = clase
                    break
            # Asignar la predicción: primera clase que cumple threshold o argmax
            resultados[i] = clase_pred if clase_pred else le.classes_[np.argmax(row.values)]
            razon_estado[i] = "Modelo"


    # ====== RESULTADO FINAL ======
    # Convertimos las filas de probas_df en dicts para devolver una estructura más limpia
    probabilidades = [
        {col.replace("prob_", ""): row[col] for col in probas_df.columns}
        for _, row in probas_df.iterrows()
    ]

    return {
        "estado": resultados.tolist(),
        "probabilidades": probabilidades,
        "razon_estado": razon_estado.tolist(),
    }


# ==========================
# Función auxiliar para actualizar % acumulados
# ==========================
def actualizar_pct(
    pct_actual: float,
    periodo: int,
    distr: dict[int, list[float]]
) -> float:
    """
    Actualiza el porcentaje acumulado de aprobación o pérdida 
    del periodo t → t+1 usando una distribución empírica.

    Parameters
    ----------
    pct_actual : float
        Porcentaje acumulado actual del estudiante (entre 0 y 1).
    periodo : int
        Número de periodo o semestre actual del estudiante.
    distr : dict[int, list[float]]
        Distribución empírica de porcentajes para el nivel de formación,
        donde las claves son los periodos y los valores son listas de porcentajes.

    Returns
    -------
    float
        Porcentaje acumulado actualizado, truncado a un máximo de 1.0.

    Notes
    -----
    - Si la distribución no contiene información suficiente (lista vacía o con menos de 2 elementos),
      el porcentaje acumulado no se modifica.
    - Si el valor penúltimo de la lista es cero, se evita la división y se conserva el valor actual.
    - El valor resultante se limita a 1.0 como máximo.
    """

    lista_t1 = distr.get(periodo)
    if not lista_t1 or len(lista_t1) < 2:
        return pct_actual
    penultimo = lista_t1[-2]
    if penultimo == 0:
        return pct_actual
    nuevo_pct = pct_actual / penultimo
    return min(nuevo_pct, 1.0)

# ==========================
# Simulación de trayectoria
# ==========================
def simular_trayectoria(
    fila_inicial: pd.Series,
    clf: "sklearn.pipeline.Pipeline",
    le: "sklearn.preprocessing.LabelEncoder",
    Distr_apr_tecnico: dict[int, list[float]],
    Distr_tecnico: dict[int, list[float]],
    Distr_apr_tecnologico: dict[int, list[float]],
    Distr_tecnologico: dict[int, list[float]],
    Distr_apr_universitario: dict[int, list[float]],
    Distr_universitario: dict[int, list[float]],
    thresholds: dict[str, float],
    max_iter: int = 20
) -> pd.DataFrame:
    """
    Simula la trayectoria académica de un estudiante a lo largo de varios semestres,
    aplicando reglas de negocio y predicciones de un modelo supervisado.

    Parameters
    ----------
    fila_inicial : pandas.Series
        Registro inicial del estudiante con sus variables académicas y de contexto.
        Debe incluir campos como "NIVEL_FORMACION", "semestre", "pct_aprob_acum", etc.
    clf : sklearn.Pipeline
        Pipeline entrenado que contiene el preprocesamiento y el modelo predictivo.
    le : sklearn.preprocessing.LabelEncoder
        Codificador de etiquetas usado durante el entrenamiento del modelo.
    Distr_apr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel técnico).
    Distr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel técnico).
    Distr_apr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel tecnológico).
    Distr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel tecnológico).
    Distr_apr_universitario : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel universitario).
    Distr_universitario : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel universitario).
    thresholds : dict[str, float]
        Umbrales por clase usados para ajustar las predicciones del modelo.
    max_iter : int, optional (default=20)
        Número máximo de semestres a simular.

    Returns
    -------
    pandas.DataFrame
        Trayectoria completa del estudiante, donde cada fila representa
        un semestre simulado con sus variables actualizadas y el estado
        resultante ("Matriculado", "Abandono", "Graduado", etc.).

    Notes
    -----
    - La simulación avanza semestre a semestre hasta alcanzar un estado absorbente
      (por ejemplo, "Abandono" o "Graduado") o el límite de iteraciones.
    - Se actualizan dinámicamente los contadores de estado, los porcentajes acumulados
      y los periodos adicionales con base en reglas empíricas y las predicciones del modelo.
    - Por defecto, todo estudiante inicia en estado "Matriculado" si no se especifica otro.
    """

    fila = fila_inicial.to_dict()
    nivel = fila["NIVEL_FORMACION"]

    if "TECNICA" in nivel.upper():
        distr_aprob, distr_perd = Distr_apr_tecnico, Distr_tecnico
    elif "TECNOLOG" in nivel.upper():
        distr_aprob, distr_perd = Distr_apr_tecnologico, Distr_tecnologico
    elif "UNIVERSITARIO" in nivel.upper():
        distr_aprob, distr_perd = Distr_apr_universitario, Distr_universitario
    else:
        raise ValueError(f"Nivel de formación no reconocido: {nivel}")

    # ====== estado inicial ======
    #Esto garantiza que toda simulación arranque con un estado definido, y por defecto se asume que todo estudiante parte como "Matriculado".
    fila["estado"] = fila.get("estado", "Matriculado")
    
    # 🔹 CAMBIO 1: ahora predecir_estado devuelve también probabilidades y razón
    pred_estado = predecir_estado(pd.DataFrame([fila]), clf, le, thresholds)

    # Extraer valores de la tupla devuelta (estado, dict_probs, razon)
    fila["estado_next"] = pred_estado["estado"][0]
    fila["razon_estado"] = pred_estado["razon_estado"][0]
    
    # Crear columnas de probabilidad por clase (prob_<clase>)
    for clase, prob in pred_estado["probabilidades"][0].items():
        fila[f"prob_{clase}"] = prob
    
    trayectoria = [fila.copy()]

    for _ in range(max_iter):
        if fila["estado"] in ABSORBENTES:
            break
        estado_actual = fila["estado_next"]
        
        nueva = fila.copy()
        nueva["estado"] = estado_actual
        nueva["semestre"] += 1

        # ====== contadores ======
        key = f"N_{estado_actual}"
        if key in nueva:
            nueva[key] += 1

        # ====== actualizar % ======
        if estado_actual == "Matriculado":
            periodo = int(nueva["N_Matriculado"])
            if (periodo + 1) not in distr_aprob or (periodo + 1) not in distr_perd:
                break
            nueva["pct_aprob_acum"] = actualizar_pct(fila["pct_aprob_acum"], periodo, distr_aprob)
            nueva["pct_perd_acum"] = actualizar_pct(fila["pct_perd_acum"], periodo, distr_perd)

        # ====== periodos adicionales ======
        nueva["N_Periodos_adicionales"] = max(nueva["semestre"] - nueva["PERIODOS_BD_SNIES"], 0)
        nueva["N_Matriculas_adicionales"] = max(nueva["N_Matriculado"] - nueva["PERIODOS_BD_SNIES"], 0)

        # ====== periodo_key ======
        pk = fila["periodo_key"]
        anio, sem = divmod(pk, 10)
        nueva["periodo_key"] = anio * 10 + (2 if sem == 1 else 1 + 10)

        # ====== estado siguiente ======
        # 🔹 CAMBIO 2: incluir también probabilidades y razón del estado
        pred_estado = predecir_estado(pd.DataFrame([nueva]), clf, le, thresholds)
        
        nueva["estado_next"] = pred_estado["estado"][0]
        nueva["razon_estado"] = pred_estado["razon_estado"][0]
        
        # Crear columnas de probabilidad por clase (prob_<clase>)
        for clase, prob in pred_estado["probabilidades"][0].items():
            nueva[f"prob_{clase}"] = prob
        

        trayectoria.append(nueva.copy())
        fila = nueva

        if nueva["estado_next"] in ABSORBENTES:
            final = fila.copy()
            final["estado"] = final["estado_next"]
            key = f"N_{final['estado_next']}"
            if key in final:
                final[key] += 1
            trayectoria.append(final.copy())
            break

    return pd.DataFrame(trayectoria)

# ==========================
# Simular todas las cédulas
# ==========================
def simular_todas(
    df: pd.DataFrame,
    clf: "sklearn.pipeline.Pipeline",
    le: "sklearn.preprocessing.LabelEncoder",
    Distr_apr_tecnico: dict[int, list[float]],
    Distr_tecnico: dict[int, list[float]],
    Distr_apr_tecnologico: dict[int, list[float]],
    Distr_tecnologico: dict[int, list[float]],
    Distr_apr_universitario: dict[int, list[float]],
    Distr_universitario: dict[int, list[float]],
    thresholds: dict[str, float],
    max_iter: int = 20
) -> pd.DataFrame:
    """
    Simula las trayectorias académicas de todos los estudiantes únicos en un DataFrame,
    llamando internamente a `simular_trayectoria` para cada cédula.

    Parameters
    ----------
    df : pandas.DataFrame
        Dataset filtrado con la información inicial de los estudiantes.
        Puede contener múltiples filas por cédula, pero se tomará la última.
    pipeline : sklearn.Pipeline
        Pipeline entrenado que incluye preprocesamiento y modelo predictivo.
    le : sklearn.preprocessing.LabelEncoder
        Codificador de clases utilizado durante el entrenamiento del modelo.
    Distr_apr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel técnico).
    Distr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel técnico).
    Distr_apr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel tecnológico).
    Distr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel tecnológico).
    Distr_apr_universitario : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel universitario).
    Distr_universitario : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel universitario).
    thresholds : dict[str, float]
        Diccionario con los umbrales personalizados por clase.
    max_iter : int, optional (default=20)
        Número máximo de semestres a simular por estudiante.

    Returns
    -------
    pandas.DataFrame
        DataFrame consolidado con las trayectorias de todos los estudiantes.
        Cada cédula aparece repetida a lo largo de su secuencia temporal simulada.

    Notes
    -----
    - La función identifica los estudiantes únicos por el campo "DOCUMENTO".
    - Se toma una única fila inicial por cédula (la más reciente).
    - Cada estudiante se simula de manera independiente mediante `simular_trayectoria`.
    - Los resultados se concatenan en un único DataFrame final.
    """

    df_iniciales = df.drop_duplicates(subset=["DOCUMENTO"], keep = 'last').set_index("DOCUMENTO")

    trayectorias = []

    for cedula, fila in df_iniciales.iterrows():
        trayectoria = simular_trayectoria(
            fila, pipeline, le,
            Distr_apr_tecnico, Distr_tecnico,
            Distr_apr_tecnologico, Distr_tecnologico,
            Distr_apr_universitario, Distr_universitario,
            thresholds, max_iter
        )
        trayectoria["CEDULA"] = cedula
        trayectorias.append(trayectoria)

    return pd.concat(trayectorias, ignore_index=True)


In [24]:
def simular_todas_paralelo(
    df: pd.DataFrame,
    pipeline: "sklearn.pipeline.Pipeline",
    le: "sklearn.preprocessing.LabelEncoder",
    Distr_apr_tecnico: dict[int, list[float]],
    Distr_tecnico: dict[int, list[float]],
    Distr_apr_tecnologico: dict[int, list[float]],
    Distr_tecnologico: dict[int, list[float]],
    Distr_apr_universitario: dict[int, list[float]],
    Distr_universitario: dict[int, list[float]],
    thresholds: dict[str, float],
    max_iter: int = 20,
    n_jobs: int = -1
) -> pd.DataFrame:
    """
    Simula trayectorias académicas para todas las cédulas en paralelo usando joblib,
    mostrando una barra de progreso mediante tqdm.

    Parameters
    ----------
    df : pandas.DataFrame
        Dataset original con estudiantes (puede contener múltiples filas por cédula).
        Se tomará una única fila por estudiante (la más reciente).
    pipeline : sklearn.Pipeline
        Pipeline entrenado que incluye tanto el preprocesamiento como el modelo predictivo.
    le : sklearn.preprocessing.LabelEncoder
        Codificador de clases usado en el entrenamiento.
    Distr_apr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel técnico).
    Distr_tecnico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel técnico).
    Distr_apr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel tecnológico).
    Distr_tecnologico : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel tecnológico).
    Distr_apr_universitario : dict[int, list[float]]
        Distribución empírica de créditos aprobados por semestre (nivel universitario).
    Distr_universitario : dict[int, list[float]]
        Distribución empírica de créditos perdidos por semestre (nivel universitario).
    thresholds : dict[str, float]
        Diccionario con umbrales personalizados por clase.
    max_iter : int, optional (default=20)
        Número máximo de semestres a simular por estudiante.
    n_jobs : int, optional (default=-1)
        Número de núcleos a utilizar en paralelo (-1 = usar todos los disponibles).

    Returns
    -------
    pandas.DataFrame
        DataFrame concatenado con las trayectorias simuladas de todos los estudiantes.

    Notes
    -----
    - Utiliza `joblib.Parallel` y `joblib.delayed` para acelerar la simulación.
    - Muestra una barra de progreso mediante `tqdm` durante la ejecución.
    - Internamente llama a `simular_trayectoria` para cada cédula.
    - Cada fila del DataFrame resultante representa un estado temporal en la trayectoria simulada.
    """
    
    # 0. MUY IMPORTANTE: Orden cronologicamente las observaciones. 
    df = df.sort_values(by=["DOCUMENTO", "semestre"], ascending=True) 
    # 1. MUY IMPORTANTE: Tomar la observación más reciente del individuo.
    df_iniciales = df.drop_duplicates(subset=["DOCUMENTO"], keep = 'last').set_index("DOCUMENTO")

    # 2. Definir función para cada cédula
    def simular_por_cedula(fila):
        trayectoria = simular_trayectoria(
            fila_inicial=fila,
            clf=pipeline,
            le=le,
            Distr_apr_tecnico=Distr_apr_tecnico,
            Distr_tecnico=Distr_tecnico,
            Distr_apr_tecnologico=Distr_apr_tecnologico,
            Distr_tecnologico=Distr_tecnologico,
            Distr_apr_universitario=Distr_apr_universitario,
            Distr_universitario=Distr_universitario,
            thresholds=thresholds,
            max_iter=max_iter
        )
        trayectoria["CEDULA"] = fila.name
        return trayectoria

    # 3. Paralelizar ejecución con tqdm sobre iterrows
    trayectorias = Parallel(n_jobs=n_jobs)(
        delayed(simular_por_cedula)(fila)
        for _, fila in tqdm(df_iniciales.iterrows(),
                            total=len(df_iniciales),
                            desc="Simulando trayectorias")
    )

    # 4. Concatenar resultados
    return pd.concat(trayectorias, ignore_index=True)


**Escenarios de proyeccion para JE1 Y JE2:**

0. Asumir que todos el mundo tendrá mínimo el 10% de aprobacion
1. Asumir que todo el mundo tendrá el % de aprobación teorica
2. Asumir que el % de aprobación se comportará como el % de aprobación teorica más un ruido gaussiano
3. Asumir que el % de aprobación se comportará como se ha comportado en los primeros 2 semestres del pasado

En este punto tenemos:
- **a)** Dataframe con todos los jovenes (aka *df*)
- **b)** dataframe con las observaciones de JE1 y JE2  (aka df_ultimas_observaciones_je)

In [25]:
#Escenario 2: Asumir que todos los que tienen pct aprobado == 0 aprobaran el 10% + o - un ruido Gaussiano
# Fijamos la semilla
np.random.seed(42)

mask = df_ultimas_observaciones_je['pct_aprob_acum'] == 0

# Generamos ruido gaussiano reproducible SOLO para los ceros
ruido = np.random.normal(loc=0.03, scale=0.01, size=mask.sum())

df_ultimas_observaciones_je.loc[mask, 'pct_aprob_acum'] = 0.1 + ruido

**Seleccion del DataFrame**

In [26]:
import ipywidgets as widgets
from IPython.display import display

# --- Diccionario con las tres opciones de dataframes---
dataframes = {
    "JE": df_ultimas_observaciones_je,
    "JU": df_JU,
    "completo": df
}

# --- Instanciar selector interactivo ---
selector_df = widgets.Dropdown(
    options=[("JE", "JE"),
             ("JU", "JU"),
             ("Completo JU-JE", "completo"),
            ],
    description="Selecciona df:",
    value="JE",
    style={"description_width": "initial"},
    layout=widgets.Layout(width="60%")
)

display(selector_df)

Dropdown(description='Selecciona df:', layout=Layout(width='60%'), options=(('JE', 'JE'), ('JU', 'JU'), ('Comp…

**Simular las trayectorias**

In [27]:
df_trayectorias = simular_todas_paralelo(
    df=dataframes[selector_df.value], #Posibles dataframes: df_ultimas_observaciones_je,#df,
    pipeline=pipeline,
    le=le,
    Distr_apr_tecnico=Distr_apr_tecnico,
    Distr_tecnico=Distr_tecnico,
    Distr_apr_tecnologico=Distr_apr_tecnologico,
    Distr_tecnologico=Distr_tecnologico,
    Distr_apr_universitario=Distr_apr_universitario,
    Distr_universitario=Distr_universitario,
    thresholds=thresholds_pr,
    max_iter=20,
    n_jobs=-1  # Usa todos los núcleos disponibles
)

Simulando trayectorias: 100%|██████████████████████████████████████████████████████| 2330/2330 [12:28<00:00,  3.11it/s]


**Guardar resultados**

In [30]:
df_trayectorias.to_pickle(f"trayectorias/trayectorias_{selector_df.value}_panel{version_panel}_{fecha_actual}.pkl")
df_trayectorias.to_excel(f"trayectorias/trayectorias_{selector_df.value}_panel{version_panel}_{fecha_actual}.xlsx", index=False)

**Nota: 16-10-2025**

Dado que el modelo está sobreestimando los abandonos para JE1 y JE2, vamos a utilizar el modelo de abandono hecho por Raúl. 
El flujo (provicional) es pasarle la base de las personas tales que:

1. Su estado actual no es abandono pero su estado_next lo es.
2. El modelo clasificó al beneficiario en abanadono directamente (no se explica por otra regla)

**Nota**
- El modelo de Raúl clasifica abandonos para los primeros 3 semestres, lo cual es ideal para este ejercicio, toda vez que las sobreestimaciones se están dando en los primeros 3 periodos.

**Reflexiones**
- Si bien el recall de Raúl es muy bueno (~~80%) la precisión es baja (~20%), lo cual implica que la sobreestimación seguirá ocurriendo (muchos falsos positivos).

In [32]:
df_trayectorias.query(
    "(estado_next == 'Abandono') & (razon_estado == 'Modelo') & (estado!='Abandono')"
)[['CEDULA', 'CONVOCATORIA']].to_excel(f"abandono/clasificados_como_abandono_{selector_df.value}_{fecha_actual}.xlsx", index=False)