In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


from sklearn.model_selection import train_test_split
from sklearn.model_selection import GroupShuffleSplit, GroupKFold, GridSearchCV
from sklearn.preprocessing import LabelEncoder, StandardScaler

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import accuracy_score, balanced_accuracy_score, f1_score, classification_report, confusion_matrix

import joblib

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report
from sklearn.model_selection import GroupShuffleSplit

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression

from functools import partial

import os
import utils
import utils_ml
import constants

import textwrap

In [9]:
pd.set_option('display.max_columns', 50)

# **Objetivo**

El objetivo de este notebook es hacer el feature engineering para el modelo de clasificación **Random Forest**.
- Matriculado
- Aplazado
- Abandono

El proceso consiste en:

1. Eliminar redundancia de estados o estados no deseados. 
2. Ajustar las variables categóricas


**Retorno**
El notebook guarda el archivo para el modelo de clasificación.

**Nota:**
El análisis exploratorio de los datos está en la carpeta 00_EDA

### **Cargar datos**

In [10]:
DATA_PATH = "../99_Data/Raw_Panel/panel_estudiantes_V12_BDM20251015.pkl"
#Obtener version del panel:
version_panel = DATA_PATH.split("_")[4]
print(version_panel)  # V12

V12


In [11]:
df = pd.read_pickle(DATA_PATH)

In [12]:
df.head(2)

Unnamed: 0,DOCUMENTO,NIVEL_SISBEN_4,SEXO,GRUPO_ETNICO,HIJOS,SABER11_PUNTAJE_GLOBAL,SNIES_IES,IES_NOMBRE,SNIES_PROGRAMA,PROGRAMA,TIPO_IES,FUENTE_TERRITORIAL,CONVENIO_FDL,FUENTE_FINANCIACION_ACCESO,FUENTE_FINANCIACION_APOYOS,NIVEL_FORMACION,CINE_CAMPO_AMPLIO,MODALIDAD,CONVOCATORIA,PERIODOS_BD_SNIES,CREDITOS_PROGRAMA,estado_inicial,periodo_key,estado,pct_perd_acum,pct_aprob_acum,N_Aplazado,N_Matriculado,N_Abandono,N_Sin_bolsa_de_creditos,N_Pérdida_del_beneficio,N_Matriculas_adicionales,N_Graduado,estado_next,periodo_orden,N_Periodos_adicionales
0,478541,,HOMBRE,INDIGENA,SIN HIJOS,303.0,3713,FUNDACION UNIVERSITARIA PARA EL DESARROLLO HUM...,52198,TECNICA PROFESIONAL EN FOTOGRAFIA,PRIVADO,LOS MARTIRES,FDL Los Mártires 125-2022,ATENEA,FDL,FORMACION TECNICA PROFESIONAL,ARTE Y HUMANIDADES,PRESENCIAL,JU3,5,80,Matriculado,20222,Matriculado,0.0,0.248,0,1,0,0,0,0,0,Matriculado,1,0
1,478541,,HOMBRE,INDIGENA,SIN HIJOS,303.0,3713,FUNDACION UNIVERSITARIA PARA EL DESARROLLO HUM...,52198,TECNICA PROFESIONAL EN FOTOGRAFIA,PRIVADO,LOS MARTIRES,FDL Los Mártires 125-2022,ATENEA,FDL,FORMACION TECNICA PROFESIONAL,ARTE Y HUMANIDADES,PRESENCIAL,JU3,5,80,Matriculado,20231,Matriculado,0.0,0.47275,0,2,0,0,0,0,0,Matriculado,2,0


### **Exclusión de estados**

In [13]:
# Estados (valores) a excluir en la variable TARGET
excluir_estados = [
    "No aplica",             # Estado para cuando el programa de jóvenes a la E no había ocurrido aún
    "Sin bolsa de creditos",
    "Graduado",
    "Pérdida del Beneficio"
]

# 1. Filtrar nulos y estados no deseados en estado_next y en estado
df = df[
    (df["estado_next"].notna()) &
    (~df["estado_next"].isin(excluir_estados)) &
    (~df["estado"].isin(["Abandono", "No aplica", "Graduado", "Pérdida del Beneficio", "Sin bolsa de creditos"])) & # Importante: Eliminar casos donde Abandono ya ocurrió.
    (df["N_Aplazado"] <= 4)
]

# 2. Abandono es absorbente -> quitar observaciones posteriores al primer abandono
df = df.sort_values(by=["DOCUMENTO", "periodo_orden"], ascending=[True, True])
mask = (df["estado_next"] == "Abandono").groupby(df["DOCUMENTO"]).cumsum() <= 1
df = df[mask]

# 4. Arreglar formato en HIJOS
df["HIJOS"] = (
    df["HIJOS"]
    .astype(str)
    .str.replace("\xa0", " ", regex=False)
    .str.strip()
)

### **Preparar Datos**

In [14]:
def calcular_proporcion_matriculados(data):
    data['prop_matriculado'] = data["N_Matriculado"]/data["semestre"]
    return data

In [15]:
#Reducir categorias
df = utils_ml.combine_categories(
    df,
    column = "HIJOS",
    categories_to_combine = ["DOS HIJOS","MAS DE DOS HIJOS", "UN HIJO"],
    new_category = "CON HIJOS"
)

#imputar los nan con "SIN HIJOS"
df["HIJOS"] = df["HIJOS"].replace("nan", np.nan).fillna("SIN HIJOS")

#Reducir categorias
df = utils_ml.combine_categories(
    df,
    column = "MODALIDAD",
    categories_to_combine = ["PRESENCIAL-DUAL", "PRESENCIAL-VIRTUAL", "VIRTUAL", "DUAL", "A DISTANCIA"],
    new_category = "NO PRESENCIAL"
)

df = utils_ml.combine_categories(
    df,
    column = "GRUPO_ETNICO",
    categories_to_combine = constants.ETNIAS,
    new_category = "ES_MINORIA"
)

#Agregar la columana semestre:= Avance de periodos desde que empezó el programa.
df = utils.calcular_semestre(df)

#adicionar columna:  proporcion matriculas del total de semestres que ha transcurrido el programa
df = calcular_proporcion_matriculados(df)

#Marcados para N_Aplazado <=2

df['N_Aplazado_voluntarios_disponibles'] = (2 - df['N_Aplazado']) > 0


### **Normalizar periodos**

**TODO**
- [ ] Validar con la base del SNIES el valor de PERIODOS_BD_SNIES. Ver las columnas `NÚMERO_PERIODOS_DE_DURACIÓN` y  `PERIODICIDAD` 

In [19]:
df.groupby("NIVEL_FORMACION")["PERIODOS_BD_SNIES"].describe(percentiles=[0.1, 0.25, 0.5, 0.75, 0.9])

Unnamed: 0_level_0,count,mean,std,min,10%,25%,50%,75%,90%,max
NIVEL_FORMACION,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
FORMACION TECNICA PROFESIONAL,10062.0,4.219936,0.487013,3.0,4.0,4.0,4.0,4.0,5.0,8.0
TECNOLOGICO,22105.0,5.856367,0.939419,3.0,5.0,5.0,6.0,6.0,6.0,10.0
UNIVERSITARIO,99893.0,9.194168,0.886831,5.0,8.0,8.0,9.0,10.0,10.0,14.0


### **Exportar los datos**

In [9]:
df.to_pickle(f"../99_Data/Future_Engineering/panel_after_futureengineering_panel{version_panel}.pkl")