In [1]:
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer


In [2]:
# Cargar datos
df = pd.read_excel('df_objetivo/df_objetivo_riesgo_real.xlsx')

# 1. Eliminar MUNICIPIO_RESIDENCIA
if 'MUNICIPIO_RESIDENCIA' in df.columns:
    df = df.drop(columns=['MUNICIPIO_RESIDENCIA'])

# Imputar MUNICIPIO_NACIMIENTO con la moda
if 'MUNICIPIO_NACIMIENTO' in df.columns:
    moda_municipio = df['MUNICIPIO_NACIMIENTO'].mode()[0]
    df['MUNICIPIO_NACIMIENTO'] = df['MUNICIPIO_NACIMIENTO'].fillna(moda_municipio)

# 2. Imputar PUNTAJE_ADMISION por grupo PLAN (puedes cambiar mean() si prefieres)
df['PUNTAJE_ADMISION'] = df.groupby('PLAN')['PUNTAJE_ADMISION'].transform(
    lambda x: x.fillna(x.mean())
)

# 3. Imputar PAPA y PROME_ACADÉMICO usando MICE
mice_vars = ['PAPA', 'PROME_ACADE']
imp_mice = IterativeImputer(random_state=0)
df[mice_vars] = imp_mice.fit_transform(df[mice_vars])

# Guardar el resultado
df.to_excel('df_objetivo/df_objetivo_imputado.xlsx', index=False)


In [3]:
df.head()

Unnamed: 0,SEDE,PLAN,AVANCE_CARRERA,DOCUMENTO,SUBACCESO,APERTURA,GENERO,EDAD,NUMERO_MATRICULAS,PAPA,...,NACIONALIDAD,VICTIMAS_DEL_CONFLICTO,DISCAPACIDAD,CARACTER_COLEGIO,MUNICIPIO_RESIDENCIA_FAM,NODO_INICIO,PUNTAJE_ADMISION,AVANCE_ESPERADO,ATRASO_PORCENTUAL,RIESGO_DESERCION
0,SEDE DE LA PAZ,GEOGRAFÍA,80.9,5d632a6eaf169c11bc93c3f850da3202,PROGRAMA DE ADMISIÓN ESPECIAL PARA LOS PROGRAM...,2019-2S,HOMBRE,22,11,3.9,...,COLOMBIA,NO,NO,Plantel Oficial,CHIMICHAGUA,Estudiantes que deben nivelar - Excepción COVI...,395.394288,88,7.1,0
1,SEDE DE LA PAZ,BIOLOGÍA,84.4,6612ea9bc40e7fa67c2b606f4044bbdd,PROGRAMA DE ADMISIÓN ESPECIAL PARA LOS PROGRAM...,2019-2S,HOMBRE,23,11,4.1,...,COLOMBIA,NO,NO,Plantel Oficial,VALLEDUPAR,Estudiantes que deben nivelar 3 asignaturas,473.547606,88,3.6,0
2,SEDE DE LA PAZ,GEOGRAFÍA,91.5,5191f7684d12c135e863f2b1429516dd,PROGRAMA DE ADMISIÓN ESPECIAL PARA LOS PROGRAM...,2019-2S,MUJER,37,11,3.8,...,COLOMBIA,NO,NO,Plantel Oficial,LA PAZ,Estudiantes que deben nivelar 3 asignaturas,395.394288,88,0.0,0
3,SEDE DE LA PAZ,BIOLOGÍA,63.1,fa7bc24f61ad5539ba718ad7fc165d6b,PROGRAMA DE ADMISIÓN ESPECIAL PARA LOS PROGRAM...,2020-1S,MUJER,21,10,3.7,...,COLOMBIA,NO,NO,Plantel Oficial,AGUSTÍN CODAZZI,Estudiantes que deben nivelar 3 asignaturas,473.547606,80,16.9,0
4,SEDE DE LA PAZ,BIOLOGÍA,69.8,93bebfeb23ef1396d7251da5bc7519d6,PROGRAMA DE ADMISIÓN ESPECIAL PARA LOS PROGRAM...,2020-1S,MUJER,22,10,3.7,...,COLOMBIA,NO,NO,Plantel Oficial,VALLEDUPAR,Estudiantes que deben nivelar 3 asignaturas,473.547606,80,10.2,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1283 entries, 0 to 1282
Data columns (total 24 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   SEDE                      1283 non-null   object 
 1   PLAN                      1283 non-null   object 
 2   AVANCE_CARRERA            1283 non-null   float64
 3   DOCUMENTO                 1283 non-null   object 
 4   SUBACCESO                 1283 non-null   object 
 5   APERTURA                  1283 non-null   object 
 6   GENERO                    1283 non-null   object 
 7   EDAD                      1283 non-null   int64  
 8   NUMERO_MATRICULAS         1283 non-null   int64  
 9   PAPA                      1283 non-null   float64
 10  PROME_ACADE               1283 non-null   float64
 11  PBM_CALCULADO             1283 non-null   int64  
 12  ESTRATO                   1283 non-null   int64  
 13  MUNICIPIO_NACIMIENTO      1283 non-null   object 
 14  NACIONAL