In [1]:
# 1) CARGAR EL DATAFRAME NORMALIZADO

import pandas as pd

# Cargar con low_memory=False para evitar advertencias durante la inferencia de tipos
df = pd.read_csv('data/encoded.csv', low_memory=False)

# Verificar el dataframe cargado:
filas_cargadas = df.shape[0]  # obtener el número de filas cargadas
print(f"DataFrame cargado: {filas_cargadas} filas.")

# Detectar columnas con mezcla de tipos usando 'object' que deberían ser numéricas
mixed_type_cols = []

for col in df.columns:
    # Si tiene más de un tipo de dato (ej. int y str)
    tipos = df[col].map(type).value_counts()
    if len(tipos) > 1:
        mixed_type_cols.append((col, tipos))

# Mostrar un resumen
if mixed_type_cols:
    print("Columnas con tipos de datos mezclados detectadas:")
    for col, tipos in mixed_type_cols:
        print(f"Columna: '{col}' - Tipos detectados: {tipos.to_dict()}")
else:
    print("No se detectaron columnas con tipos de datos mezclados.")

# Verificar
filas_cargadas = df.shape[0] 
print(f"Columnas en el DataFrame: {df.shape[1]}")

DataFrame cargado: 38932 filas.
No se detectaron columnas con tipos de datos mezclados.
Columnas en el DataFrame: 278


In [2]:
# FASE 3. CREACION DE VARIABLES COMPUESTAS o RENOMBRADO DE SIMPLES

# Diccionario para variables compuestas y renombramiento
# Las claves son los nombres finales deseados, los valores son:
# - Una lista de variables simples (para las compuestas)
# - Un string (para renombrar variables simples)
variables_definidas = {
    'economic_burden': ['P013_O001V', 'P015_O001V', 'P015_O002V', 'P015_O003V', 'P019_O001V'],  # Compuesta
    'financial_independence': ['P015_O005V', 'P020_O001V_2.0', 'P020_O001V_3.0'],  # Compuesta
    'tuition_fee': ['P020_O001V_1.0','P020_O001V_4.0','P020_O001V_5.0', 'P020_O001V_6.0'],  # Compuesta
    'resources_academic_activities': 'P021_O001V',  
    'accessibility': ['P056_O010V','P056_O007V'],  # Compuesta
    'job_opportunity': 'P050_O007V', 
    'economic_restriction': 'P050_O011V',
    'economic_perception_itson_parents': ['P054_O001V_2.0', 'P054_O001V_3.0'], # Compuesta
    'perception_economic_terms': 'P059_O001V',  
    'economic constraint': 'P060_O001V_3.0',  
    'property_type_housing': ['P025_O001V_0.0', 'P025_O001V_1.0', 'P025_O001V_2.0', 'P025_O001V_3.0'],  # Compuesta
    'housing_company': 'P026_O001V', 
    'passive teaching': ['P035_O001V', 'P035_O002V'], 
    'active-critical-learning-practices': ['P035_O003V', 'P035_O004V', 'P035_O005V'], # Compuesta
    'teaching_performance': 'P039_O001V', 
    'cultural_activities': ['P049_O001V', 'P049_O005V', 'P049_O006V', 'P049_O007V', 'P049_O008V', 'P041_O001V'], 
    'services_academic_activities': ['P048_O002V', 'P048_O004V', 'P048_O005V', 'P048_O006V', 'P049_O009V', 'P041_O005V', 'P049_O010V'], # Compuesta
    'schooled_institution': ['P031_O001V_1.0', 'P031_O002V_1.0', 'P031_O003V_1.0'], 
    'previous_studies_open-line': ['P031_O001V_2.0', 'P031_O002V_2.0', 'P031_O003V_2.0', 'P031_O001V_3.0', 'P031_O002V_3.0', 'P031_O003V_3.0'], # Compuesta
    'public_institution': ['P032_O001V_1.0', 'P032_O002V_1.0', 'P032_O003V_1.0'], 
    'private_institution': ['P032_O001V_2.0', 'P032_O002V_2.0', 'P032_O003V_2.0'], 
    'prestige_quality': ['P056_O001V', 'P056_O002V', 'P056_O003V', 'P056_O005V'], 
    'academic_progress_performance': ['P029_O001V', 'P030_O001V', 'P038_O001V'], # Compuesta
    'habits_study_participation': ['P033_O001V', 'P033_O002V', 'P033_O003V', 'P033_O004V', 'P033_O005V', 'P033_O006V', 
                                      'P033_O007V', 'P033_O008V', 'P033_O009V', 'P033_O010V', 'P040_O001V', 'P040_O002V'], # Compuesta
    'physical_teaching_resources': ['P034_O004V', 'P034_O005V', 'P034_O006V', 'P034_O002V', 'P046_O001V', 'P046_O007V', 'P046_O009V', 'P046_O005V', 'P046_O008V','P034_O001V', 'P034_O009V', 'P034_O003V', 'P036_O001V', 'P036_O002V', 'P036_O007V', 'P036_O004V', 'P036_O005V'], # Compuesta
    'digital_teaching_resources': ['P034_O007V', 'P034_O008V', 'P036_O003V', 'P036_O006V', 'P046_O002V', 'P046_O003V', 'P046_O004V', 'P046_O006V', 'P046_O010V'], # Compuesta
    'techniques_study_organization': ['P037_O001V', 'P037_O002V', 'P037_O003V', 'P037_O004V', 'P037_O005V', 'P037_O006V', 'P037_O007V', 'P037_O008V', 'P047_O006V'], # Compuesta
    'academic_information_received': ['P050_O001V', 'P050_O005V', 'P050_O006V'], 
    'areas_reinforcement': ['P052_O001V', 'P052_O002V', 'P052_O003V', 'P052_O004V', 'P052_O006V', 'P052_O007V', 'P052_O005V', 'P052_O008V', 'P052_O009V'], # Compuesta
    'academic_limitation': 'P060_O001V_2.0', 
    'health_condition_special_needs': ['P005_O001V', 'P006_O007V', 'P006_O002V', 'P006_O003V', 'P006_O004V', 'P006_O005V', 'P006_O006V'], # Compuesta
    'practice_sport': 'P007_O001V', 
    'personal_limitation': ['P060_O001V_4.0', 'P060_O001V_5.0','P060_O001V_6.0'], # limitante personal u otro
    'intensity_tobacco_alcohol_consumption': ['P008_O001V', 'P008_O002V', 'P009_O001V_1.0', 'P009_O001V_2.0', 'P009_O001V_3.0', 'P009_O001V_4.0', 'P009_O001V_5.0', 'P009_O001V_6.0',
                                          'P010_O001V_1.0', 'P010_O001V_2.0', 'P010_O001V_3.0', 'P010_O001V_4.0', 'P010_O001V_5.0', 'P011_O001V'], # Compuesta
    'civil_family_burden': ['P017_O001V_1.0', 'P017_O001V_2.0', 'P017_O001V_3.0', 'P017_O001V_4.0', 'P017_O001V_5.0', 'P018_O001V', 'P018_O002V'], # Compuesta
    'educational_capital_father_mother': ['P024_O001V', 'P024_O002V'], # Compuesta
    'goods_services_housing': ['P027_O001V', 'P027_O002V', 'P027_O008V', 'P027_O004V', 'P027_O005V', 'P027_O011V', 'P027_O014V',
                                  'P027_O003V', 'P027_O009V', 'P027_O010V', 'P027_O012V', 'P027_O006V', 'P027_O007V', 'P027_O013V'], # Compuesta
    'educational_parental_assessment': ['P028_O001V', 'P053_O001V_1.0', 'P053_O001V_2.0', 'P053_O001V_3.0', 'P054_O001V_1.0'], # Compuesta
    'academic_parental_involvement': ['P055_O001V', 'P055_O002V', 'P055_O003V', 'P055_O004V', 'P055_O005V'], # Compuesta
    'lifestyle_free_time': ['P042_O001V', 'P043_O001V', 'P044_O001V', 'P045_O001V', 'P047_O005V', 'P047_O002V', 'P047_O003V', 
                                 'P047_O004V', 'P047_O001V', 'P047_O007V'], # Compuesta
    'vocational_influence': 'P050_O008V', 
    'single_option': 'P050_O010V', 
    'influence_outsiders': ['P050_O002V', 'P050_O003V', 'P050_O004V', 'P050_O009V'], # Compuesta
    'career_satisfaction': ['P051_O001V', 'P051_O002V'], 
    'uncertainty_election': ['P051_O003V', 'P051_O004V', 'P051_O005V'], 
    'public_institutional_labor_scope': ['P058_O001V_1.0', 'P058_O001V_2.0'], # Compuesta
    'work_field_private_entrepreneur': ['P058_O001V_3.0', 'P058_O001V_4.0', 'P058_O001V_5.0'], # Compuesta
    'expectation_professional_prestige': ['P057_O001V', 'P059_O002V'], # Compuesta
    'institutional_recreational_services': ['P048_O001V', 'P048_O003V', 'P049_O011V', 'P049_O002V', 'P049_O004V', 'P049_O003V', 'P041_O003V', 'P041_O002V', 'P041_O004V'], # Compuesta
    'social_environment_community': ['P056_O006V', 'P056_O004V', 'P056_O008V', 'P056_O009V'], 
    'public transport': ['P022_O001V_1.0', 'P022_O001V_2.0'], 
    'private_motorized_transport': ['P022_O001V_3.0', 'P022_O001V_5.0', 'P022_O001V_6.0', 'P022_O001V_7.0'], # Compuesta
    'non-motorized_transport': ['P022_O001V_4.0', 'P022_O001V_8.0'], 
    'university_transfer_time': 'P023_O001V', 
    'distance_campus': 'Distancia_Campus',
    'high-school_average': 'BACH_PROMEDIO_ESCALADO',
    'non_drinker': 'P009_O001V_0.0', 
    'morning_work_shift': 'P014_O001V_1.0',
    'evening_work_shift': 'P014_O001V_2.0', 
    'night_shift_work': 'P014_O001V_3.0', 
    'mixed_work_shift': 'P014_O001V_4.0', 
    'weekend_work_shift': 'P014_O001V_5.0', 
    'sporadic_work_shift': 'P014_O001V_6.0',
    'desire_work_experience': 'P015_O004V',
    'work-career_relationship': 'P016_O001V',
    'conditioned_career': 'RISK_CARRERA',
    'age': 'EDAD_ESCALADA',
    'gender': 'GENERO'
}

# Crear un DataFrame para almacenar las nuevas columnas
nuevas_columnas = pd.DataFrame(index=df.index)

# Procesar el diccionario y generar las nuevas columnas
for nueva_var, originales in variables_definidas.items():
    if isinstance(originales, list):  # Si es una lista, crear una variable compuesta
        # Asegurarse de que todas las columnas sean numéricas
        columnas_procesadas = df[originales].apply(pd.to_numeric, errors='coerce')
        # Calcular la media de las columnas
        nuevas_columnas[nueva_var] = columnas_procesadas.mean(axis=1)
    elif isinstance(originales, str):  # Si es un string, es una variable simple a renombrar
        # Convertir la columna a numérica y agregarla directamente
        nuevas_columnas[nueva_var] = pd.to_numeric(df[originales], errors='coerce')

# Combinar el DataFrame original con las nuevas columnas
df = pd.concat([df, nuevas_columnas], axis=1)

# Opcional: Eliminar las columnas originales utilizadas para las variables compuestas
columnas_a_eliminar = []
for originales in variables_definidas.values():
    if isinstance(originales, list):
        columnas_a_eliminar.extend(originales)
    elif isinstance(originales, str):
        columnas_a_eliminar.append(originales)

df.drop(columns=columnas_a_eliminar, inplace=True)

# Verificar
filas_dataframe = df.shape[0] 
print(f"Columnas en el DataFrame: {df.shape[1]}")

Columnas en el DataFrame: 97


In [3]:
# INVERTIR VARIABLES QUE SU ESCALA INDICA QUE A MAS CERCA DEL '1' ES MENOR RIESGO DE DESERCIÓN

# Lista de variables que necesitan inversión
variables_a_invertir = [
    'financial_independence',
    'job_opportunity',
    'active-critical-learning-practices',
    'cultural_activities', 
    'services_academic_activities', 
    'schooled_institution', 
    'private_institution', 
    'prestige_quality',
    'habits_study_participation', 
    'physical_teaching_resources', 
    'digital_teaching_resources',
    'techniques_study_organization',
    'academic_information_received', 
    'practice_sport', 
    'educational_capital_father_mother', 
    'goods_services_housing', 
    'housing_company', 
    'educational_parental_assessment', 
    'academic_parental_involvement', 
    'lifestyle_free_time',
    'vocational_influence', 
    'influence_outsiders', 
    'career_satisfaction', 
    'public_institutional_labor_scope', 
    'work_field_private_entrepreneur',
    'expectation_professional_prestige',
    'institutional_recreational_services',
    'social_environment_community',
    'private_motorized_transport', 
    'non-motorized_transport',
    'high-school_average'
]

# Verificar que las variables a invertir están en el DataFrame
variables_existentes = [var for var in variables_a_invertir if var in df.columns]
variables_faltantes = [var for var in variables_a_invertir if var not in df.columns]

# Informar sobre variables que no se encuentran
if variables_faltantes:
    print(f"Las siguientes variables no están en el DataFrame y no se pueden invertir: {variables_faltantes}")

# Aplicar la inversión: 1 - valor actual
for var in variables_existentes:
    df[var] = 1 - df[var]

print("Inversión completada para las variables indicadas.")

# Verificar
filas_dataframe = df.shape[0] 
print(f"Columnas en el DataFrame: {df.shape[1]}")


Inversión completada para las variables indicadas.
Columnas en el DataFrame: 97


In [4]:
# == COLUMNAS A ELIMINAR (No se integraron a variables)== #

# Contar columnas antes de la eliminación
columnas_antes = df.shape[1]

# Verificar qué columnas existen en el DataFrame antes de intentar eliminarlas
columnas_a_eliminar = [
    'P006_O001V', # otro tipo de problema (que especifica o no)
    'P010_O001V_0.0', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P014_O001V_0.0', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P017_O001V_NA', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P020_O001V_Desconocido',# se genera al codificar las variables categóricas (One-Hot Encoding)
    'P022_O001V_Desconocido', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P041_O006V', # pertenece a otro tipo de grupo (asumo)
    'P058_O001V_Desconocido', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P060_O001V_1.0', # se genera al codificar las variables categóricas (One-Hot Encoding)
    'P060_O001V_Desconocido',# se genera al codificar las variables categóricas (One-Hot Encoding)
]

# Asegurarse de que los nombres de las columnas no tengan espacios adicionales
df.columns = df.columns.str.strip()

# Filtrar solo las columnas que realmente existen en el DataFrame
columnas_existentes = [col for col in columnas_a_eliminar if col in df.columns]

# Eliminar las columnas que sí existen
df.drop(columns=columnas_existentes, inplace=True, errors='ignore')

# Verificar si las columnas fueron eliminadas correctamente
print("Columnas restantes:", df.columns.tolist())

# Verificar
filas_dataframe = df.shape[0] 
print(f"Columnas en el DataFrame: {df.shape[1]}")

# Contar columnas después de la eliminación
columnas_despues = df.shape[1]

# Imprimir resultado
print(f"Se eliminaron {columnas_antes - columnas_despues} columnas.")

Columnas restantes: ['EMPLID', 'EDAD', 'UNIDAD', 'BACH_PROMEDIO', 'Año', 'DESERCION', 'SEMESTRE PLAN', 'ÚLTIMO PERIODO CURSADO', 'SEMESTRE ABANDONO', 'ETNIA', 'CAMBIO_PROGRAMA', 'Ciudad', 'Estado', 'Latitud', 'Longitud', 'CATEGORIA_CARRERA', 'NIVEL_CARRERA', 'CARRERA', 'AREA_CARRERA', 'economic_burden', 'financial_independence', 'tuition_fee', 'resources_academic_activities', 'accessibility', 'job_opportunity', 'economic_restriction', 'economic_perception_itson_parents', 'perception_economic_terms', 'economic constraint', 'property_type_housing', 'housing_company', 'passive teaching', 'active-critical-learning-practices', 'teaching_performance', 'cultural_activities', 'services_academic_activities', 'schooled_institution', 'previous_studies_open-line', 'public_institution', 'private_institution', 'prestige_quality', 'academic_progress_performance', 'habits_study_participation', 'physical_teaching_resources', 'digital_teaching_resources', 'techniques_study_organization', 'academic_infor

<img src="image-20250709-114124.png" width="" align="" />

In [5]:
# Asegurar que no haya valores nulos en las variables 
valores_nulos = df.isnull().sum()
columnas_con_nulos = valores_nulos[valores_nulos > 0]
if columnas_con_nulos.empty:
    print("No hay columnas con valores nulos en el DataFrame")
else:
    print("Número de valores nulos en cada columna con valores nulos:")
    print(columnas_con_nulos)

Número de valores nulos en cada columna con valores nulos:
gender    1
dtype: int64


In [6]:
# == GUARDAR CAMBIOS DE VARIABLES COMPUESTAS  Y SIMPLES RENOMBRADAS == #

import os

# Guardar el dataframe con variables creadas en un archivo nuevo
folder_path = './data'  
df.to_csv(os.path.join(folder_path, 'variables.csv'), index=False)

# Verificar
filas_cargadas = df.shape[0] 
print(f"DataFrame guardado: {filas_cargadas} filas.")
print(f"Columnas en el DataFrame: {df.shape[1]}")

DataFrame guardado: 38932 filas.
Columnas en el DataFrame: 87


<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=24fa97d8-6b94-4f62-a2dc-97416a953ae1' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>