In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

# Cargar datos
datos = pd.read_csv("train.csv")

# Vista general del dataframe
# Mostrar las primeras filas del DataFrame
print("Primeras filas del conjunto de datos:")
print(datos.head())

# Contar cuántos estudiantes hay por programa académico
print("Cantidad de estudiantes por programa académico:")
print(datos['ESTU_PRGM_ACADEMICO'].value_counts())

# Contar cuántos estudiantes hay por departamento 
print("Cantidad de estudiantes por departamento:")
print(datos['ESTU_PRGM_DEPARTAMENTO'].value_counts())

# Verificar la cantidad de valores nulos en cada columna
print("Cantidad de valores nulos por columna:")
print(datos.isnull().sum())

  from pandas.core import (


Primeras filas del conjunto de datos:
       ID  PERIODO         ESTU_PRGM_ACADEMICO ESTU_PRGM_DEPARTAMENTO  \
0  904256    20212                  ENFERMERIA                 BOGOTÁ   
1  645256    20212                     DERECHO              ATLANTICO   
2  308367    20203       MERCADEO Y PUBLICIDAD                 BOGOTÁ   
3  470353    20195  ADMINISTRACION DE EMPRESAS              SANTANDER   
4  989032    20212                  PSICOLOGIA              ANTIOQUIA   

             ESTU_VALORMATRICULAUNIVERSIDAD ESTU_HORASSEMANATRABAJA  \
0  Entre 5.5 millones y menos de 7 millones       Menos de 10 horas   
1  Entre 2.5 millones y menos de 4 millones                       0   
2  Entre 2.5 millones y menos de 4 millones         Más de 30 horas   
3  Entre 4 millones y menos de 5.5 millones                       0   
4  Entre 2.5 millones y menos de 4 millones     Entre 21 y 30 horas   

  FAMI_ESTRATOVIVIENDA FAMI_TIENEINTERNET                 FAMI_EDUCACIONPADRE  \
0            Es

In [2]:
# Tipos de datos por columna

for c in datos.columns:
    print(f"{c:30} {datos[c].dtype}")

ID                             int64
PERIODO                        int64
ESTU_PRGM_ACADEMICO            object
ESTU_PRGM_DEPARTAMENTO         object
ESTU_VALORMATRICULAUNIVERSIDAD object
ESTU_HORASSEMANATRABAJA        object
FAMI_ESTRATOVIVIENDA           object
FAMI_TIENEINTERNET             object
FAMI_EDUCACIONPADRE            object
FAMI_TIENELAVADORA             object
FAMI_TIENEAUTOMOVIL            object
ESTU_PRIVADO_LIBERTAD          object
ESTU_PAGOMATRICULAPROPIO       object
FAMI_TIENECOMPUTADOR           object
FAMI_TIENEINTERNET.1           object
FAMI_EDUCACIONMADRE            object
RENDIMIENTO_GLOBAL             object
coef_1                         float64
coef_2                         float64
coef_3                         float64
coef_4                         float64


In [3]:
# Conteo de valores faltantes
# Verificar la cantidad de valores nulos en cada columna

print("Cantidad de valores nulos por columna:")
missing = datos.isna().sum()
missing[missing > 0].sort_values(ascending=False)

Cantidad de valores nulos por columna:


FAMI_TIENEAUTOMOVIL               43623
FAMI_TIENELAVADORA                39773
FAMI_TIENECOMPUTADOR              38103
FAMI_ESTRATOVIVIENDA              32137
ESTU_HORASSEMANATRABAJA           30857
FAMI_TIENEINTERNET                26629
FAMI_TIENEINTERNET.1              26629
FAMI_EDUCACIONMADRE               23664
FAMI_EDUCACIONPADRE               23178
ESTU_PAGOMATRICULAPROPIO           6498
ESTU_VALORMATRICULAUNIVERSIDAD     6287
dtype: int64

In [4]:
# Obtener solo columnas categóricas
cat_cols = [col for col in datos.columns if datos[col].dtype == 'object']
print(cat_cols)

# Valores únicos por cada columna categórica
for col in cat_cols:
    print(f"{col:20}", np.unique(datos[col].dropna()))

['ESTU_PRGM_ACADEMICO', 'ESTU_PRGM_DEPARTAMENTO', 'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE', 'FAMI_TIENELAVADORA', 'FAMI_TIENEAUTOMOVIL', 'ESTU_PRIVADO_LIBERTAD', 'ESTU_PAGOMATRICULAPROPIO', 'FAMI_TIENECOMPUTADOR', 'FAMI_TIENEINTERNET.1', 'FAMI_EDUCACIONMADRE', 'RENDIMIENTO_GLOBAL']
ESTU_PRGM_ACADEMICO  ['3°  CICLO PROFESIONAL NEGOCIOS INTERNACIONALES'
 'ACTIVIDAD FISICA Y DEPORTE' 'ACUICULTURA' 'ADMINISTRACION'
 'ADMINISTRACION  FINANCIERA' 'ADMINISTRACION & SERVICIO'
 'ADMINISTRACION AERONAUTICA' 'ADMINISTRACION AGROPECUARIA'
 'ADMINISTRACION AMBIENTAL'
 'ADMINISTRACION AMBIENTAL Y DE LOS RECURSOS NATURALES'
 'ADMINISTRACION BANCARIA Y FINANCIERA' 'ADMINISTRACION COMERCIAL'
 'ADMINISTRACION COMERCIAL Y DE MERCADEO'
 'ADMINISTRACION DE COMERCIO EXTERIOR' 'ADMINISTRACION DE EMPRESAS'
 'ADMINISTRACION DE EMPRESAS  Y  GESTION AMBIENTAL'
 'ADMINISTRACION DE EMPRESAS AGROINDUSTRIALES'
 'ADMINISTRACION DE

ESTU_PRGM_DEPARTAMENTO ['AMAZONAS' 'ANTIOQUIA' 'ARAUCA' 'ATLANTICO' 'BOGOTÁ' 'BOLIVAR' 'BOYACA'
 'CALDAS' 'CAQUETA' 'CASANARE' 'CAUCA' 'CESAR' 'CHOCO' 'CORDOBA'
 'CUNDINAMARCA' 'GUAVIARE' 'HUILA' 'LA GUAJIRA' 'MAGDALENA' 'META'
 'NARIÑO' 'NORTE SANTANDER' 'PUTUMAYO' 'QUINDIO' 'RISARALDA' 'SAN ANDRES'
 'SANTANDER' 'SUCRE' 'TOLIMA' 'VALLE' 'VAUPES']
ESTU_VALORMATRICULAUNIVERSIDAD ['Entre 1 millón y menos de 2.5 millones'
 'Entre 2.5 millones y menos de 4 millones'
 'Entre 4 millones y menos de 5.5 millones'
 'Entre 5.5 millones y menos de 7 millones'
 'Entre 500 mil y menos de 1 millón' 'Menos de 500 mil'
 'Más de 7 millones' 'No pagó matrícula']
ESTU_HORASSEMANATRABAJA ['0' 'Entre 11 y 20 horas' 'Entre 21 y 30 horas' 'Menos de 10 horas'
 'Más de 30 horas']
FAMI_ESTRATOVIVIENDA ['Estrato 1' 'Estrato 2' 'Estrato 3' 'Estrato 4' 'Estrato 5' 'Estrato 6'
 'Sin Estrato']
FAMI_TIENEINTERNET   ['No' 'Si']
FAMI_EDUCACIONPADRE  ['Educación profesional completa' 'Educación profesional incompleta'
 

In [5]:
# Imputar con la media en columnas numéricas
num_cols = datos.select_dtypes(include=['int64', 'float64']).columns
for col in num_cols:
    if datos[col].isna().sum() > 0:
        datos[col] = datos[col].fillna(datos[col].mean())

In [6]:
# Imputar con 'missing' en columnas categóricas
for col in cat_cols:
    if datos[col].isna().sum() > 0:
        datos[col] = datos[col].fillna('missing')

In [7]:
from sklearn.preprocessing import LabelEncoder

# Detectar columnas categóricas automáticamente
cat_cols = datos.select_dtypes(include='object').columns

# Aplicar LabelEncoder a todas las variables categóricas excepto RENDIMIENTO_GLOBAL
encoders = {}
for col in cat_cols:
    if col != "RENDIMIENTO_GLOBAL":
        le = LabelEncoder()
        datos[col] = le.fit_transform(datos[col].astype(str))
        encoders[col] = le  # Guardamos si quieres revertir luego

# Ahora codificamos RENDIMIENTO_GLOBAL por separado y guardamos su encoder
le_target = LabelEncoder()
datos["RENDIMIENTO_GLOBAL"] = le_target.fit_transform(datos["RENDIMIENTO_GLOBAL"].astype(str))

# Verificar el resultado
print(datos[cat_cols].head())
datos

   ESTU_PRGM_ACADEMICO  ESTU_PRGM_DEPARTAMENTO  \
0                  300                       4   
1                  249                       3   
2                  819                       4   
3                   14                      26   
4                  907                       1   

   ESTU_VALORMATRICULAUNIVERSIDAD  ESTU_HORASSEMANATRABAJA  \
0                               3                        3   
1                               1                        0   
2                               1                        4   
3                               2                        0   
4                               1                        2   

   FAMI_ESTRATOVIVIENDA  FAMI_TIENEINTERNET  FAMI_EDUCACIONPADRE  \
0                     2                   1                   11   
1                     2                   0                   10   
2                     2                   1                    8   
3                     3                   1           

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,...,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,RENDIMIENTO_GLOBAL,coef_1,coef_2,coef_3,coef_4
0,904256,20212,300,4,3,3,2,1,11,1,...,0,0,1,1,5,2,0.322,0.208,0.310,0.267
1,645256,20212,249,3,1,0,2,0,10,1,...,0,0,1,0,11,1,0.311,0.215,0.292,0.264
2,308367,20203,819,4,1,4,2,1,8,1,...,0,0,0,1,8,1,0.297,0.214,0.305,0.264
3,470353,20195,14,26,2,0,3,1,4,1,...,0,0,1,1,8,0,0.485,0.172,0.252,0.190
4,989032,20212,907,1,1,2,2,1,6,1,...,0,0,1,1,6,3,0.316,0.232,0.285,0.294
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
692495,25096,20195,144,17,4,1,1,1,8,1,...,0,1,1,1,9,2,0.237,0.271,0.271,0.311
692496,754213,20212,907,21,1,4,2,1,7,1,...,0,0,1,1,9,1,0.314,0.240,0.278,0.260
692497,504185,20183,94,4,0,3,2,1,8,1,...,0,1,1,1,9,3,0.286,0.240,0.314,0.287
692498,986620,20195,907,28,1,3,0,0,6,0,...,0,1,1,0,6,1,0.132,0.426,0.261,0.328


In [8]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report


from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier

# Cargar los datos
train = datos
test = pd.read_csv("test.csv")

# Se realiza el mismo procesamiento que se le hizo a la base de datos train
# Obtener solo columnas categóricas
cat_cols = [col for col in test.columns if test[col].dtype == 'object']

    
# Imputar con la media en columnas numéricas
num_cols = test.select_dtypes(include=['int64', 'float64']).columns

for col in num_cols:
    if test[col].isna().sum() > 0:
        test[col] = test[col].fillna(test[col].mean())

# Imputar con 'missing' en columnas categóricas
for col in cat_cols:
    if test[col].isna().sum() > 0:
        test[col] = test[col].fillna('missing')
        
# 1. Detectar columnas categóricas automáticamente
cat_cols = test.select_dtypes(include='object').columns

# 2. Aplicar LabelEncoder a cada una
le2 = LabelEncoder()
for col in cat_cols:
    test[col] = le2.fit_transform(test[col].astype(str))  # Convertimos a string por si hay NaN


# Mostrar todo el DataFrame transformado
test


Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,FAMI_TIENEAUTOMOVIL,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,coef_1,coef_2,coef_3,coef_4
0,550236,20183,914,5,5,3,2,1,10,1,0,0,1,1,1,6,0.328,0.219,0.317,0.247
1,98545,20203,13,1,1,2,1,1,8,1,0,0,0,1,1,10,0.227,0.283,0.296,0.324
2,499179,20212,449,4,0,0,2,1,9,1,0,0,0,1,1,8,0.285,0.228,0.294,0.247
3,782980,20195,228,27,0,2,0,0,7,1,0,0,0,0,0,7,0.160,0.408,0.217,0.294
4,785185,20212,14,3,1,1,1,1,8,1,0,0,0,1,1,8,0.209,0.283,0.306,0.286
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
296781,496981,20195,14,4,1,4,0,1,7,1,1,0,1,1,1,7,0.168,0.410,0.235,0.300
296782,209415,20183,247,19,0,0,3,1,0,1,0,0,0,1,1,0,0.471,0.184,0.264,0.193
296783,239074,20212,247,4,1,4,2,1,8,1,0,0,0,1,1,0,0.292,0.249,0.276,0.256
296784,963852,20195,362,1,3,1,2,1,0,1,0,0,0,1,1,0,0.305,0.219,0.310,0.260


In [9]:
# Separar características (X) y variable objetivo (y) del conjunto de entrenamiento
# - Se eliminan las columnas 'RENDIMIENTO_GLOBAL' (lo que queremos predecir) y 'ID' (identificador irrelevante para el modelo)
X = train.drop(columns=['RENDIMIENTO_GLOBAL', 'ID'])

# Seleccionar la variable objetivo (lo que queremos predecir)
y = train['RENDIMIENTO_GLOBAL']

# En este punto, se asume que y ya está codificada (si no, se debe aplicar LabelEncoder antes)
# Guardamos y_encoded por consistencia, aunque aquí no se aplica ninguna codificación
y_encoded = y

# Guardar los IDs del conjunto de test para usarlos más adelante en el archivo de submission
test_IDs = test['ID']

# Eliminar la columna 'ID' del test para dejar solo las variables predictoras
X_test = test.drop(columns=['ID'])

In [10]:
# Dividir el conjunto de datos en entrenamiento (70%) y validación (30%)
X_train, X_val, y_train, y_val = train_test_split(
    X,               
    y_encoded,       # Variable objetivo (ya codificada si usaste LabelEncoder)
    test_size=0.3,   # Proporción del conjunto de validación (30%)
    random_state=42, 
    stratify=y_encoded  
)

In [11]:
# Importar el clasificador XGBoost
from xgboost import XGBClassifier

# Crear una instancia del modelo XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='mlogloss')

# Entrenar el modelo con los datos de entrenamiento
xgb_model.fit(X_train, y_train)

# Predicción y evaluación
y_pred_xgb = xgb_model.predict(X_val)
print("XGBoost Accuracy:", accuracy_score(y_val, y_pred_xgb))

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


XGBoost Accuracy: 0.43238507821901323


In [12]:
# Obtener la columna 'ID' del conjunto de test para conservarla en el archivo de submission
test_ids = test["ID"]

# Eliminar la columna 'ID' del test para quedarnos solo con las características predictoras
test_df = test.drop(columns=["ID"])

# Realizar la predicción con el modelo XGBoost previamente entrenado
test_preds_xgb = xgb_model.predict(test_df)

# Convertir las predicciones numéricas a etiquetas originales usando el LabelEncoder del entrenamiento
y_pred_labels_xgb = le_target.inverse_transform(test_preds_xgb)

# Crear un DataFrame con las predicciones en el formato requerido para la submission
submission_xgb = pd.DataFrame({
    "ID": test_ids,
    "RENDIMIENTO_GLOBAL": y_pred_labels_xgb
})

# Imprimir las primeras filas del DataFrame final para revisar
print(submission_xgb)

            ID RENDIMIENTO_GLOBAL
0       550236         medio-alto
1        98545         medio-alto
2       499179               alto
3       782980               bajo
4       785185               bajo
...        ...                ...
296781  496981         medio-bajo
296782  209415         medio-alto
296783  239074         medio-alto
296784  963852               alto
296785  792650               alto

[296786 rows x 2 columns]


In [13]:
# Guardar el DataFrame 'submission_xgb' 
submission_xgb.to_csv("submission.csv", index=False)