In [None]:
!mkdir -p /root/.config/kaggle
! mv kaggle.json /root/.config/kaggle/kaggle.json
!chmod 600 /root/.config/kaggle/kaggle.json
!kaggle competitions download -c udea-ai-4-eng-20251-pruebas-saber-pro-colombia
!unzip udea-ai-4-eng-20251-pruebas-saber-pro-colombia.zip

Downloading udea-ai-4-eng-20251-pruebas-saber-pro-colombia.zip to /content
  0% 0.00/29.9M [00:00<?, ?B/s]
100% 29.9M/29.9M [00:00<00:00, 1.09GB/s]
Archive:  udea-ai-4-eng-20251-pruebas-saber-pro-colombia.zip
  inflating: submission_example.csv  
  inflating: test.csv                
  inflating: train.csv               


In [1]:
import pandas as pd
import numpy as np

## Exploración de datos y valores NAN

### cantidad de valores NAN por columna

In [None]:
pd.read_csv('train.csv').isna().sum()

Unnamed: 0,0
ID,0
PERIODO,0
ESTU_PRGM_ACADEMICO,0
ESTU_PRGM_DEPARTAMENTO,0
ESTU_VALORMATRICULAUNIVERSIDAD,6287
ESTU_HORASSEMANATRABAJA,30857
FAMI_ESTRATOVIVIENDA,32137
FAMI_TIENEINTERNET,26629
FAMI_EDUCACIONPADRE,23178
FAMI_TIENELAVADORA,39773


### Valores únicos por columna

In [None]:
df = pd.read_csv('train.csv')
df.nunique()

Unnamed: 0,0
ID,692500
PERIODO,9
ESTU_PRGM_ACADEMICO,948
ESTU_PRGM_DEPARTAMENTO,31
ESTU_VALORMATRICULAUNIVERSIDAD,8
ESTU_HORASSEMANATRABAJA,5
FAMI_ESTRATOVIVIENDA,7
FAMI_TIENEINTERNET,2
FAMI_EDUCACIONPADRE,12
FAMI_TIENELAVADORA,2


### Descripcción de los datos

In [None]:
df._get_numeric_data().describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,692500.0,494606.130576,285585.209455,1.0,247324.75,494564.5,741782.5,989286.0
PERIODO,692500.0,20198.366679,10.535037,20183.0,20195.0,20195.0,20203.0,20213.0
coef_1,692500.0,0.268629,0.12213,0.0,0.203,0.24,0.314,0.657
coef_2,692500.0,0.259996,0.09348,0.0,0.212,0.271,0.309,0.487
coef_3,692500.0,0.262087,0.058862,0.0,0.254,0.276,0.293,0.32
coef_4,692500.0,0.262903,0.067944,0.0,0.255,0.285,0.303,0.332


## Lectura de datasets y asignación a variables

In [2]:
dtr = pd.read_csv("train.csv")
dts = pd.read_csv("test.csv")
lentr = len(dtr)
dtr.shape, dts.shape

((692500, 21), (296786, 20))

## Limpieza y reemplazo de valores NAN para la columna ESTU_HORASSEMANATRABAJA

In [3]:
def organizar_horas_trabajadas_estudiante(data, columna):

    # Valores posibles
    mapeo = {
        "0": 0,
        "menos de 10 horas": 1,
        "entre 11 y 20 horas": 2,
        "entre 21 y 30 horas": 3,
        "más de 30 horas": 4
    }

    # Rellenar NaNs con valores  válidos
    modas = data.groupby('FAMI_ESTRATOVIVIENDA')[columna].transform(lambda x: x.mode().iloc[0])
    data[columna] = data[columna].fillna(modas)

    # Pasar todo a minúsculas y quitar espacios extra
    data[columna] = data[columna].astype(str).str.strip().str.lower()

    # Aplicar mapeo numérico
    data[columna] = data[columna].map(mapeo)

    return data


## Limpieza y reemplzado de valores NAN para la columna ESTU_HORASSEMANATRABAJA utilizando dummies

In [4]:
def organizar_horas_trabajadas_estudiante_columna(data, columna):

    # Valores posibles ordenados
    mapeo = {
        "0": 0,
        "menos de 10 horas": 1,
        "entre 11 y 20 horas": 2,
        "entre 21 y 30 horas": 3,
        "más de 30 horas": 4
    }

    # Rellenar NaNs con valores cíclicos válidos
    modas = data.groupby('FAMI_ESTRATOVIVIENDA')[columna].transform(lambda x: x.mode().iloc[0])
    data[columna] = data[columna].fillna(modas)

    dummies = pd.get_dummies(data[columna], prefix="Trabaja").astype(int)
    data = data.drop(columns=[columna]).join(dummies)

    return data

## Limpieza y reemplazo de valores NAN para la columna ESTU_PRGM_ACADEMICO

In [6]:
def organizar_programa_estudiante(data, columna):
    # Diccionario con categorías y palabras clave asociadas
    categorias = {
        "arquitectura": ["arquite"],
        "matematica": ["matema", "estad"],
        "ingenieria": ["ingenier"],
        "salud": ["psicolog", "medicina", "enfermer", "fisioterap", "odontolog", "nutric", "bacteriolog", "terapia", "farmac", "quirurg", "salud"],
        "biologia": ["biolog", "microbiol", "bioing", "bioqui"],
        "docencia": ["licenc", "pedagog", "educac", "docen"],
        "comunicacion": ["comunic", "periodismo", "cine", "audiovisual", "publicidad", "medios"],
        "social": ["sociolog", "trabajo social", "antropolog", "crimin", "histori", "historia", "filosof", "teolog"],
        "derecho": ["juris", "derecho"],
        "politica": ["gobier", "politic", "relaciones internacionales"],
        "administracion": ["admin", "gestion", "logist", "negocios", "gerenc", "direccion"],
        "economia": ["econom", "finanzas", "comercio", "mercadeo", "marketing"],
        "arte": ["arte", "musica", "teatro", "dise", "diseñ", "danza", "fotogra", "moda", "literat", "escénic", "escenari"],
        "deporte": ["deport", "recreac", "actividad fisica", "cultura fisica", "entrenamiento"],
        "tecnologia": ["informatic", "sistemas", "multimedia", "software", "digital", "datos"],
        "industria": ["industrial", "productiv", "produccion", "mecanic", "electron", "electromec", "automatiz", "topograf", "geolog", "minas", "quimic"],
        "agro": ["agronom", "agroind", "zootec", "pecuar", "acui", "agropec", "agricol", "forest"],
        "idiomas": ["ingles", "idioma", "lengua", "lenguas", "frances", "traducc", "biling"],
        "turismo": ["turismo", "gastronom", "hotel", "cocina"],
        "otros": []
    }

    # Normaliza los textos
    data[columna] = data[columna].astype(str).str.lower().str.strip()

    # Función interna para aplicar a cada valor
    def clasificar(programa):
        for categoria, palabras_clave in categorias.items():
            if any(palabra in programa for palabra in palabras_clave):
                return categoria
        return "otras"

    # Aplicar categorización
    data[columna] = data[columna].apply(clasificar)

    dummies = pd.get_dummies(data[columna], prefix="Programa").astype(int)
    data = data.drop(columns=[columna]).join(dummies)

    return data  # ✅ ESTA LÍNEA ES OBLIGATORIA



##  Limpieza y reemplazo de valores NAN para la columna FAMI_ESTRATOVIVIENDA

In [8]:
def organizar_estratos(data, columna):
  data[columna] = (
      data[columna]
      .str.lower()
      .str.replace("sin estrato", "0", regex=False)
      .str.replace("estrato ", "", regex=False))

  moda = data[columna].mode().values[0]

  data[columna] = data[columna].fillna(moda)


  data[columna] = (
    data[columna]
    .astype(int))

  return data

## Limpieza y reemplzado de valores NAN para las columnas que tienen solo dos posibles valores

In [9]:
def organizar_columna_binaria(data, columna, valores):
    modas = data.groupby('FAMI_ESTRATOVIVIENDA')[columna].transform(lambda x: x.mode().iloc[0])
    data[columna] = data[columna].fillna(modas)

    data.loc[data[columna] == valores[0], columna] = 1
    data.loc[data[columna] == valores[1], columna] = 0

    return data


## Limpieza y reemplazo de valores NAN para la columna ESTU_VALORMATRICULAUNIVERSIDAD

In [10]:
def organizar_valor_matricula_en_una_columna(data, columna):
    mapeo = {
       'Más de 7 millones':6,
       'Entre 5.5 millones y menos de 7 millones':5,
       'Entre 4 millones y menos de 5.5 millones':4,
       'Entre 2.5 millones y menos de 4 millones':3,
       'Entre 1 millón y menos de 2.5 millones':2,
       'Entre 500 mil y menos de 1 millón':1,
       'Menos de 500 mil': 0,
       'No pagó matrícula':0
      }

    # Rellenar NaNs con valores cíclicos válidos
    modas = data.groupby('FAMI_ESTRATOVIVIENDA')[columna].transform(lambda x: x.mode().iloc[0])
    data[columna] = data[columna].fillna(modas)

    # Aplicar mapeo numérico
    data[columna] = data[columna].map(mapeo)

    return data


## Limpieza y reemplazo de valores NAN para la columna FAMI_EDUCACIONPADRE

In [11]:
def organizar_educacion_padres(data, columna):
  # Lista de estratos (como strings, si así están en el DataFrame)

  mapeo = {
    'No sabe':0,
    'Ninguno':0,
    'No Aplica':0,
    'Primaria incompleta':1,
    'Primaria completa':1,
    'Secundaria (Bachillerato) incompleta':2,
    'Secundaria (Bachillerato) completa':3,
    'Técnica o tecnológica incompleta':4,
    'Técnica o tecnológica completa':5,
    'Educación profesional incompleta':5,
    'Educación profesional completa':6,
    'Postgrado':7,
  }

  # Asignar uno por uno, reiniciando al llegar al final de la lista de estratos
  modas = data.groupby('FAMI_ESTRATOVIVIENDA')[columna].transform(lambda x: x.mode().iloc[0])
  data[columna] = data[columna].fillna(modas)

  # if columna == "FAMI_EDUCACIONMADRE":
  #   dummies = pd.get_dummies(data[columna], prefix="Edu-madre").astype(int)
  #   data = data.drop(columns=[columna]).join(dummies)

  #   return data

  # dummies = pd.get_dummies(data[columna], prefix="Edu-padre").astype(int)
  # data = data.drop(columns=[columna]).join(dummies)
  data[columna] = data[columna].map(mapeo)

  return data


## Limpieza y reemplazo de valores NAN para la columna PERIODO

In [12]:
def organizar_periodos(data, columna):
    mapeo = {
        20183:0,
        20184:0, 
        20194:1,
        20195:1,
        20196:1,
        20202:2,
        20203:2,
        20212:3,
        20213:3
    }

    data[columna] = data[columna].map(mapeo)

    return data

## Limpieza y reemplazo de valores NAN para la columna FAMI_EDUCACIONMADRE

## Análisis de la correclación entre las columnas de coeficientes

In [None]:
coef_cols = ['coef_1', 'coef_2', 'coef_3', 'coef_4']
dtr_coef = dtr[coef_cols]

correlation_matrix = dtr_coef.corr()

print("Matriz de correlación entre las columnas 'coef':")
print(correlation_matrix)

Matriz de correlación entre las columnas 'coef':
          coef_1    coef_2    coef_3    coef_4
coef_1  1.000000 -0.420428  0.401190 -0.179439
coef_2 -0.420428  1.000000  0.356097  0.821443
coef_3  0.401190  0.356097  1.000000  0.726692
coef_4 -0.179439  0.821443  0.726692  1.000000


## Función donde se eliminan columnas innecesarias y se aplican las funciones de limpieza

In [13]:
def clean_data(data):
  columnas_inecesarias = [
      "ID",
      "FAMI_TIENELAVADORA",
      "coef_4",
      # "coef_1",
      #"PERIODO",
      # "FAMI_TIENEAUTOMOVIL",
      "FAMI_TIENEINTERNET.1",
      "ESTU_PRIVADO_LIBERTAD",
      #"ESTU_HORASSEMANATRABAJA",
      # "FAMI_EDUCACIONPADRE",
      # "FAMI_EDUCACIONMADRE",
      #"ESTU_PRGM_ACADEMICO",
      #"ESTU_PRGM_DEPARTAMENTO",
      #"FAMI_TIENEINTERNET",
      #"FAMI_TIENECOMPUTADOR",
      #"ESTU_PAGOMATRICULAPROPIO",
      #"ESTU_VALORMATRICULAUNIVERSIDAD"
  ]
  data=data.drop(columns=columnas_inecesarias)

  data=organizar_estratos(data, "FAMI_ESTRATOVIVIENDA")
  data=organizar_periodos(data, "PERIODO")
  data=organizar_horas_trabajadas_estudiante(data, "ESTU_HORASSEMANATRABAJA")
  # data=organizar_programa_estudiante(data, "ESTU_PRGM_ACADEMICO")
  data=organizar_columna_binaria(data, "FAMI_TIENEINTERNET", ["Si", "No"])
  data=organizar_columna_binaria(data, "FAMI_TIENECOMPUTADOR", ["Si", "No"])
  # data=organizar_columna_binaria(data, "FAMI_TIENELAVADORA", ["Si", "No"])
  data=organizar_columna_binaria(data, "FAMI_TIENEAUTOMOVIL", ["Si", "No"])
  data=organizar_columna_binaria(data, "ESTU_PAGOMATRICULAPROPIO", ["Si", "No"])

  data=organizar_valor_matricula_en_una_columna(data, "ESTU_VALORMATRICULAUNIVERSIDAD")
  data=organizar_educacion_padres(data, "FAMI_EDUCACIONPADRE")
  data=organizar_educacion_padres(data, "FAMI_EDUCACIONMADRE")
  return data

In [14]:
source_cols = [i for i in dtr.columns if i!="RENDIMIENTO_GLOBAL"]
all_data = pd.concat((dtr[source_cols], dts[source_cols]))
all_data.index = range(len(all_data))
all_data = clean_data(all_data)

Xtr, ytr = all_data.iloc[:lentr].values, dtr["RENDIMIENTO_GLOBAL"].values
Xts      = all_data.iloc[lentr:].values
print (Xtr.shape, ytr.shape)
print (Xts.shape)

(692500, 15) (692500,)
(296786, 15)


In [67]:
all_data.head()

Unnamed: 0,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_TIENEAUTOMOVIL,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,coef_1,coef_2,coef_3,...,Edu-madre_Ninguno,Edu-madre_No Aplica,Edu-madre_No sabe,Edu-madre_Postgrado,Edu-madre_Primaria completa,Edu-madre_Primaria incompleta,Edu-madre_Secundaria (Bachillerato) completa,Edu-madre_Secundaria (Bachillerato) incompleta,Edu-madre_Técnica o tecnológica completa,Edu-madre_Técnica o tecnológica incompleta
0,5,1,3,1,1,0,1,0.322,0.208,0.31,...,0,0,0,1,0,0,0,0,0,0
1,3,0,3,0,0,0,1,0.311,0.215,0.292,...,0,0,0,0,0,0,0,0,0,1
2,3,4,3,1,0,0,0,0.297,0.214,0.305,...,0,0,0,0,0,0,1,0,0,0
3,4,0,4,1,0,0,1,0.485,0.172,0.252,...,0,0,0,0,0,0,1,0,0,0
4,3,3,3,1,1,0,1,0.316,0.232,0.285,...,0,0,0,0,1,0,0,0,0,0


## Catboost Classifier

In [None]:
!pip install catboost

Collecting catboost
  Downloading catboost-1.2.8-cp311-cp311-manylinux2014_x86_64.whl.metadata (1.2 kB)
Downloading catboost-1.2.8-cp311-cp311-manylinux2014_x86_64.whl (99.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m99.2/99.2 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: catboost
Successfully installed catboost-1.2.8


In [172]:
from catboost import CatBoostClassifier
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(Xtr,ytr, test_size=0.2)

model = CatBoostClassifier(
            iterations=1000,
            learning_rate=0.06,
            depth=6,
            l2_leaf_reg=10,
            verbose=100,
            cat_features=[0, 1, 2, 3, 4, 5, 7, 11]
        )

model.fit(Xtrain, ytrain, eval_set=(Xtest, ytest), use_best_model=True)

model.score(Xtrain, ytrain), model.score(Xtest, ytest)

0:	learn: 1.3713404	test: 1.3712704	best: 1.3712704 (0)	total: 3.25s	remaining: 54m 2s
100:	learn: 1.1977321	test: 1.1941145	best: 1.1941145 (100)	total: 4m 34s	remaining: 40m 42s
200:	learn: 1.1887891	test: 1.1858399	best: 1.1858399 (200)	total: 9m 9s	remaining: 36m 23s
300:	learn: 1.1847700	test: 1.1828705	best: 1.1828705 (300)	total: 13m 40s	remaining: 31m 46s
400:	learn: 1.1826984	test: 1.1816479	best: 1.1816479 (400)	total: 18m 17s	remaining: 27m 19s
500:	learn: 1.1814710	test: 1.1810671	best: 1.1810671 (500)	total: 22m 44s	remaining: 22m 39s
600:	learn: 1.1802951	test: 1.1806291	best: 1.1806291 (600)	total: 27m 17s	remaining: 18m 7s
700:	learn: 1.1792727	test: 1.1803363	best: 1.1803363 (700)	total: 31m 52s	remaining: 13m 35s
800:	learn: 1.1782571	test: 1.1800352	best: 1.1800352 (800)	total: 36m 27s	remaining: 9m 3s
900:	learn: 1.1773755	test: 1.1798385	best: 1.1798385 (900)	total: 41m 2s	remaining: 4m 30s
999:	learn: 1.1764247	test: 1.1796242	best: 1.1796240 (997)	total: 45m 33s	

(np.float64(0.4573808664259928), np.float64(0.445956678700361))

In [173]:
pd.DataFrame({'ID': dts['ID'].values, 'RENDIMIENTO_GLOBAL': model.predict(Xts).reshape(296786,)}).to_csv('predict.csv', index=False)