In [None]:
# Importa librerías básicas para manejo de datos y operaciones

import numpy as np
import pandas as pd
import os
import random

In [None]:
# Configura el entorno para Kaggle y descarga el dataset de la competencia
os.environ['KAGGLE_CONFIG_DIR'] = '.'
!kaggle competitions download -c udea-ai-4-eng-20251-pruebas-saber-pro-colombia

In [None]:
# Descomprime el archivo descargado del dataset
!unzip udea-ai-4-eng-20251-pruebas-saber-pro-colombia.zip

In [None]:
#  Carga los archivos CSV de train y test en dataframes de pandas
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')
df_train.head()

In [None]:
#  Muestra las columnas del dataframe de entrenamiento
df_train.columns

In [None]:
# Instala la librería unidecode para normalización de texto
!pip install unidecode

In [None]:
 # Normaliza el nombre del programa académico eliminando tildes y poniendo en mayúsculas
import unidecode
def estu_program_normalizado(df):

  def fillna(row):
    if pd.isna(row):
      return row
    row = row.upper().strip()
    row = unidecode.unidecode(row)
    row = ' '.join(row.split())
    return row

  df['ESTU_PRGM_ACADEMICO'] = df['ESTU_PRGM_ACADEMICO'].apply(fillna)


In [None]:
#  Muestra los valores únicos de la columna de programa académico
df_train['ESTU_PRGM_ACADEMICO'].unique()

In [None]:
# Muestra la cantidad de valores nulos por columna (solo las que tienen nulos)
p = df_train.isna().sum()
p[p!=0]

In [None]:
# Muestra los valores únicos del departamento del programa y define función de normalización
programas = df_train['ESTU_PRGM_DEPARTAMENTO'].unique()
programas

def estu_program_departamento(df):

  department_name = {
      'BOGOTÁ': 'BOGOTA',
      'NARIÑO': 'NARINO'
  }

  df['ESTU_PRGM_DEPARTAMENTO'] = df['ESTU_PRGM_DEPARTAMENTO'].str.strip()
  df['ESTU_PRGM_DEPARTAMENTO'] = df['ESTU_PRGM_DEPARTAMENTO'].replace(department_name)


In [None]:
# Muestra los valores únicos de estrato y define función para imputar nulos con la moda
estrato = df_train['FAMI_ESTRATOVIVIENDA'].unique()
estrato

def fami_estrato(df):

  #Ej: Moda = Estrato 2
  moda = df['FAMI_ESTRATOVIVIENDA'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['FAMI_ESTRATOVIVIENDA'] = df['FAMI_ESTRATOVIVIENDA'].apply(fillna)

In [None]:
#  Muestra la columna de horas semanales de trabajo
df_train['ESTU_HORASSEMANATRABAJA']

In [None]:
#  Imputa valores nulos en horas semanales de trabajo con la moda
def estu_hora_trabaja(df):

  moda = df['ESTU_HORASSEMANATRABAJA'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['ESTU_HORASSEMANATRABAJA'] = df['ESTU_HORASSEMANATRABAJA'].apply(fillna)

In [None]:
#  Imputa valores nulos en valor de matrícula con la moda
def matricula_valor(df):

  moda = df['ESTU_VALORMATRICULAUNIVERSIDAD'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].apply(fillna)

In [None]:
#  Muestra la moda de estrato de vivienda
df_train['FAMI_ESTRATOVIVIENDA'].mode()[0]

In [None]:
# Muestra los valores únicos de si tiene internet en casa

df_train['FAMI_TIENEINTERNET'].unique() #Sale por probabilidad

In [None]:
# Muestra los valores únicos de educación del padre
df_train['FAMI_EDUCACIONPADRE'].unique()

In [None]:
#  Muestra los valores únicos de educación del padre y define función para imputar nulos con la moda
df_train['FAMI_EDUCACIONPADRE'].unique() #Hay nan

def fami_educacion_padre(df):

  moda = df['FAMI_EDUCACIONPADRE'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['FAMI_EDUCACIONPADRE'] = df['FAMI_EDUCACIONPADRE'].apply(fillna)

In [None]:
#  Muestra los valores únicos de si tiene lavadora y define función para imputar nulos según estrato y probabilidad
df_train['FAMI_TIENELAVADORA'].unique() #Hay nan

def fami_tienelavadora(df):

  percent_si = np.round(df['FAMI_TIENELAVADORA'].value_counts(normalize=True).get('Si', 0), 4)

  def fillna(row):
    estrato = row['FAMI_ESTRATOVIVIENDA']
    if pd.isna(row['FAMI_TIENELAVADORA']):
      if ((estrato != 'Sin estrato') or (estrato != 'Estrato 1') or (estrato != 'Estrato 2')):
          return 'Si'
      elif random.random() <= percent_si:
          return 'Si'
      else:
          return 'No'
    else:
      return row['FAMI_TIENELAVADORA']
  df['FAMI_TIENELAVADORA'] = df.apply(fillna, axis=1)

In [None]:
#  Calcula el porcentaje de 'Si' en la columna de lavadora
percent_si = np.round(df_train['FAMI_TIENELAVADORA'].value_counts(normalize=True).get('Si', 0), 4)
percent_si

In [None]:
#  Muestra los valores únicos de si tiene internet y define función para imputar nulos según estrato y probabilidad
df_train['FAMI_TIENEINTERNET'].unique()  # Hay nan

def fami_tieneinternet(df):
    percent_si = np.round(df['FAMI_TIENEINTERNET'].value_counts(normalize=True).get('Si', 0), 4)

    def fillna(row):
        estrato = row['FAMI_ESTRATOVIVIENDA']
        if pd.isna(row['FAMI_TIENEINTERNET']):
            if ((estrato != 'Sin estrato') or (estrato != 'Estrato 1') or (estrato != 'Estrato 2')):
                return 'Si'
            elif random.random() <= percent_si:
                return 'Si'
            else:
                return 'No'
        else:
            return row['FAMI_TIENEINTERNET']

    df['FAMI_TIENEINTERNET'] = df.apply(fillna, axis=1)


In [None]:
#  Muestra los valores únicos de si tiene internet (columna duplicada) y define función para imputar nulos
df_train['FAMI_TIENEINTERNET.1'].unique()  # Hay nan

def fami_tieneinternet_1(df):
    percent_si = np.round(df['FAMI_TIENEINTERNET.1'].value_counts(normalize=True).get('Si', 0), 4)

    def fillna(row):
        estrato = row['FAMI_ESTRATOVIVIENDA']
        if pd.isna(row['FAMI_TIENEINTERNET.1']):
            if ((estrato != 'Sin estrato') or (estrato != 'Estrato 1') or (estrato != 'Estrato 2')):
                return 'Si'
            elif random.random() <= percent_si:
                return 'Si'
            else:
                return 'No'
        else:
            return row['FAMI_TIENEINTERNET.1']

    df['FAMI_TIENEINTERNET.1'] = df.apply(fillna, axis=1)


In [None]:
#  Calcula el porcentaje de 'Si' en la columna de internet
percent_si = np.round(df_train['FAMI_TIENEINTERNET'].value_counts(normalize=True).get('Si', 0), 4)
percent_si

In [None]:
#  Muestra los valores únicos de si tiene automóvil y define función para imputar nulos según estrato y probabilidad
df_train['FAMI_TIENEAUTOMOVIL'].unique()  # Hay nan

def fami_tieneautomovil(df):
    percent_si = np.round(df['FAMI_TIENEAUTOMOVIL'].value_counts(normalize=True).get('Si', 0), 4)

    def fillna(row):
        estrato = row['FAMI_ESTRATOVIVIENDA']
        if pd.isna(row['FAMI_TIENEAUTOMOVIL']):
            if ((estrato != 'Sin estrato') or (estrato != 'Estrato 1') or (estrato != 'Estrato 2')):
                return 'Si'
            elif random.random() <= percent_si:
                return 'Si'
            else:
                return 'No'
        else:
            return row['FAMI_TIENEAUTOMOVIL']

    df['FAMI_TIENEAUTOMOVIL'] = df.apply(fillna, axis=1)


In [None]:
#  Calcula el porcentaje de 'Si' en la columna de automóvil
percent_si = np.round(df_train['FAMI_TIENEAUTOMOVIL'].value_counts(normalize=True).get('Si', 0), 4)
percent_si

In [None]:
#  Muestra los valores únicos
df_train['ESTU_PRIVADO_LIBERTAD'].unique()

In [None]:
#  Muestra los valores únicos de si paga matrícula propia
df_train['ESTU_PAGOMATRICULAPROPIO'].unique()

In [None]:
# Celda: Imputa valores nulos en pago de matrícula propia con la moda
def estu_pagamatricula(df):

  moda = df['ESTU_PAGOMATRICULAPROPIO'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['ESTU_PAGOMATRICULAPROPIO'] = df['ESTU_PAGOMATRICULAPROPIO'].apply(fillna)

In [None]:
#  Muestra los valores únicos de si tiene computador y define función para imputar nulos según estrato y probabilidad
df_train['FAMI_TIENECOMPUTADOR'].unique() #Hay nan

def fami_tienecomputador(df):

  percent_si = np.round(df['FAMI_TIENECOMPUTADOR'].value_counts(normalize=True).get('Si', 0), 4)

  def fillna(row):
    estrato = row['FAMI_ESTRATOVIVIENDA']
    if pd.isna(row['FAMI_TIENECOMPUTADOR']):
      if ((estrato != 'Sin estrato') or (estrato != 'Estrato 1') or (estrato != 'Estrato 2')):
          return 'Si'
      elif random.random() <= percent_si:
          return 'Si'
      else:
          return 'No'
    else:
      return row['FAMI_TIENECOMPUTADOR']
  df['FAMI_TIENECOMPUTADOR'] = df.apply(fillna, axis=1)

In [None]:
#  Muestra los valores únicos de la columna FAMI_TIENEINTERNET.1
df_train['FAMI_TIENEINTERNET.1'].unique() 

In [None]:
#  Muestra los valores únicos de educación de la madre
df_train['FAMI_EDUCACIONMADRE'].unique()

In [None]:
#  Imputa valores nulos en educación de la madre con la moda
def fami_educacion_madre(df):

  moda = df['FAMI_EDUCACIONMADRE'].mode()[0]

  def fillna(row):
    if pd.isna(row):
      return moda
    return row
  df['FAMI_EDUCACIONMADRE'] = df['FAMI_EDUCACIONMADRE'].apply(fillna)

In [None]:
#  Muestra los valores únicos de rendimiento global
df_train['RENDIMIENTO_GLOBAL'].unique()

In [None]:
#  Convierte los valores de rendimiento global a valores numéricos
def rendimiento(df):

  rendimiento_replace = {
      'bajo': 0,
      'medio-bajo': 1,
      'medio-alto': 2,
      'alto': 3
  }

  df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].replace(rendimiento_replace)


In [None]:
#  Aplica todas las funciones de limpieza y transformación al dataset
def limpiar_dataset_completo(df, isrendimiento=False):

    if not isrendimiento:
      rendimiento(df)
    estu_program_normalizado(df)
    estu_program_departamento(df)
    fami_estrato(df)
    fami_educacion_padre(df)
    fami_educacion_madre(df)
    fami_tienelavadora(df)
    fami_tieneinternet(df)
    fami_tieneinternet_1(df)
    fami_tieneautomovil(df)
    fami_tienecomputador(df)
    estu_pagamatricula(df)
    estu_hora_trabaja(df)
    matricula_valor(df)

    return df


In [None]:
#  Limpia el dataset de entrenamiento
df_train_limpio = limpiar_dataset_completo(df_train)

In [None]:
#  Limpia el dataset de test (sin transformar rendimiento)
df_test_limpio = limpiar_dataset_completo(df_test, isrendimiento=True)

In [None]:
#  Elimina la columna FAMI_TIENEINTERNET.1 del test limpio
df_test_limpio.drop(columns=['FAMI_TIENEINTERNET.1'], inplace=True, axis=1)

In [None]:
# Convierte los valores numéricos de rendimiento global a texto
def rendimiento_back(df):

  rendimiento_replace = {
      0: 'bajo',
      1: 'medio-bajo',
      2: 'medio-alto',
      3: 'alto'
  }

  df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].replace(rendimiento_replace)


In [None]:
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import LabelEncoder
import lightgbm as lgb
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np

# 1. PREPARAR DATOS
data = df_train_limpio.copy()
x = data.drop(["RENDIMIENTO_GLOBAL", "ID"], axis=1)
y = data['RENDIMIENTO_GLOBAL']

cat_cols = x.select_dtypes(include=['object']).columns.tolist()

# 2. APLICAR LABEL ENCODING Y GUARDAR ENCODERS
label_encoders = {}
x_encoded = x.copy()

for col in cat_cols:
    le = LabelEncoder()
    x_encoded[col] = x_encoded[col].astype(str)
    x_encoded[col] = le.fit_transform(x_encoded[col])
    label_encoders[col] = le  # GUARDAR el encoder

# 3. SPLIT CON ESTRATIFICACIÓN
x_train, x_val, y_train, y_val = train_test_split(
    x_encoded, y, test_size=0.2, random_state=42, stratify=y
)


In [None]:
# Crea y entrena el modelo GradientBoostingClassifier con los parámetros optimizados

from sklearn.ensemble import GradientBoostingClassifier

model = GradientBoostingClassifier(
    n_estimators=1000,
    learning_rate=0.6,
    max_depth=3,
    random_state=42,
    max_features='sqrt',
    min_samples_leaf=15,
    min_samples_split=10,
)

model.fit(x_train, y_train)

In [None]:
# Realiza predicciones sobre el conjunto de validación y calcula su precisión
predict_y = model.predict(x_val)
acc = accuracy_score(y_val, predict_y)
print(acc)

In [None]:
test = df_test_limpio.copy()
y = test['ID']
test.drop(columns=['ID'], inplace=True, axis=1)

for col in cat_cols:
    if col in test.columns:
        test[col] = test[col].astype(str)

        # Manejar valores no vistos en entrenamiento
        le = label_encoders[col]

        def safe_transform(value):
            try:
                return le.transform([value])[0]
            except ValueError:
                # Si el valor no existe, usar el más frecuente del training
                return le.transform([le.classes_[0]])[0]

        test[col] = test[col].apply(safe_transform)

predecir = model.predict(test)

submit_df= pd.DataFrame({
    'ID': y,
    'RENDIMIENTO_GLOBAL': predecir
})

rendimiento_back(submit_df)

In [None]:
submit_df.to_csv('submission.csv', index=False)