### Instrucciones para Descargar los Datos desde Kaggle

Para descargar los archivos de datos de la competencia de Kaggle directamente a este entorno de Google Colab, sigue los siguientes pasos:

1. **Generar el archivo `kaggle.json`**:
   - Ve a [Kaggle](https://www.kaggle.com).
   - Inicia sesión con tu cuenta.
   - Dirígete a tu perfil (haciendo clic en tu imagen de perfil en la esquina superior derecha) y selecciona **Settings**.
   - Desplázate hasta la sección **API** y haz clic en **Create New API Token**.
   - Esto descargará un archivo `kaggle.json` en tu computadora. Este archivo contiene las credenciales necesarias para acceder a la API de Kaggle.

2. **Subir el archivo `kaggle.json` a Google Colab**:
   - Ejecuta la celda que te pide subir archivos.
   - Selecciona el archivo `kaggle.json` que descargaste de Kaggle.

3. **Ejecutar el código para descargar los datos**:
   - Una vez que hayas subido el archivo `kaggle.json`, las siguientes celdas descargarán y descomprimirán automáticamente los archivos de la competencia desde Kaggle.

**Subir el archivo `kaggle.json`**:

In [1]:
!pip install kaggle

# Solicitar el archivo kaggle.json
from google.colab import files
files.upload()  # Subir el archivo kaggle.json

# Crear el directorio .kaggle y mover el archivo kaggle.json
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json



Saving kaggle.json to kaggle.json


**Código para descargar los datos**:


In [2]:
# Descargar los datos
!kaggle competitions download -c udea-ai4eng-20242

# Descomprimir los archivos descargados
!unzip udea-ai4eng-20242.zip

Downloading udea-ai4eng-20242.zip to /content
 35% 7.00M/20.1M [00:00<00:01, 9.23MB/s]
100% 20.1M/20.1M [00:00<00:00, 25.3MB/s]
Archive:  udea-ai4eng-20242.zip
  inflating: submission_example.csv  
  inflating: test.csv                
  inflating: train.csv               


**Importando librerías**

In [3]:
# Importar librerías
!pip install catboost scikit-optimize
!pip install category_encoders
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, LabelEncoder
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.impute import SimpleImputer
from category_encoders import TargetEncoder
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.model_selection import train_test_split
from scipy.stats import f_oneway
from sklearn.feature_selection import mutual_info_classif
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import GridSearchCV
from catboost import CatBoostClassifier
from skopt import BayesSearchCV
from skopt.space import Real, Integer

Collecting catboost
  Downloading catboost-1.2.7-cp311-cp311-manylinux2014_x86_64.whl.metadata (1.2 kB)
Collecting scikit-optimize
  Downloading scikit_optimize-0.10.2-py2.py3-none-any.whl.metadata (9.7 kB)
Collecting pyaml>=16.9 (from scikit-optimize)
  Downloading pyaml-25.1.0-py3-none-any.whl.metadata (12 kB)
Downloading catboost-1.2.7-cp311-cp311-manylinux2014_x86_64.whl (98.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.7/98.7 MB[0m [31m23.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading scikit_optimize-0.10.2-py2.py3-none-any.whl (107 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m107.8/107.8 kB[0m [31m11.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyaml-25.1.0-py3-none-any.whl (26 kB)
Installing collected packages: pyaml, scikit-optimize, catboost
Successfully installed catboost-1.2.7 pyaml-25.1.0 scikit-optimize-0.10.2
Collecting category_encoders
  Downloading category_encoders-2.8.0-py3-none-any.whl.metadata (7.9 kB)
Downl

# **Carga y visualización del dataset**

In [4]:
# Cargar los datos
data = pd.read_csv('train.csv')

# Mostrar los primeros registros
data.head()

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,RENDIMIENTO_GLOBAL
0,904256,20212,ENFERMERIA,BOGOTÁ,Entre 5.5 millones y menos de 7 millones,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica incompleta,Postgrado,No,medio-alto
1,645256,20212,DERECHO,ATLANTICO,Entre 2.5 millones y menos de 4 millones,0,Estrato 3,No,Técnica o tecnológica completa,Técnica o tecnológica incompleta,No,bajo
2,308367,20203,MERCADEO Y PUBLICIDAD,BOGOTÁ,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No,bajo
3,470353,20195,ADMINISTRACION DE EMPRESAS,SANTANDER,Entre 4 millones y menos de 5.5 millones,0,Estrato 4,Si,No sabe,Secundaria (Bachillerato) completa,No,alto
4,989032,20212,PSICOLOGIA,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 3,Si,Primaria completa,Primaria completa,No,medio-bajo


**Información del dataset**

In [5]:
# Mostrar tipos de datos y valores nulos
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 692500 entries, 0 to 692499
Data columns (total 12 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   ID                              692500 non-null  int64 
 1   PERIODO                         692500 non-null  int64 
 2   ESTU_PRGM_ACADEMICO             692500 non-null  object
 3   ESTU_PRGM_DEPARTAMENTO          692500 non-null  object
 4   ESTU_VALORMATRICULAUNIVERSIDAD  686213 non-null  object
 5   ESTU_HORASSEMANATRABAJA         661643 non-null  object
 6   FAMI_ESTRATOVIVIENDA            660363 non-null  object
 7   FAMI_TIENEINTERNET              665871 non-null  object
 8   FAMI_EDUCACIONPADRE             669322 non-null  object
 9   FAMI_EDUCACIONMADRE             668836 non-null  object
 10  ESTU_PAGOMATRICULAPROPIO        686002 non-null  object
 11  RENDIMIENTO_GLOBAL              692500 non-null  object
dtypes: int64(2), object(10)
memory

**Identificar valores faltantes**

In [6]:
# Explorar la cantidad de valores faltantes por columna
missing_values = data.isnull().sum()
print("Valores faltantes:\n", missing_values)

Valores faltantes:
 ID                                    0
PERIODO                               0
ESTU_PRGM_ACADEMICO                   0
ESTU_PRGM_DEPARTAMENTO                0
ESTU_VALORMATRICULAUNIVERSIDAD     6287
ESTU_HORASSEMANATRABAJA           30857
FAMI_ESTRATOVIVIENDA              32137
FAMI_TIENEINTERNET                26629
FAMI_EDUCACIONPADRE               23178
FAMI_EDUCACIONMADRE               23664
ESTU_PAGOMATRICULAPROPIO           6498
RENDIMIENTO_GLOBAL                    0
dtype: int64


#**Limpieza y preprocesamiento de datos**

In [7]:
# Crear una copia del dataset original
data_cleaned = data.copy()

# Eliminar la columna ID del dataset
if 'ID' in data_cleaned.columns:
    data_cleaned = data_cleaned.drop(columns=['ID'])
    print("Columna 'ID' eliminada correctamente.")
else:
    print("La columna 'ID' ya fue eliminada.")

Columna 'ID' eliminada correctamente.


**Porcentaje de valores faltantes**

In [8]:
# Calcular el porcentaje de valores faltantes por columna
missing_percentage = data_cleaned.isnull().sum() / len(data_cleaned) * 100
print(missing_percentage)

PERIODO                           0.000000
ESTU_PRGM_ACADEMICO               0.000000
ESTU_PRGM_DEPARTAMENTO            0.000000
ESTU_VALORMATRICULAUNIVERSIDAD    0.907870
ESTU_HORASSEMANATRABAJA           4.455884
FAMI_ESTRATOVIVIENDA              4.640722
FAMI_TIENEINTERNET                3.845343
FAMI_EDUCACIONPADRE               3.347004
FAMI_EDUCACIONMADRE               3.417184
ESTU_PAGOMATRICULAPROPIO          0.938339
RENDIMIENTO_GLOBAL                0.000000
dtype: float64


**Inputar valores nulos para las columnas con valores faltantes**

Se procede a realizar la imputacion utilizando la moda para variables categoricas como:

*   ESTU_VALORMATRICULAUNIVERSIDAD
*   FAMI_ESTRATOVIVIENDA
*   FAMI_TIENEINTERNET
*   FAMI_EDUCACIONPADRE
*   FAMI_EDUCACIONMADRE

Ademas, se procede a imputar con valores representativos de acuerdo al contexto de sus valores unicos, variables categoricas como:
        

*   ESTU_PAGOMATRICULAPROPIO
*   ESTU_HORASSEMANATRABAJA


In [9]:
# Imputar valores categóricos con la moda (opción más frecuente)
for col in ["ESTU_VALORMATRICULAUNIVERSIDAD", "FAMI_ESTRATOVIVIENDA", "FAMI_TIENEINTERNET",
            "FAMI_EDUCACIONPADRE", "FAMI_EDUCACIONMADRE"]:
    data_cleaned.loc[:, col] = data_cleaned[col].fillna(data_cleaned[col].mode()[0])

# Imputar con valores representativos de acuerdo a su contexto
data_cleaned.loc[:, "ESTU_PAGOMATRICULAPROPIO"] = data_cleaned["ESTU_PAGOMATRICULAPROPIO"].fillna("No")
data_cleaned.loc[:, "ESTU_HORASSEMANATRABAJA"] = data_cleaned["ESTU_HORASSEMANATRABAJA"].fillna("0")

print("Valores faltantes imputados correctamente.")

Valores faltantes imputados correctamente.


**Verificar que no hayan valores nulos**

In [10]:
# Explorar la cantidad de valores faltantes por columna
missing_values = data_cleaned.isnull().sum()
print("Valores faltantes:\n", missing_values)

Valores faltantes:
 PERIODO                           0
ESTU_PRGM_ACADEMICO               0
ESTU_PRGM_DEPARTAMENTO            0
ESTU_VALORMATRICULAUNIVERSIDAD    0
ESTU_HORASSEMANATRABAJA           0
FAMI_ESTRATOVIVIENDA              0
FAMI_TIENEINTERNET                0
FAMI_EDUCACIONPADRE               0
FAMI_EDUCACIONMADRE               0
ESTU_PAGOMATRICULAPROPIO          0
RENDIMIENTO_GLOBAL                0
dtype: int64


## **Codificacion de variables con orden representativo aplicando OrdinalEnconder**

**Aplicar OrdinalEncoder a la variable objetivo (RENDIMIENTO_GLOBAL) con un orden representativo**

In [11]:
# Definir el orden correcto de la variable objetivo
rendimiento_order = [['bajo', 'medio-bajo', 'medio-alto', 'alto']]

# Aplicar OrdinalEncoder con el orden correcto definido
ordinal_encoder = OrdinalEncoder(categories=rendimiento_order)
data_cleaned['RENDIMIENTO_GLOBAL'] = ordinal_encoder.fit_transform(data_cleaned[['RENDIMIENTO_GLOBAL']])

# Convertir a entero
data_cleaned['RENDIMIENTO_GLOBAL'] = data_cleaned['RENDIMIENTO_GLOBAL'].astype(int)

# Verificar resultados
print(f"valores unicos: {data_cleaned['RENDIMIENTO_GLOBAL'].unique()}")

valores unicos: [2 0 3 1]


**Aplicar OrdinalEncoder a variables con orden representativo**

In [12]:
# Crear un diccionario con el orden correcto de las variables categoricas ya inputadas y que tienen un orden logico
ordinal_categories = {
    'ESTU_VALORMATRICULAUNIVERSIDAD': ['No pagó matrícula', 'Menos de 500 mil',
                                       'Entre 500 mil y menos de 1 millón', 'Entre 1 millón y menos de 2.5 millones',
                                       'Entre 2.5 millones y menos de 4 millones', 'Entre 4 millones y menos de 5.5 millones',
                                       'Entre 5.5 millones y menos de 7 millones', 'Más de 7 millones'],
    'ESTU_HORASSEMANATRABAJA': ['0', 'Menos de 10 horas', 'Entre 11 y 20 horas',
                                'Entre 21 y 30 horas', 'Más de 30 horas'],
    'FAMI_ESTRATOVIVIENDA': ['Sin Estrato', 'Estrato 1', 'Estrato 2', 'Estrato 3',
                             'Estrato 4', 'Estrato 5', 'Estrato 6']
}

# Aplicar OrdinalEncoder a las variables categoricas
ordinal_enc = OrdinalEncoder(categories=[ordinal_categories[col] for col in ordinal_categories.keys()],
                             handle_unknown='use_encoded_value', unknown_value=-1)

# Transformar las columnas que necesitan codificación ordinal
data_cleaned[list(ordinal_categories.keys())] = ordinal_enc.fit_transform(data_cleaned[list(ordinal_categories.keys())])

#Convertir los resultados de los valores unicos codificados a enteros
data_cleaned[list(ordinal_categories.keys())] = data_cleaned[list(ordinal_categories.keys())].astype(int)

# Verificar los resultados
print(f"valores unicos Valor Matricula: {data_cleaned['ESTU_VALORMATRICULAUNIVERSIDAD'].unique()}")
print(f"valores unicos Horas Semana Trabaja: {data_cleaned['ESTU_HORASSEMANATRABAJA'].unique()}")
print(f"valores unicos Estrato Vivienda: {data_cleaned['FAMI_ESTRATOVIVIENDA'].unique()}")

valores unicos Valor Matricula: [6 4 5 7 3 2 1 0]
valores unicos Horas Semana Trabaja: [1 0 4 3 2]
valores unicos Estrato Vivienda: [3 4 5 2 1 6 0]


**Aplicar OrdinalEnconder a la variable (PERIODO) trandola como con orden representativo**

In [13]:
# Definir el orden correcto de los periodos academicos
periodo_orden = [[20183, 20184, 20194, 20195, 20196, 20202, 20203, 20212, 20213]]

# Aplicar OrdinalEncoder con el orden correcto definido
ordinal_encoder = OrdinalEncoder(categories=periodo_orden)
data_cleaned["PERIODO"] = ordinal_encoder.fit_transform(data_cleaned[["PERIODO"]])

# Convertir a entero
data_cleaned['PERIODO'] = data_cleaned['PERIODO'].astype(int)

# Verificar transformación
print("Valores únicos de PERIODO transformados:", data_cleaned["PERIODO"].unique())

Valores únicos de PERIODO transformados: [7 6 3 0 2 8 1 5 4]


## **Codificacion de variables booleanas aplicando LabelEnconder**

In [14]:
# Crear la instancia LabelEnconder
label_encoder = LabelEncoder()

# Aplicar la transformacion a las variables booleanas
data_cleaned['FAMI_TIENEINTERNET'] = label_encoder.fit_transform(data_cleaned['FAMI_TIENEINTERNET'])
data_cleaned['ESTU_PAGOMATRICULAPROPIO'] = label_encoder.fit_transform(data_cleaned['ESTU_PAGOMATRICULAPROPIO'])

#Verificar resultados
print(f"valores unicos Tiene Internet: {data_cleaned['FAMI_TIENEINTERNET'].unique()}")
print(f"valores unicos Pago Matricula Propio: {data_cleaned['ESTU_PAGOMATRICULAPROPIO'].unique()}")

valores unicos Tiene Internet: [1 0]
valores unicos Pago Matricula Propio: [0 1]


#**Pruebas para evaluar la efectividad del modelo empleando CatBoostClassifier**

**Carga del preprocesado, division en Train-Test y Codificacion con Target Encoding**

**Nota:** Para las variables de FAMI_EDUCACIONPADRE, FAMI_EDUCACIONMADRE, ESTU_PRGM_DEPARTAMENTO y ESTU_PRGM_ACADEMICO, se decide codificar aplicando Target Encoding y no OneHotEncoder, debido a que tienen muchas categorias, de esta manera se busca reducir de dimensionalidad del modelo sin perder informacion relevante.

Con este metodo se remplaza cada departamento con el promedio del rendimiento global en la respectiva region. De igual manera ocurre con los programas academicos, se remplaza cada programa por el promedio del rendimiento global.

In [15]:
# Cargar los datos preprocesados
X = data_cleaned.drop(columns=['RENDIMIENTO_GLOBAL'])
y = data_cleaned['RENDIMIENTO_GLOBAL']

# Dividir en train y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Aplicar Target Encoding solo en Train y transformar Test
target_enc = TargetEncoder()
for col in ["FAMI_EDUCACIONPADRE", "FAMI_EDUCACIONMADRE", "ESTU_PRGM_DEPARTAMENTO", "ESTU_PRGM_ACADEMICO"]:
    X_train[col] = target_enc.fit_transform(X_train[col], y_train)
    X_test[col] = target_enc.transform(X_test[col])  # Se transforma con los valores aprendidos en Train

**Prueba del modelo CatBoostClassifier Base**

In [16]:
# Definir el modelo CatBoost
cat_model = CatBoostClassifier(
    iterations=1000,  # Aumentar iteraciones para mejor rendimiento
    learning_rate=0.05,
    depth=10,
    loss_function='MultiClass',
    task_type="GPU",
    devices='0',
    eval_metric="TotalF1",
    random_seed=42,
    early_stopping_rounds=50,  # Detener si no hay mejora
    train_dir="/tmp/catboost_info",  # Evitar sobrecarga de logs
    verbose=100
)

# Entrenar el modelo con los datos de entrenamiento
cat_model.fit(X_train, y_train, eval_set=(X_test, y_test))

# Realizar predicciones
y_pred_cat = cat_model.predict(X_test)

# Evaluar el modelo
accuracy_cat = accuracy_score(y_test, y_pred_cat)
print("\nAccuracy del modelo CatBoost:", accuracy_cat)

# Mostrar métricas detalladas
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred_cat))
print("\nMatriz de Confusión:\n", confusion_matrix(y_test, y_pred_cat))

0:	learn: 0.3982159	test: 0.3963084	best: 0.3963084 (0)	total: 33.2ms	remaining: 33.1s
100:	learn: 0.4253300	test: 0.4170591	best: 0.4171246 (98)	total: 2.18s	remaining: 19.4s
200:	learn: 0.4341705	test: 0.4211705	best: 0.4213650 (197)	total: 4.32s	remaining: 17.2s
300:	learn: 0.4419878	test: 0.4228457	best: 0.4231054 (289)	total: 6.47s	remaining: 15s
400:	learn: 0.4492517	test: 0.4241266	best: 0.4244843 (395)	total: 8.68s	remaining: 13s
500:	learn: 0.4561306	test: 0.4243504	best: 0.4246945 (458)	total: 11s	remaining: 10.9s
bestTest = 0.424694495
bestIteration = 458
Shrink model to first 459 iterations.

Accuracy del modelo CatBoost: 0.4354079422382671

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.46      0.57      0.51     34597
           1       0.33      0.27      0.30     34455
           2       0.33      0.28      0.30     34324
           3       0.55      0.63      0.59     35124

    accuracy                           

**Prueba del modelo CatBoostClassifier Optimizado con BayesSearchCV**

In [17]:
# Definir el modelo base de CatBoost
cat_model = CatBoostClassifier(
    loss_function="MultiClass",
    task_type="GPU",
    devices='0',
    eval_metric="TotalF1",
    random_seed=42,
    verbose=0,
    early_stopping_rounds=50,  # Detener si no hay mejora
    train_dir="/tmp/catboost_info"  # Evitar sobrecarga de logs
)

# Definir la búsqueda de hiperparámetros con BayesSearchCV
search_space_cat = {
    'iterations': Integer(200, 1000),  # Número de iteraciones
    'depth': Integer(4, 12),  # Profundidad máxima
    'learning_rate': Real(0.01, 0.2, prior='log-uniform'),  # Tasa de aprendizaje
    'l2_leaf_reg': Real(1, 10, prior='log-uniform'),  # Regularización L2
    'border_count': Integer(32, 255),  # Número de divisiones en histogramas
    'bagging_temperature': Real(0, 1),  # Control de bagging
    'random_strength': Real(1, 10, prior='log-uniform')  # Regularización aleatoria
}

# Configurar BayesSearchCV
bayes_search_cat = BayesSearchCV(
    cat_model,
    search_spaces=search_space_cat,
    n_iter=30,  # Número de iteraciones
    cv=3,  # Validación cruzada
    random_state=42,
    n_jobs=1,
    verbose=3
)

# Entrenar el modelo con búsqueda de hiperparámetros
bayes_search_cat.fit(X_train, y_train)

# Mostrar los mejores hiperparámetros encontrados
print("\nMejores Hiperparámetros para CatBoost:")
print(bayes_search_cat.best_params_)

# Evaluar el mejor modelo encontrado
best_cat_model = bayes_search_cat.best_estimator_
y_pred_best_cat = best_cat_model.predict(X_test)

# Calcular el nuevo accuracy
accuracy_best_cat = accuracy_score(y_test, y_pred_best_cat)
print("\nNuevo Accuracy con BayesSearchCV (CatBoost):", accuracy_best_cat)

# Mostrar métricas detalladas
print("\nReporte de Clasificación (CatBoost):\n", classification_report(y_test, y_pred_best_cat))
print("\nMatriz de Confusión (CatBoost):\n", confusion_matrix(y_test, y_pred_best_cat))

Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV 1/3] END bagging_temperature=0.41010395885331385, border_count=194, depth=11, iterations=453, l2_leaf_reg=4.67894508711274, learning_rate=0.03457647873038711, random_strength=2.243527177854895;, score=0.433 total time=  13.6s
[CV 2/3] END bagging_temperature=0.41010395885331385, border_count=194, depth=11, iterations=453, l2_leaf_reg=4.67894508711274, learning_rate=0.03457647873038711, random_strength=2.243527177854895;, score=0.434 total time=  14.3s
[CV 3/3] END bagging_temperature=0.41010395885331385, border_count=194, depth=11, iterations=453, l2_leaf_reg=4.67894508711274, learning_rate=0.03457647873038711, random_strength=2.243527177854895;, score=0.434 total time=  14.1s
Fitting 3 folds for each of 1 candidates, totalling 3 fits
[CV 1/3] END bagging_temperature=0.8373883555532844, border_count=229, depth=6, iterations=961, l2_leaf_reg=7.3135446215885676, learning_rate=0.012052329743285429, random_strength=1.3750184902