In [1]:
import sys
import pandas as pd
import sklearn
import numpy as np
print(sys.version)
print('pandas', pd.__version__)
print('scikit-learn', sklearn.__version__)
print('numpy', np.__version__)

3.11.13 | packaged by Anaconda, Inc. | (main, Jun  5 2025, 13:03:15) [MSC v.1929 64 bit (AMD64)]
pandas 2.1.4
scikit-learn 1.7.2
numpy 1.26.4


In [4]:
# Prueba rápida del kernel e importaciones
import sys
import pandas as pd
import sklearn
import numpy as np
print(sys.version)
print('pandas', pd.__version__)
print('scikit-learn', sklearn.__version__)
print('numpy', np.__version__)

3.11.13 | packaged by Anaconda, Inc. | (main, Jun  5 2025, 13:03:15) [MSC v.1929 64 bit (AMD64)]
pandas 2.1.4
scikit-learn 1.7.2
numpy 1.26.4


# **Selección de Algoritmos** 
Comenzaremos con modelos base simples y progresaremos hacia algoritmos de ensamble más complejos para establecer un benchmark de rendimiento.
# **Entrenamiento Sistemático** 
Crearemos un framework reutilizable para entrenar cada modelo, garantizando que todos sean evaluados bajo las mismas condiciones.
# **Ajuste de Hiperparámetros** 
Optimizaremos el mejor modelo candidato para exprimir su máximo potencial predictivo.

# 1.- **Importar librerias**

In [6]:
# Importar librerías estándar
import sys
import os

# 2. Configurar la ruta para que Python encuentre el código en 'src'. Esto añade la carpeta raíz del proyecto al sys.path
ruta_raiz_proyecto = os.path.abspath(os.path.join(os.getcwd(), '../../'))
sys.path.append(ruta_raiz_proyecto)

# 3. Importar las funciones directamente.
try:
    from src.cargar_analisis import cargar_dataframe, crear_listas_variables
    from src.pipelines import preparar_datos_para_modelado
    from src.modelos import obtener_configuraciones_modelos, optimizar_y_comparar_modelos, guardar_artefactos_ml
    print("Funciones importadas exitosamente desde src/")
except Exception as e:
    print(f"Error al importar módulos: {str(e)}")

Funciones importadas exitosamente desde src/


# **2.- Importar datos**

In [7]:
# Ruta de la base de datos
path_data = '../../data/obesity_estimation_model.csv'

# Ejecutar función para cargar datos
df = cargar_dataframe(path_data)

# Ejecutar la función para generar listas con las variables numericas, categoricas y objetivo
variables_numericas, variables_categoricas, variable_objetivo = crear_listas_variables(to_lower = 1, exclude_mixed = 1)

Archivo CSV cargado exitosamente desde: ../../data/obesity_estimation_model.csv


# **3. Preprocesamiento con Pipelines**

In [8]:
X_train, X_test, y_train, y_test, preprocesador = preparar_datos_para_modelado(df, variable_objetivo, 0.2, 1)

Iniciando la preparación de datos para el modelado...
Datos divididos: 1527 para entrenamiento, 382 para prueba.

Preprocesador creado y ajustado a los datos de entrenamiento exitosamente.


# **4.- Construcción y Ajuste y Evaluación de Modelos**

In [9]:
# Ejecutar la función para obtener los modelos a evaluar
configuracion_modelos = obtener_configuraciones_modelos()

print(f"Se cargaron {len(configuracion_modelos)} configuraciones de modelos.")
print("\nEjemplo: Parámetros de Regresión Logistica:")
print(configuracion_modelos[0]['parametros'])

Se cargaron 7 configuraciones de modelos.

Ejemplo: Parámetros de Regresión Logistica:
{'clasificador__penalty': ['l1', 'l2'], 'clasificador__solver': ['liblinear', 'saga', 'lbfgs'], 'clasificador__C': [0.01, 0.1, 1.0, 10.0]}


In [10]:
# Ejecutar el proceso de optimización y comparación
df_resultados_opt, pipelines_optimizados = optimizar_y_comparar_modelos(
    configuracion_modelos,
    preprocesador,
    X_train, y_train, X_test, y_test
)

--- Optimizando: Regresión Logística ---
Fitting 5 folds for each of 24 candidates, totalling 120 fits
Mejor F1-Score (CV) para Regresión Logística: nan

Mejores parametros: {'clasificador__C': 0.01, 'clasificador__penalty': 'l1', 'clasificador__solver': 'liblinear'}

--- Optimizando: Árbol de Decisión ---
Fitting 5 folds for each of 324 candidates, totalling 1620 fits
Mejor F1-Score (CV) para Árbol de Decisión: nan

Mejores parametros: {'clasificador__criterion': 'gini', 'clasificador__max_depth': 5, 'clasificador__max_leaf_nodes': 5, 'clasificador__min_samples_leaf': 1, 'clasificador__min_samples_split': 2}

--- Optimizando: Random Forest ---
Fitting 5 folds for each of 216 candidates, totalling 1080 fits
Mejor F1-Score (CV) para Random Forest: nan

Mejores parametros: {'clasificador__criterion': 'gini', 'clasificador__max_depth': 5, 'clasificador__min_samples_leaf': 1, 'clasificador__min_samples_split': 2, 'clasificador__n_estimators': 100}

--- Optimizando: XGBoost ---
Fitting 5 fo

Unnamed: 0,Modelo,Mejores Parámetros,F1-Score (Train),Accuracy (Train),F1-Score (Test),Accuracy (Test)
3,XGBoost,"{'clasificador__colsample_bytree': 0.7, 'clasi...",0.97446,0.97446,0.942588,0.942408
2,Random Forest,"{'clasificador__criterion': 'gini', 'clasifica...",0.960775,0.960707,0.924313,0.924084
5,MLP,"{'clasificador__activation': 'relu', 'clasific...",0.93651,0.937132,0.886967,0.890052
4,KNN,"{'clasificador__metric': 'euclidean', 'clasifi...",0.933799,0.935167,0.845199,0.853403
6,SVM,"{'clasificador__C': 0.01, 'clasificador__gamma...",0.812996,0.819908,0.785515,0.790576
1,Árbol de Decisión,"{'clasificador__criterion': 'gini', 'clasifica...",0.650467,0.718402,0.632513,0.701571
0,Regresión Logística,"{'clasificador__C': 0.01, 'clasificador__penal...",0.445213,0.51277,0.452017,0.520942


In [11]:
# Llamar a la función para guardar los artefactos
# Usamos '../artefactos/' como ruta, asumiendo la estructura de carpetas
guardar_artefactos_ml(
    df_resultados=df_resultados_opt,
    pipelines=pipelines_optimizados,
    base_path='../../artefactos/' # Se recomienda crear una carpeta separada para modelos
)