In [1]:
# =============================================================================
# Importación de librerías necesarias
# =============================================================================
import os
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

In [2]:
# Librerías de preprocesado y modelado de scikit-learn
from sklearn.model_selection import train_test_split, KFold, cross_val_predict, GridSearchCV, cross_val_score
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn import set_config
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.cross_decomposition import PLSRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.svm import SVR
from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import RandomForestRegressor

from skopt import BayesSearchCV
from skopt.space import Real, Integer, Categorical

import time
import warnings
warnings.filterwarnings("ignore")

# Para guardar y cargar modelos
import joblib

In [3]:
# Tiempo de inicio del programa
start_time_program = time.time()

In [4]:
# =============================================================================
# 1. CARGA DE DATOS Y PREPARACIÓN DEL DATAFRAME
# =============================================================================
# Definir las rutas base y de las carpetas
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'ML'
db_path = os.path.join(base_path, "DB_ML")
fig_path = os.path.join(base_path, "Figuras_ML")
model_path = os.path.join(base_path, "Modelos_ML")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_1000_Uniforme.csv")
print(data_file)

# Ruta al archivo de las figuras
figure_path = os.path.join(fig_path, "1000_MOT_Uniforme")
print(figure_path)

# Ruta al archivo de los modelos
modelo_path = os.path.join(model_path, "1000_MOT_Uniforme")
print(modelo_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\DB_ML\design_DB_preprocessed_1000_Uniforme.csv
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Figuras_ML\1000_MOT_Uniforme
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\1000_MOT_Uniforme
Archivo cargado exitosamente.


In [5]:
# =============================================================================
# 2. SEPARACIÓN DE VARIABLES
# =============================================================================
# Se separan las columnas según prefijos:
#   - Variables 'x' (inputs principales)
#   - Variables 'm' (otras características del motor)
#   - Variables 'p' (salidas: parámetros a predecir)
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

# Se crea el DataFrame de características y del target. En este ejemplo se usa X (inputs)
# y P (salidas), pero se pueden incluir también las M si así se requiere.
X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()
y = df[P_cols].copy()  # Usamos las columnas p para las predicciones

# Convertir todas las columnas a tipo numérico en caso de haber algún dato no numérico
for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')
for col in y.columns:
    y[col] = pd.to_numeric(y[col], errors='coerce')

# Concatena las matrices X y M
X_M = pd.concat([X, M], axis=1)

print("\nPrimeras filas de X:")
display(X.head())
print("\nPrimeras filas de y (P):")
display(y.head())


print("Columnas de salida originales:", y.columns.tolist())

# Definir un umbral para la varianza
threshold = 1e-8  # Este umbral puede ajustarse según la precisión deseada

# Calcular la varianza de cada columna del DataFrame y
variances = y.var()
print("\nVariancia de cada columna de salida:")
print(variances)

# Seleccionar aquellas columnas cuya varianza es mayor que el umbral
cols_to_keep = variances[variances > threshold].index
y = y[cols_to_keep]

# Filtrar las filas del DataFrame y para eliminar aquellas que contienen NaN
y = y.dropna()  # Se eliminan todas las filas con al menos un valor NaN en y
# Actualizar X para que quede alineado con los índices de y
X = X.loc[y.index]

print("\nColumnas de salida tras eliminar las constantes o casi constantes:")
print(y.columns.tolist())


Primeras filas de X:


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
0,48.6,27.864,14.8,2.780311,6.312467,4.392325,6,4
1,54.6,23.104,32.800001,3.08083,11.833245,2.379534,18,5
2,59.4,24.056,29.200001,2.121244,10.249868,2.569301,12,3
3,54.72,32.0528,22.960001,2.456926,7.797124,2.123813,18,3
4,48.84,21.9616,25.12,3.032073,6.972909,2.557345,14,3



Primeras filas de y (P):


Unnamed: 0,p1::W,p2::Tnom,p3::nnom,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,0.322074,0.11,3960.0,40.082719,0.170606,17113.235,90.763857,18223.32,86.138152
1,0.72171,0.11,3960.0,49.664102,0.990486,2684.3461,79.546525,3576.9857,
2,0.674799,0.11,3960.0,24.67578,0.412852,4913.5479,87.07682,5737.1407,88.799881
3,0.535554,0.11,3960.0,42.65237,0.538189,3806.5372,83.929471,4325.1237,83.402341
4,0.487619,0.11,3960.0,57.017278,0.38092,5161.0967,87.040314,6293.4336,91.343493


Columnas de salida originales: ['p1::W', 'p2::Tnom', 'p3::nnom', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']

Variancia de cada columna de salida:
p1::W         2.805667e-02
p2::Tnom      0.000000e+00
p3::nnom      0.000000e+00
p4::GFF       1.229812e+02
p5::BSP_T     8.656618e-02
p6::BSP_n     3.241374e+07
p7::BSP_Mu    1.670942e+01
p8::MSP_n     3.792608e+07
p9::UWP_Mu    1.010653e+01
dtype: float64

Columnas de salida tras eliminar las constantes o casi constantes:
['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [6]:
# =============================================================================
# 3. DIVISIÓN DE LOS DATOS EN ENTRENAMIENTO Y TEST
# =============================================================================
# Se separa el conjunto de datos en entrenamiento (80%) y test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
print(f"\nTamaño conjunto entrenamiento: {X_train.shape}, test: {X_test.shape}")

display(X_train.head())
display(y_train.head())


Tamaño conjunto entrenamiento: (605, 8), test: (152, 8)


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
267,49.50336,23.259366,38.16448,2.162873,9.330702,3.051533,6,8
96,54.1584,24.444416,12.611201,2.077001,10.894483,3.235471,10,7
825,59.539392,33.194286,10.137856,3.170904,8.792792,2.095029,24,4
170,56.56896,25.61271,31.185281,3.221973,8.014318,3.744037,10,5
63,57.0336,32.273664,27.6448,2.725445,6.675427,4.271654,10,3


Unnamed: 0,p1::W,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
267,0.658817,42.174509,0.70278,7474.2845,90.83855,9059.6059,89.068804
96,0.386627,47.180856,0.353669,11386.417,89.521894,15460.128,89.474376
825,0.424855,61.238585,0.418917,6055.4278,83.529283,7383.4845,85.453412
170,0.748091,56.587299,0.69785,4744.85,89.103574,5762.0657,91.878216
63,0.652092,37.658241,0.490975,4383.416,89.282225,4873.1267,89.439824


In [7]:
# =============================================================================
# 3.1. ESCALADO DE LA VARIABLE OBJETIVO (y)
# =============================================================================
# Dado que los modelos son sensibles al escalado y se deben evaluar en el mismo espacio,
# se escala la variable de salida utilizando StandardScaler.
target_scaler = StandardScaler()
y_train_scaled = target_scaler.fit_transform(y_train)
y_test_scaled  = target_scaler.transform(y_test)

In [8]:
# =============================================================================
# 4. CREACIÓN DEL PIPELINE DE PREPROCESAMIENTO
# =============================================================================
# Se define un pipeline para el preprocesado de datos que aplica:
#   a) Escalado (StandardScaler) 
#   b) Análisis PCA (se retiene el 95% de la varianza)
'''
data_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=0.95, random_state=42)),
])
'''
data_pipeline = Pipeline([
    ('scaler', StandardScaler())
])
# Visualizar el pipeline
set_config(display="diagram")
display(data_pipeline)

In [9]:
# =============================================================================
# 5. DEFINICIÓN DE PIPELINES PARA LOS MODELOS
# =============================================================================
# Se establecen los modelos a probar:
#   - PLS (Partial Least Squares)
#   - Regresión Lineal
#   - SVR (Support Vector Regression), envuelto en MultiOutputRegressor para salida multivariable
#   - Random Forest

# Pipeline para PLS Regression
pipeline_pls = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', PLSRegression())
])

# Pipeline para Regresión Lineal
pipeline_lr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', LinearRegression())
])

# Pipeline para Kriging (GPR)
# Se utiliza la suma de un RBF (para modelar la parte suave) y un WhiteKernel (para el ruido).
kernel = RBF(length_scale=1.0) + WhiteKernel(noise_level=1.0)
# Definir el GaussianProcessRegressor con el kernel anterior y random_state para reproducibilidad.
gpr = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=10)
# Envolver el GPR en un MultiOutputRegressor, de modo que el pipeline se pueda aplicar sobre múltiples salidas.
multi_gpr = MultiOutputRegressor(gpr)

pipeline_gpr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', multi_gpr)
])

# Pipeline para SVR: se utiliza MultiOutputRegressor ya que SVR no soporta multi-output
pipeline_svr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', MultiOutputRegressor(SVR()))
])

# Pipeline para Random Forest (RandomForestRegressor maneja multi-output)
pipeline_rf = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', RandomForestRegressor(random_state=42))
])

# Se agrupan los pipelines en un diccionario para iterar y evaluar fácilmente
pipelines = {
    'PLS': pipeline_pls,
    'LR': pipeline_lr,
    'GPR': pipeline_gpr,
    'SVR': pipeline_svr,
    'RF': pipeline_rf
}

# Ejemplo de estructura de uno de los modelos:
# Visualizar el pipeline
set_config(display="diagram")
display(pipeline_pls)

In [10]:
# =============================================================================
# 6. VALIDACIÓN CRUZADA: EVALUACIÓN INICIAL DE MODELOS
# =============================================================================
# Se utilizan 5 particiones (KFold) para evaluar cada modelo mediante Cross Validation.
# las métricas (MSE y R²) usando las variables de salida escaladas.
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Diccionario para guardar las métricas de cada modelo
metrics_results = {}  

print("\nEvaluación de modelos mediante validación cruzada (sobre y escalado):")

for name, pipe in pipelines.items():
    # Se realizan predicciones en validación cruzada usando y_train_scaled
    y_pred_cv = cross_val_predict(pipe, X_train, y_train_scaled, cv=cv)
    
    # Cálculo de las métricas por cada columna
    mse_columns = mean_squared_error(y_train_scaled, y_pred_cv, multioutput='raw_values')
    r2_columns = r2_score(y_train_scaled, y_pred_cv, multioutput='raw_values')
    
    # Métricas globales (promedio)
    mse_avg = np.mean(mse_columns)
    r2_avg = np.mean(r2_columns)
    
   # Se asocian las métricas a cada etiqueta de la variable de salida usando el mismo orden
    metrics_results[name] = {
        'mse_columns': dict(zip(y_train.columns, mse_columns)),
        'r2_columns': dict(zip(y_train.columns, r2_columns)),
        'mse_avg': mse_avg,
        'r2_avg': r2_avg
    }
    
    print(f"\nModelo {name}:")
    print("  MSE por columna:")
    for col, mse in metrics_results[name]['mse_columns'].items():
        print(f"    {col}: {mse:.6g}")
    print("  R2 por columna:")
    for col, r2 in metrics_results[name]['r2_columns'].items():
        print(f"    {col}: {r2:.6g}")
    print(f"  MSE promedio: {mse_avg:.4f}")
    print(f"  R2 promedio: {r2_avg:.4f}")

# Los valores esperados (según tu resultado) para cada modelo son:
# LR -> MSE_promedio: ~0.3887, R2_promedio: ~0.6113
# PLS -> MSE_promedio: ~0.4771, R2_promedio: ~0.5229
# SVR -> MSE_promedio: ~0.4129, R2_promedio: ~0.5871
# RF -> MSE_promedio: ~0.4149, R2_promedio: ~0.5851


Evaluación de modelos mediante validación cruzada (sobre y escalado):

Modelo PLS:
  MSE por columna:
    p1::W: 0.0614434
    p4::GFF: 1.01169
    p5::BSP_T: 0.377892
    p6::BSP_n: 0.288249
    p7::BSP_Mu: 0.351299
    p8::MSP_n: 0.295222
    p9::UWP_Mu: 0.989705
  R2 por columna:
    p1::W: 0.938557
    p4::GFF: -0.0116925
    p5::BSP_T: 0.622108
    p6::BSP_n: 0.711751
    p7::BSP_Mu: 0.648701
    p8::MSP_n: 0.704778
    p9::UWP_Mu: 0.0102946
  MSE promedio: 0.4822
  R2 promedio: 0.5178

Modelo LR:
  MSE por columna:
    p1::W: 0.0210314
    p4::GFF: 0.201867
    p5::BSP_T: 0.150658
    p6::BSP_n: 0.18836
    p7::BSP_Mu: 0.253665
    p8::MSP_n: 0.170879
    p9::UWP_Mu: 0.504544
  R2 por columna:
    p1::W: 0.978969
    p4::GFF: 0.798133
    p5::BSP_T: 0.849342
    p6::BSP_n: 0.81164
    p7::BSP_Mu: 0.746335
    p8::MSP_n: 0.829121
    p9::UWP_Mu: 0.495456
  MSE promedio: 0.2130
  R2 promedio: 0.7870

Modelo GPR:
  MSE por columna:
    p1::W: 1.66334e-05
    p4::GFF: 0.00897258
   

In [11]:
# =============================================================================
# 7. REPRESENTACIÓN DE RESULTADOS DE LA VALIDACIÓN CRUZADA
# =============================================================================
# Visualización mejorada para validación cruzada:
# 1. Crear un DataFrame resumen con las métricas promedio para cada modelo
summary_cv = pd.DataFrame({
    'Modelo': list(metrics_results.keys()),
    'R2_promedio': [metrics_results[m]['r2_avg'] for m in metrics_results],
    'MSE_promedio': [metrics_results[m]['mse_avg'] for m in metrics_results]
})

# 2. Gráficos de barras para los promedios de R2 y MSE
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de R2 Promedio
bars1 = ax[0].bar(summary_cv['Modelo'], summary_cv['R2_promedio'], color='skyblue')
ax[0].set_title('R2 Promedio (Validación Cruzada)')
ax[0].set_xlabel('Modelo')
ax[0].set_ylabel('R2 Promedio')
ax[0].set_ylim([0, 1])
for bar in bars1:
    yval = bar.get_height()
    ax[0].text(bar.get_x() + bar.get_width()/2, yval + 0.01, f'{yval:.3f}', ha='center', va='bottom')

# Gráfico de MSE Promedio
bars2 = ax[1].bar(summary_cv['Modelo'], summary_cv['MSE_promedio'], color='salmon')
ax[1].set_title('MSE Promedio (Validación Cruzada)')
ax[1].set_xlabel('Modelo')
ax[1].set_ylabel('MSE Promedio')
for bar in bars2:
    yval = bar.get_height()
    ax[1].text(bar.get_x() + bar.get_width()/2, yval + yval*0.01, f'{yval:.1f}', ha='center', va='bottom')

plt.title('Resumen con las métricas promedio')
plt.tight_layout()
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "Resumen con las métricas promedio.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# 3. Gráficos de líneas para comparar el desempeño por cada columna de salida.

# Gráfico para R2:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    # Extraemos la lista de nombres de columnas y sus valores de R2
    columns = list(metrics['r2_columns'].keys())
    r2_values = list(metrics['r2_columns'].values())
    # Se usa range(len(columns)) para el eje x y luego se asignan los ticks
    plt.plot(range(len(columns)), r2_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('R2')
plt.title('R2 por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "R2 por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para MSE:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['mse_columns'].keys())
    mse_values = list(metrics['mse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MSE')
plt.title('MSE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "MSE por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [12]:
# =============================================================================
# 8. HIPERPARAMETRIZACIÓN DE LOS MODELOS
# =============================================================================
# Se definirá una búsqueda en grilla (GridSearchCV) para encontrar los mejores parámetros.
# Para cada modelo se define un espacio de búsqueda. Se omite LR por no tener muchos
# hiperparámetros.

# Diccionario para guardar GridSearchCV ajustado para cada modelo
gridsearch_results = {}

# Medir el tiempo de entrenamiento (computación)
start_time_hiperparameters = time.time()   # Tiempo de inicio

# =============================================================================
# Paso 8.1: PLS - Hiperparámetros
# =============================================================================
# Parámetros para PLS: solo se ajusta el número de componentes
param_grid_pls = {
    'model__n_components': np.arange(1, min(len(X.columns), 20))
    # 'model__n_components': [2, 3, 4, 5] np.arange(1, min(len(X.columns), 20))
}
#gs_pls = GridSearchCV(pipeline_pls, param_grid=param_grid_pls, cv=cv, scoring='r2', n_jobs=-1)
gs_pls = GridSearchCV(pipeline_pls, 
                      param_grid=param_grid_pls, 
                      cv=cv, 
                      scoring='r2', 
                      n_jobs=-1)
gs_pls.fit(X_train, y_train_scaled)
gridsearch_results['PLS'] = gs_pls

print("=== Optimización de PLS ===")
print("Mejores parámetros para PLS:")
print(gs_pls.best_params_)
print(f"Mejor R2 en validación: {gs_pls.best_score_:.4f}")
print("\n")

# =============================================================================
# Paso 8.2: Regresión Lineal (LR) - Hiperparámetros
# =============================================================================
# Para LinearRegression, se optimiza el parámetro "fit_intercept"
param_grid_lr = {
    'model__fit_intercept': [True, False]
}
gs_lr = GridSearchCV(pipeline_lr,
                     param_grid_lr, 
                     cv=5, 
                     scoring='r2', 
                     n_jobs=-1)
gs_lr.fit(X_train, y_train_scaled)
print("=== Optimización de LR ===")
print("Mejores parámetros para LR:")
print(gs_lr.best_params_)
print(f"Mejor R2 en validación: {gs_lr.best_score_:.4f}")
print("\n")


# =============================================================================
# Paso 8.3: KRIGING (GPR MULTISALIDA) - Hiperparámetros
# =============================================================================
param_grid_gpr = {
    # Longitud de escala del componente RBF (se usa escala logarítmica)
    "model__estimator__kernel__k1__length_scale": Real(1e-2, 1e3, prior="log-uniform"),
    # Nivel de ruido del componente WhiteKernel (escala logarítmica)
    "model__estimator__kernel__k2__noise_level": Real(1e-8, 1e+2, prior="log-uniform"),
    # Número de reinicios del optimizador
    # "model__estimator__n_restarts_optimizer": Integer(10),
    # Parámetro alpha, que añade ruido en la diagonal de la matriz de covarianza
    "model__estimator__alpha": Real(1e-10, 1e-1, prior="log-uniform"),
    # Opción para normalizar la salida (bool)
    "model__estimator__normalize_y": Categorical([True, False])
}

# Configurar la optimización bayesiana con BayesSearchCV
gs_gpr = BayesSearchCV(estimator=pipeline_gpr,
                       search_spaces=param_grid_gpr,
                       n_iter=2,           # número de iteraciones de búsqueda
                       cv=cv,                # validación cruzada de 5 pliegues
                       scoring="r2",
                       random_state=42,
                       n_jobs=-1)
# Ejecutar la búsqueda sobre los datos escalados
gs_gpr.fit(X_train, y_train_scaled)
print("=== Optimización de GPR ===")
print("Mejores parámetros para LR:")
print(gs_gpr.best_params_)
print(f"Mejor R2 en validación: {gs_gpr.best_score_:.4f}")
print("\n")

# =============================================================================
# Paso 8.4: Support Vector Regression (SVR) - Hiperparámetros
# =============================================================================
# Parámetros para SVR: se ajustan C y epsilon
param_grid_svr = {
    'model__estimator__C': [0.1, 1, 10, 100],
    'model__estimator__epsilon': [0.01, 0.1, 0.5, 1.0]
}
gs_svr = GridSearchCV(pipeline_svr, 
                      param_grid=param_grid_svr, 
                      cv=cv, 
                      scoring='r2', 
                      n_jobs=-1)
gs_svr.fit(X_train, y_train_scaled)
gridsearch_results['SVR'] = gs_svr

print("=== Optimización de SVR ===")
print("Mejores parámetros para SVR:")
print(gs_svr.best_params_)
print(f"Mejor R2 en validación: {gs_svr.best_score_:.4f}")
print("\n")

# =============================================================================
# Paso 8.5: Random Forest (RF) - Hiperparámetros
# =============================================================================
# Parámetros para Random Forest: se ajustan número de estimadores y profundidad
param_grid_rf = {
    'model__n_estimators': [50, 100, 200, 300],
    'model__max_depth': [None, 10, 20, 30],
    'model__min_samples_split': [2, 5, 10, 20]
}
gs_rf = GridSearchCV(pipeline_rf, 
                     param_grid=param_grid_rf, 
                     cv=cv, 
                     scoring='neg_mean_squared_error', 
                     n_jobs=-1)
gs_rf.fit(X_train, y_train_scaled)
gridsearch_results['RF'] = gs_rf

print("=== Optimización de RF ===")
print("Mejores parámetros para Random Forest:")
print(gs_rf.best_params_)
print(f"Mejor R2 en validación: {gs_rf.best_score_:.4f}")

# =============================================================================
end_time_hiperparameters = time.time()     # Tiempo de fin
elapsed_time = end_time_hiperparameters - start_time_hiperparameters  # Tiempo transcurrido en segundos
print(f"Tiempo de computación del entrenamiento de hiperparámetros: {elapsed_time:.2f} segundos")

=== Optimización de PLS ===
Mejores parámetros para PLS:
{'model__n_components': np.int64(7)}
Mejor R2 en validación: 0.7840


=== Optimización de LR ===
Mejores parámetros para LR:
{'model__fit_intercept': False}
Mejor R2 en validación: 0.7840


=== Optimización de GPR ===
Mejores parámetros para LR:
OrderedDict({'model__estimator__alpha': 4.908351200924686e-07, 'model__estimator__kernel__k1__length_scale': 43.51397079152049, 'model__estimator__kernel__k2__noise_level': 21.31473749913288, 'model__estimator__normalize_y': True})
Mejor R2 en validación: 0.9766


=== Optimización de SVR ===
Mejores parámetros para SVR:
{'model__estimator__C': 100, 'model__estimator__epsilon': 0.01}
Mejor R2 en validación: 0.9654


=== Optimización de RF ===
Mejores parámetros para Random Forest:
{'model__max_depth': None, 'model__min_samples_split': 2, 'model__n_estimators': 300}
Mejor R2 en validación: -0.2414
Tiempo de computación del entrenamiento de hiperparámetros: 158.54 segundos


In [13]:
# =============================================================================
# 9. EVALUACIÓN DE LOS MODELOS AJUSTADOS SOBRE EL CONJUNTO DE TEST
# =============================================================================
# Se evalúan los modelos con mejor hiperparametrización sobre el conjunto de test.
# Se calcularán las métricas finales para cada modelo.

final_metrics = {}

# Creamos un diccionario que asocie cada modelo con su GridSearchCV ajustado (o el pipeline original en el caso de LR)
final_models = {
    'PLS': gs_pls.best_estimator_,
    'LR': gs_lr.best_estimator_,
    'GPR': gs_gpr.best_estimator_,
    'SVR': gs_svr.best_estimator_,
    'RF': gs_rf.best_estimator_
}

print("\nEvaluación final de los modelos en el conjunto de test:")
for name, model in final_models.items():
    # Entrenamos el modelo con X_train y y_train_scaled y predecimos sobre X_test
    model.fit(X_train, y_train_scaled)
    y_pred = model.predict(X_test)
    
    mse_columns = mean_squared_error(y_test_scaled, y_pred, multioutput='raw_values')
    r2_columns = r2_score(y_test_scaled, y_pred, multioutput='raw_values')
    mse_avg = np.mean(mse_columns)
    r2_avg  = np.mean(r2_columns)
    
    final_metrics[name] = {
        'mse_columns': dict(zip(y_test.columns, mse_columns)),
        'r2_columns': dict(zip(y_test.columns, r2_columns)),
        'mse_avg': mse_avg,
        'r2_avg': r2_avg
    }
    
    print(f"\nModelo {name}:")
    print("  MSE por columna:")
    for col, mse in final_metrics[name]['mse_columns'].items():
        print(f"    {col}: {mse:.6g}")
    print("  R2 por columna:")
    for col, r2 in final_metrics[name]['r2_columns'].items():
        print(f"    {col}: {r2:.6g}")
    print(f"  MSE promedio: {mse_avg:.4f}")
    print(f"  R2 promedio: {r2_avg:.4f}")


Evaluación final de los modelos en el conjunto de test:

Modelo PLS:
  MSE por columna:
    p1::W: 0.0194699
    p4::GFF: 0.1838
    p5::BSP_T: 0.136459
    p6::BSP_n: 0.150758
    p7::BSP_Mu: 0.302721
    p8::MSP_n: 0.14337
    p9::UWP_Mu: 0.687427
  R2 por columna:
    p1::W: 0.982751
    p4::GFF: 0.806714
    p5::BSP_T: 0.868134
    p6::BSP_n: 0.83906
    p7::BSP_Mu: 0.706936
    p8::MSP_n: 0.848701
    p9::UWP_Mu: 0.465869
  MSE promedio: 0.2320
  R2 promedio: 0.7883

Modelo LR:
  MSE por columna:
    p1::W: 0.0192048
    p4::GFF: 0.179998
    p5::BSP_T: 0.137437
    p6::BSP_n: 0.149998
    p7::BSP_Mu: 0.302412
    p8::MSP_n: 0.141674
    p9::UWP_Mu: 0.687473
  R2 por columna:
    p1::W: 0.982986
    p4::GFF: 0.810712
    p5::BSP_T: 0.867188
    p6::BSP_n: 0.839872
    p7::BSP_Mu: 0.707235
    p8::MSP_n: 0.850491
    p9::UWP_Mu: 0.465833
  MSE promedio: 0.2312
  R2 promedio: 0.7892

Modelo GPR:
  MSE por columna:
    p1::W: 1.09443e-05
    p4::GFF: 0.0038398
    p5::BSP_T: 0.00093

In [14]:
# =============================================================================
# 9.1. REPRESENTACIÓN DE RESULTADOS DE LA VALIDACIÓN CRUZADA
# =============================================================================
# Visualización mejorada para validación cruzada:
# 1. Crear un DataFrame resumen con las métricas promedio para cada modelo
summary_cv = pd.DataFrame({
    'Modelo': list(final_metrics.keys()),
    'R2_promedio': [final_metrics[m]['r2_avg'] for m in final_metrics],
    'MSE_promedio': [final_metrics[m]['mse_avg'] for m in final_metrics]
})

# 2. Gráficos de barras para los promedios de R2 y MSE
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de R2 Promedio
bars1 = ax[0].bar(summary_cv['Modelo'], summary_cv['R2_promedio'], color='skyblue')
ax[0].set_title(r'$R^2$ Promedio (Validación Cruzada)')
ax[0].set_xlabel('Modelo')
ax[0].set_ylabel(r'$R^2$ Promedio')
ax[0].set_ylim([0, 1])
for bar in bars1:
    yval = bar.get_height()
    ax[0].text(bar.get_x() + bar.get_width()/2, yval + 0.01, f'{yval:.3f}', ha='center', va='bottom')

# Gráfico de MSE Promedio
bars2 = ax[1].bar(summary_cv['Modelo'], summary_cv['MSE_promedio'], color='salmon')
ax[1].set_title('MSE Promedio (Validación Cruzada)')
ax[1].set_xlabel('Modelo')
ax[1].set_ylabel('MSE Promedio')
for bar in bars2:
    yval = bar.get_height()
    ax[1].text(bar.get_x() + bar.get_width()/2, yval + yval*0.01, f'{yval:.1f}', ha='center', va='bottom')

plt.tight_layout()
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "Resumen promedio de métricas finales.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# 3. Gráficos de líneas para comparar el desempeño por cada columna de salida.

# Gráfico para R2:
plt.figure(figsize=(8,5))
for model_name, metrics in final_metrics.items():
    # Extraemos la lista de nombres de columnas y sus valores de R2
    columns = list(metrics['r2_columns'].keys())
    r2_values = list(metrics['r2_columns'].values())
    # Se usa range(len(columns)) para el eje x y luego se asignan los ticks
    plt.plot(range(len(columns)), r2_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel(r'$R^2$')
plt.title(r'$R^2$ por columna en Validación Cruzada_Hiperparámetros')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "R^2 por columna en Validación Cruzada_Hiperparámetros.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para MSE:
plt.figure(figsize=(8,5))
for model_name, metrics in final_metrics.items():
    columns = list(metrics['mse_columns'].keys())
    mse_values = list(metrics['mse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MSE')
plt.title('MSE por columna en Validación Cruzada_Hiperparámetros')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "MSE por columna en Validación Cruzada_Hiperparámetros.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [15]:
# =============================================================================
# Definición de un wrapper para desescalar la predicción del target
# =============================================================================
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import r2_score

class DescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para un modelo cuya salida se entrenó sobre y escalado y que, 
    al predecir, se desescala automáticamente usando el target_scaler.
    """
    def __init__(self, estimator, target_scaler):
        self.estimator = estimator  # Modelo previamente entrenado (pipeline)
        self.target_scaler = target_scaler  # Escalador entrenado sobre y_train

    def predict(self, X):
        # Se predice en la escala del target (y escalado)
        y_pred_scaled = self.estimator.predict(X)
        # Se aplica la transformación inversa para recuperar la escala original
        return self.target_scaler.inverse_transform(y_pred_scaled)

    def fit(self, X, y):
        # Aunque el modelo ya esté entrenado, este método permite reentrenarlo
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        # Calcula R² usando las predicciones ya desescaladas
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

In [16]:
# =============================================================================
# Definición de un wrapper para desescalar la predicción del target
# =============================================================================
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import r2_score

class SingleOutputDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para obtener la predicción de un modelo multioutput
    para una variable de salida particular y desescalarla usando el
    target_scaler. Se utiliza el índice de la columna deseada.
    """
    def __init__(self, estimator, target_scaler, col_index):
        self.estimator = estimator            # Modelo multioutput previamente entrenado
        self.target_scaler = target_scaler    # Escalador entrenado sobre y_train
        self.col_index = col_index            # Índice de la variable de salida

    def predict(self, X):
        # Se predice con el modelo multioutput; se obtiene la predicción en escala (2D array)
        y_pred_scaled = self.estimator.predict(X)
        # Se extrae la predicción para la columna de interés
        single_pred_scaled = y_pred_scaled[:, self.col_index]
        # Se recuperan los parámetros del escalador para la columna
        scale_val = self.target_scaler.scale_[self.col_index]
        mean_val = self.target_scaler.mean_[self.col_index]
        # Desescalar manualmente: valor original = valor escalado * escala + media
        y_pred_original = single_pred_scaled * scale_val + mean_val
        return y_pred_original

    def fit(self, X, y):
        # (Opcional) Si se desea reentrenar el modelo, se transforma y y se ajusta
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

In [17]:
from sklearn.base import BaseEstimator, RegressorMixin
import joblib
import numpy as np
import os

# -----------------------------------------------------------------------------
# 1. Selección del mejor modelo para cada variable de salida (por etiqueta)
# -----------------------------------------------------------------------------
# Se asume que:
#   - final_metrics es un diccionario con la evaluación final en test para cada modelo,
#     donde cada entrada (por modelo) es otro diccionario que incluye, entre otras,
#     las métricas por columna en 'r2_columns' (usando las etiquetas originales).
#
#   - final_models es un diccionario que asocia cada nombre de modelo con el pipeline 
#     final ajustado (entrenado con y escalado).
#
#   - target_scaler es el StandardScaler previamente entrenado sobre y_train.
#
#   - y_test es el DataFrame de la variable de salida filtrado (con sus etiquetas originales).

# Obtener la lista de etiquetas de salida según y_test
target_columns = list(y_test.columns)

# Diccionario para almacenar el mejor modelo (wrapper) para cada variable de salida
best_models = {}

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para ver cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in final_metrics.items():
        # Se asume que la clave 'r2_columns' en metrics tiene la métrica para cada etiqueta
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")
    
    # Determinar el índice de la columna en el DataFrame de salida para usarlo en el wrapper.
    # NOTA: Se usa el orden de las columnas en y_test (no se confunde con la posición original previa al filtrado).
    col_index = target_columns.index(col)
    
    # Obtener el modelo final correspondiente
    best_model = final_models[best_model_name_for_col]
    
    # Crear el wrapper SingleOutputDescaledRegressor para la variable 'col'.
    # Este wrapper extrae la predicción de la columna indicada y la desescala.
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    # Guardar el objeto (solo el modelo) en el diccionario usando la etiqueta como llave
    best_models[col] = single_model

# -----------------------------------------------------------------------------
# 2. Definición del modelo unificado que encapsula todos los modelos individuales
# -----------------------------------------------------------------------------
class UnifiedDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Modelo que encapsula un diccionario de modelos individuales (por variable de salida).
    Cada modelo (del tipo SingleOutputDescaledRegressor) se utiliza para predecir su variable
    de salida correspondiente y se realiza la transformación inversa para retornar el valor original.
    """
    def __init__(self, models):
        """
        :param models: diccionario con llave = etiqueta de salida y valor = SingleOutputDescaledRegressor.
        """
        self.models = models
        # Se conserva el orden de salida en función de las claves del diccionario;
        # se asume que estas claves son exactamente las mismas que aparecen en y_test.
        self.output_columns = list(models.keys())
    
    def predict(self, X):
        preds = []
        # Se predice para cada variable en el orden de self.output_columns
        for col in self.output_columns:
            model = self.models[col]
            pred = model.predict(X)  # cada predicción es un array de forma (n_samples,)
            preds.append(pred)
        # Se combinan las predicciones columna a columna para formar un array (n_samples, n_targets)
        return np.column_stack(preds)
    
    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred, multioutput='uniform_average')

# Crear el modelo unificado utilizando el diccionario de mejores modelos
unified_model = UnifiedDescaledRegressor(best_models)

# -----------------------------------------------------------------------------
# 3. Almacenamiento del modelo unificado en un único archivo
# -----------------------------------------------------------------------------
model_filename = os.path.join(model_path, "mejor_modelo_unificado.joblib")
joblib.dump(unified_model, model_filename)
print(f"\nModelo unificado guardado en: {model_filename}")

Para la variable 'p1::W' el mejor modelo es 'GPR' con R2 = 1.0000
Para la variable 'p4::GFF' el mejor modelo es 'GPR' con R2 = 0.9960
Para la variable 'p5::BSP_T' el mejor modelo es 'GPR' con R2 = 0.9991
Para la variable 'p6::BSP_n' el mejor modelo es 'GPR' con R2 = 0.9801
Para la variable 'p7::BSP_Mu' el mejor modelo es 'GPR' con R2 = 0.9239
Para la variable 'p8::MSP_n' el mejor modelo es 'GPR' con R2 = 0.9834
Para la variable 'p9::UWP_Mu' el mejor modelo es 'GPR' con R2 = 0.9300

Modelo unificado guardado en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\mejor_modelo_unificado.joblib


In [18]:
# -----------------------------------------------------------------------------
# Seleccionar el mejor modelo para cada variable de salida (por etiqueta)
# -----------------------------------------------------------------------------

# Se asume que 'final_metrics' es un diccionario con las métricas finales para cada modelo,
# donde cada valor es otro diccionario que incluye 'r2_columns' (con keys iguales a las etiquetas de y)
# y 'mse_columns'. Asimismo, 'final_models' contiene los modelos finales evaluados.

# Obtener la lista de las etiquetas (nombres) de las variables de salida
target_columns = list(y_test.columns)

best_models_per_output = {}  # Diccionario donde se almacenarán los modelos independientes

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para determinar cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in final_metrics.items():
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")

    # Determinar el índice de la columna 'col' en la lista de etiquetas
    col_index = target_columns.index(col)
    # Obtener el modelo final asociado a esa elección
    best_model = final_models[best_model_name_for_col]

    # Crear el wrapper que extrae la predicción para esa variable y aplica el desescalado
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    
    # Almacenar la información en el diccionario
    best_models_per_output[col] = {
         'model_name': best_model_name_for_col,
         'model': single_model,
         'r2': best_r2_for_col,
         'mse': final_metrics[best_model_name_for_col]['mse_columns'][col]
    }
    
    # Guardar en disco el modelo correspondiente para la variable 'col'
    # Se reemplazan caracteres no permitidos en el nombre del archivo
    # file_col = col.replace("::", "_").replace(" ", "_")
    # model_filename = os.path.join(model_path, f"mejor_modelo_{file_col}.joblib")
    # joblib.dump(single_model, model_filename)
    # print(f"Modelo para '{col}' guardado en: {model_filename}")

Para la variable 'p1::W' el mejor modelo es 'GPR' con R2 = 1.0000
Para la variable 'p4::GFF' el mejor modelo es 'GPR' con R2 = 0.9960
Para la variable 'p5::BSP_T' el mejor modelo es 'GPR' con R2 = 0.9991
Para la variable 'p6::BSP_n' el mejor modelo es 'GPR' con R2 = 0.9801
Para la variable 'p7::BSP_Mu' el mejor modelo es 'GPR' con R2 = 0.9239
Para la variable 'p8::MSP_n' el mejor modelo es 'GPR' con R2 = 0.9834
Para la variable 'p9::UWP_Mu' el mejor modelo es 'GPR' con R2 = 0.9300


In [19]:
# =============================================================================
# 10. ALMACENAMIENTO DEL MODELO FINAL "DESESCADO"
# =============================================================================
# Supongamos que, tras la evaluación, se seleccionó el modelo con mejor desempeño en test.
best_model_name = max(final_metrics, key=lambda k: final_metrics[k]['r2_avg'])
best_model = final_models[best_model_name]
print(f"\nEl mejor modelo (en escala de y) es: {best_model_name}")

# Crear el wrapper para que, al predecir, se desescale la salida
final_descaled_model = DescaledRegressor(estimator=best_model, target_scaler=target_scaler)
model_filename = os.path.join(modelo_path, f"Modelo_Entrenamiento_Desescalado.joblib")
joblib.dump(final_descaled_model, model_filename)
print(f"\nModelo final guardado (desescado) en: {model_filename}")


El mejor modelo (en escala de y) es: GPR

Modelo final guardado (desescado) en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\1000_MOT_Uniforme\Modelo_Entrenamiento_Desescalado.joblib


In [20]:
# =============================================================================
# 11. CARGAR EL MODELO GUARDADO Y REALIZAR PREDICCIONES
# =============================================================================
# Al cargar el modelo, se obtendrá una instancia que, al llamar a predict(X),
# realizará internamente el procesamiento (pipeline) sobre X y luego desescalará las predicciones.
loaded_model = joblib.load(model_filename)
y_pred_loaded = loaded_model.predict(X_test)

# Convertir las predicciones a DataFrame usando las mismas etiquetas que y_test
df_pred = pd.DataFrame(y_pred_loaded, columns=y_test.columns, index=y_test.index)

# Mostrar una comparación de predicciones vs. valores reales, utilizando las etiquetas
print("\nEjemplo de predicciones (valores reales vs. predichos):")
for col in y_test.columns:
    print(f"\nColumna: {col}")
    comp_df = pd.DataFrame({
        "Real": y_test[col],
        "Predicho": df_pred[col]
    })
    print(comp_df.head())


Ejemplo de predicciones (valores reales vs. predichos):

Columna: p1::W
         Real  Predicho
515  0.772838  0.772457
129  0.806237  0.806725
348  0.649448  0.649821
649  0.495225  0.495461
555  0.517319  0.517295

Columna: p4::GFF
          Real   Predicho
515  27.467402  27.762862
129  34.088654  34.180040
348  41.066196  41.210268
649  41.580589  41.901332
555  31.559620  31.038983

Columna: p5::BSP_T
         Real  Predicho
515  0.731700  0.725983
129  0.809404  0.805355
348  0.576270  0.587858
649  0.387730  0.388219
555  0.265708  0.265859

Columna: p6::BSP_n
          Real     Predicho
515  3329.9361  3098.864725
129  4436.0045  4383.758275
348  9662.1652  8977.760889
649  4971.2862  4859.217785
555  8052.4087  8003.645813

Columna: p7::BSP_Mu
          Real   Predicho
515  83.648750  83.892827
129  90.004200  90.107750
348  91.484837  91.742134
649  86.825593  86.912510
555  90.197682  90.266717

Columna: p8::MSP_n
           Real      Predicho
515   4212.0349   4120.336126


In [21]:
# =============================================================================
# 13. REPRESENTACIÓN DE RESULTADOS: GRÁFICO DE PREDICCIÓN VS REAL
# =============================================================================
# Número de variables de salida a graficar (usando las etiquetas de y_test)
num_vars = len(y_test.columns)
n_cols = 3  # Número deseado de columnas en el subplot (se puede ajustar)
n_rows = math.ceil(num_vars / n_cols)  # Número de filas

plt.figure(figsize=(5 * n_cols, 4 * n_rows))

for idx, col in enumerate(y_test.columns):
    ax = plt.subplot(n_rows, n_cols, idx + 1)
    
    # Graficar scatter de valores reales vs. predichos para la variable 'col'
    ax.scatter(y_test[col], df_pred[col], alpha=0.7)
    
    # Definir los límites para la línea de identidad (diagonal)
    min_val = min(y_test[col].min(), df_pred[col].min())
    max_val = max(y_test[col].max(), df_pred[col].max())
    ax.plot([min_val, max_val], [min_val, max_val], 'r--')
    
    # Recuperar la información del modelo escogido para esa variable
    chosen_model = best_models_per_output[col]['model_name']
    r2_val = best_models_per_output[col]['r2']
    mse_val = best_models_per_output[col]['mse']
    
    # Añadir el texto con el modelo escogido, R² y MSE en la esquina superior izquierda del subplot
    ax.text(0.05, 0.95,
            f"Modelo: {chosen_model}\nR2: {r2_val:.3f}\nMSE: {mse_val:.3g}",
            transform=ax.transAxes,
            fontsize=10,
            verticalalignment='top',
            bbox=dict(facecolor='white', alpha=0.6))
    
    ax.set_xlabel("Valor Real")
    ax.set_ylabel("Valor Predicho")
    ax.set_title(col)

plt.title('Comparacion_FEA_vs_Predicciones')
plt.tight_layout()
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "Comparacion_FEA_vs_Predicciones.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [22]:
# Tiempo de fin
end_time_program = time.time()     
program_time = end_time_program - start_time_program  # Tiempo transcurrido en segundos
print(f"Tiempo de computación del entrenamiento de hiperparámetros: {program_time:.2f} segundos")

Tiempo de computación del entrenamiento de hiperparámetros: 341.61 segundos
