---------------------------------------------------------------------------------------------------------------------------

## 3. Modelo de Optimización y Prognosis (MOP)

### 3.1. Librerías

In [1]:
# =============================================================================
# Paso 0: Importar librerías y definir funciones auxiliares
# =============================================================================

# Librerías necesarias
import os
import glob
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math
from math import ceil

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

import time
import warnings
warnings.filterwarnings("ignore")

# Para guardar y cargar modelos
import joblib

# Librerías de preprocesado y modelado de scikit-learn
from sklearn.model_selection import train_test_split, KFold, cross_val_predict, GridSearchCV, cross_val_score
from sklearn import model_selection
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn import set_config
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.cross_decomposition import PLSRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.svm import SVR
from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.neural_network import MLPRegressor

import keras
from keras.layers import Dense
from keras.models import Sequential

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

from scikeras.wrappers import KerasRegressor
from sklearn.base import BaseEstimator, RegressorMixin


from skopt import BayesSearchCV
from skopt.space import Real, Integer, Categorical

In [2]:
# Clase auxiliar que convierte un diccionario en un objeto con atributos.
class TagBunch:
    def __init__(self, d):
        self.__dict__.update(d)

# Monkey-patch: asignar __sklearn_tags__ al wrapper para evitar el error
# Definición del wrapper personalizado para KerasRegressor
class MyKerasRegressorWrapper(BaseEstimator, RegressorMixin):
    def __init__(self, model, hidden_layer_size=50, hidden_layer_size_2=3, epochs=100, **kwargs):
        """
        model: función que construye el modelo (por ejemplo, create_model)
        hidden_layer_size, hidden_layer_size_2, epochs: parámetros a pasar a la función
        kwargs: otros parámetros (como batch_size, verbose, etc.)
        """
        self.model = model
        self.hidden_layer_size = hidden_layer_size
        self.hidden_layer_size_2 = hidden_layer_size_2
        self.epochs = epochs
        self.kwargs = kwargs
        self.estimator_ = None  # Se llenará al entrenar

    def fit(self, X, y, **fit_params):
        # Se crea la instancia interna de KerasRegressor usando scikeras.
        self.estimator_ = KerasRegressor(
            model=self.model,
            hidden_layer_size=self.hidden_layer_size,
            hidden_layer_size_2=self.hidden_layer_size_2,
            epochs=self.epochs,
            **self.kwargs
        )
        self.estimator_.fit(X, y, **fit_params)
        return self

    def predict(self, X):
        return self.estimator_.predict(X)

    def score(self, X, y):
        return self.estimator_.score(X, y)

    def get_params(self, deep=True):
        params = {
            "model": self.model,
            "hidden_layer_size": self.hidden_layer_size,
            "hidden_layer_size_2": self.hidden_layer_size_2,
            "epochs": self.epochs,
        }
        params.update(self.kwargs)
        return params

    def set_params(self, **parameters):
        for key, value in parameters.items():
            setattr(self, key, value)
        return self

    def __sklearn_tags__(self):
        # NUEVO: Devolver un objeto TagBunch en lugar de un dict.
        return TagBunch({
            "requires_fit": True,
            "X_types": ["2darray"],
            "preserves_dtype": [np.float64],
            "allow_nan": False,
            "requires_y": True,
        })

    def __sklearn_is_fitted__(self):
        return self.estimator_ is not None

In [3]:
# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

# Función para calcular la correlación p_ij según la fórmula del paper:
#   p_ij = (1/(N-1)) * Σ[(ŷ(k) - μ_ŷ) * (x_j(k) - μ_xj)] / (σ_ŷ σ_xj)
def compute_corr(y, x):
    N = len(y)
    mean_y = np.mean(y)
    mean_x = np.mean(x)
    std_y = np.std(y, ddof=1)
    std_x = np.std(x, ddof=1)
    return np.sum((y - mean_y) * (x - mean_x)) / ((N - 1) * std_y * std_x)

# Función para dibujar un mapa de calor con seaborn
def plot_heatmap(matrix, col_labels, row_labels, title, ax=None):
    """
    Dibuja un mapa de calor de 'matrix' usando seaborn.
    'col_labels' y 'row_labels' definen las etiquetas de columnas y filas.
    Si se proporciona 'ax', se dibuja en ese subplot; de lo contrario, se crea uno nuevo.
    """
    if ax is None:
        fig, ax = plt.subplots()
    sns.heatmap(matrix, annot=True, fmt=".2f", xticklabels=col_labels,
                yticklabels=row_labels, cmap="viridis", ax=ax)
    ax.set_title(title)
    return ax

# Función auxiliar para calcular el Coefficient of Prognosis (CoP)
def compute_CoP(y_true, y_pred):
    N = len(y_true)
    mean_y = np.mean(y_true)
    mean_y_pred = np.mean(y_pred)
    std_y = np.std(y_true, ddof=1)
    std_y_pred = np.std(y_pred, ddof=1)
    denominator = (N - 1) * std_y * std_y_pred
    if denominator == 0:
        return np.nan
    else:
        return (np.sum((y_true - mean_y) * (y_pred - mean_y_pred)) / denominator) ** 2

# Función para calcular el diccionario de CoP para cada salida y cada modelo
def compute_cop_results(metricas, outputs):
    """
    Genera un diccionario de CoP con la estructura:
      { output1: { 'PLS': cop_value, 'LR': cop_value, ... },
        output2: { 'PLS': cop_value, ... },
        ... }
    Se asume que 'metricas' tiene, para cada modelo, una lista de valores de CoP
    en el mismo orden que 'outputs'.
    """
    cop_results = {}
    for j, output in enumerate(outputs):
        cop_results[output] = {}
        for model_name in metricas.keys():
            cop_results[output][model_name] = metricas[model_name]['CoP'][j]
    return cop_results

# Función para graficar los CoP en subplots y guardar la figura (Paso 8)
def plot_cop_subplots(cop_results, outputs, mejores_modelos, figure_path,
                      filename='CoP_para_cada_modelo.png'):
    """
    Dibuja un subplot por variable de salida mostrando únicamente las barras con CoP
    y acrónimos en el eje x. Resalta con borde rojo el mejor modelo.
    """
    n_out = len(outputs)
    ncols = 3
    nrows = int(np.ceil(n_out / ncols))
    fig, axes = plt.subplots(nrows, ncols, figsize=(12, 6 * nrows))
    axes = axes.flatten()
    for i, output in enumerate(outputs):
        model_names = list(cop_results[output].keys())
        cop_vals = [cop_results[output][m] for m in model_names]
        acronyms = model_names
        ax = axes[i]
        bars = ax.bar(range(len(model_names)), cop_vals)
        # configurar acrónimos como xticklabels
        ax.set_xticks(range(len(model_names)))
        ax.set_xticklabels(acronyms, fontsize=10)
        # resaltar mejor modelo
        best = mejores_modelos[output]
        if best in model_names:
            best_idx = model_names.index(best)
            bars[best_idx].set_edgecolor('red')
            bars[best_idx].set_linewidth(2)
        ax.set_title(f'CoP para {output}', fontsize=12)
        ax.set_ylabel('CoP')
        ax.set_ylim(0, 1)
    # eliminar ejes vacíos
    for j in range(i+1, len(axes)):
        fig.delaxes(axes[j])
    plt.tight_layout()
    out_file = os.path.join(figure_path, filename)
    plt.savefig(out_file, dpi=300)
    plt.close()
    print(f'Paso 8 completado: figura CoP guardada en {out_file}')

In [4]:
# Tiempo de inicio del programa
start_time_program = time.time()

In [5]:
# =============================================================================
# Paso 1: Definir rutas, cargar datos y configurar directorios
# =============================================================================
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'MOP'
db_path = os.path.join(base_path, "DB_MOP")
fig_path = os.path.join(base_path, "Figuras_MOP")
model_path = os.path.join(base_path, "Modelos_MOP")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_1000_Uniforme.csv")
print(data_file)

# Ruta al archivo de las figuras
figure_path = os.path.join(fig_path, "1000_MOT_Uniforme")
print(figure_path)

# Ruta al archivo de los modelos
modelo_path = os.path.join(model_path, "1000_MOT_Uniforme")
print(modelo_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\DB_MOP\design_DB_preprocessed_1000_Uniforme.csv
C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\1000_MOT_Uniforme
C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme
Archivo cargado exitosamente.


In [6]:
# =============================================================================
# Paso 2: Preprocesar datos: separar columnas en X, M, P y convertir a numérico
# =============================================================================
# Se separan las columnas según prefijos:
#   - Variables 'x' (inputs principales)
#   - Variables 'm' (otras características del motor)
#   - Variables 'p' (salidas: parámetros a predecir)
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

# Se crea el DataFrame de características y del target. En este ejemplo se usa X (inputs)
# y P (salidas), pero se pueden incluir también las M si así se requiere.
X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()
y = df[P_cols].copy()  # Usamos las columnas p para las predicciones

# Convertir todas las columnas a tipo numérico en caso de haber algún dato no numérico
for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')
for col in y.columns:
    y[col] = pd.to_numeric(y[col], errors='coerce')

# Concatena las matrices X y M
X_M = pd.concat([X, M], axis=1)

print("\nPrimeras filas de X:")
display(X.head())
print("\nPrimeras filas de y (P):")
display(y.head())


print("Columnas de salida originales:", y.columns.tolist())

# Definir un umbral para la varianza
threshold = 1e-8  # Este umbral puede ajustarse según la precisión deseada

# Calcular la varianza de cada columna del DataFrame y
variances = y.var()
print("\nVariancia de cada columna de salida:")
print(variances)

# Seleccionar aquellas columnas cuya varianza es mayor que el umbral
cols_to_keep = variances[variances > threshold].index
y = y[cols_to_keep]

# Filtrar las filas del DataFrame y para eliminar aquellas que contienen NaN
y = y.dropna()  # Se eliminan todas las filas con al menos un valor NaN en y
# Actualizar X para que quede alineado con los índices de y
X = X.loc[y.index]

print("\nColumnas de salida tras eliminar las constantes o casi constantes:")
print(y.columns.tolist())

model_names = ['PLS','LR','GPR','SVR','RF','ANN','ANN-K']  
salidas = y.columns.tolist()
entradas = X.columns.tolist()


Primeras filas de X:


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
0,48.6,27.864,14.8,2.780311,6.312467,4.392325,6,4
1,59.4,24.056,29.2,2.121244,10.249868,2.569301,12,3
2,54.72,32.0528,22.960001,2.456926,7.797124,2.123813,18,3
3,48.84,21.9616,25.12,3.032072,6.972909,2.557345,14,3
4,59.76,27.1024,29.680002,3.249535,8.141503,4.802138,10,3



Primeras filas de y (P):


Unnamed: 0,p1::W,p2::Tnom,p3::nnom,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,0.322074,0.11,3960.0,40.082718,0.170606,17113.234,90.763855,18223.32,86.13815
1,0.674799,0.11,3960.0,24.67578,0.412852,4913.548,87.07682,5737.1406,88.79988
2,0.535554,0.11,3960.0,42.65237,0.538189,3806.537,83.929474,4325.1235,83.40234
3,0.487619,0.11,3960.0,57.017277,0.38092,5161.0967,87.04031,6293.4336,91.34349
4,0.749844,0.11,3960.0,37.44487,0.429127,4961.4146,89.36369,5615.511,91.807846


Columnas de salida originales: ['p1::W', 'p2::Tnom', 'p3::nnom', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']

Variancia de cada columna de salida:
p1::W         2.413512e-02
p2::Tnom      1.928477e-34
p3::nnom      0.000000e+00
p4::GFF       1.228099e+02
p5::BSP_T     5.206690e-02
p6::BSP_n     2.567653e+07
p7::BSP_Mu    6.758214e+00
p8::MSP_n     3.054785e+07
p9::UWP_Mu    1.010653e+01
dtype: float64

Columnas de salida tras eliminar las constantes o casi constantes:
['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [7]:
# =============================================================================
# 3. DIVISIÓN DE LOS DATOS EN ENTRENAMIENTO Y TEST
# =============================================================================
# Se separa el conjunto de datos en entrenamiento (80%) y test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
print(f"\nTamaño conjunto entrenamiento: {X_train.shape}, test: {X_test.shape}")

display(X_train.head())
display(y_train.head())


Tamaño conjunto entrenamiento: (605, 8), test: (152, 8)


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
212,49.50336,23.259365,38.16448,2.162873,9.330702,3.051534,6,8
69,54.1584,24.444416,12.611201,2.077001,10.894483,3.235471,10,7
625,59.53939,33.194286,10.137856,3.170903,8.792792,2.095029,24,4
131,56.56896,25.61271,31.185282,3.221973,8.014318,3.744037,10,5
44,57.0336,32.273663,27.6448,2.725446,6.675427,4.271654,10,3


Unnamed: 0,p1::W,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
212,0.658817,42.174507,0.70278,7474.2847,90.83855,9059.605,89.0688
69,0.386627,47.180855,0.353669,11386.417,89.5219,15460.128,89.47437
625,0.424855,61.238586,0.418917,6055.4277,83.52928,7383.4844,85.453415
131,0.748091,56.5873,0.69785,4744.85,89.10358,5762.066,91.87822
44,0.652092,37.65824,0.490975,4383.416,89.28223,4873.1265,89.43983


In [8]:
# =============================================================================
# 3.1. ESCALADO DE LA VARIABLE OBJETIVO (y)
# =============================================================================
# Dado que los modelos son sensibles al escalado y se deben evaluar en el mismo espacio,
# se escala la variable de salida utilizando StandardScaler.
target_scaler = StandardScaler()
y_train_scaled = target_scaler.fit_transform(y_train)
y_test_scaled  = target_scaler.transform(y_test)


In [9]:
# =============================================================================
# 4. CREACIÓN DEL PIPELINE DE PREPROCESAMIENTO
# =============================================================================
# Se define un pipeline para el preprocesado de datos que aplica:
#   a) Escalado (StandardScaler) 
#   b) Análisis PCA (se retiene el 95% de la varianza)
'''
data_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=0.95, random_state=42)),
])
'''
data_pipeline = Pipeline([
    ('scaler', StandardScaler())
])
# Visualizar el pipeline
set_config(display="diagram")
display(data_pipeline)

In [10]:
# =============================================================================
# 4.1. Leer el archivo de hiperparámetros de cada modelo.
# =============================================================================
import json

# Supongamos que el JSON está en la raíz del proyecto y se llama 'hiperparametros_MOP.json'
params_file = os.path.join(modelo_path, "hiperparametros_MOP.json")
try:
    with open(params_file, "r") as f:
        hiperparametros = json.load(f)
    print(f"Hiperparámetros cargados desde {params_file}")
except FileNotFoundError:
    print(f"No se encontró el archivo de hiperparámetros: {params_file}")
    param_grids = {}

print("Contenido de hiperparametros_MOP.json:")
print(json.dumps(hiperparametros, indent=4))

# Asegurarnos de tener diccionario con cada modelo
hiperparametros = {
    "PLS":    hiperparametros.get("PLS", {}),
    "LR":     hiperparametros.get("LR", {}),
    "GPR":    hiperparametros.get("GPR", {}),
    "SVR":    hiperparametros.get("SVR", {}),
    "RF":     hiperparametros.get("RF", {}),
    "ANN":    hiperparametros.get("ANN", {}),
    "ANN-K":  hiperparametros.get("ANN-K", {}),
}

Hiperparámetros cargados desde C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\hiperparametros_MOP.json
Contenido de hiperparametros_MOP.json:
{
    "PLS": {
        "model__n_components": 7
    },
    "LR": {
        "model__fit_intercept": false
    },
    "GPR": {
        "model__estimator__alpha": 4.908351200924686e-07,
        "model__estimator__kernel__k1__length_scale": 43.51397079152049,
        "model__estimator__kernel__k2__noise_level": 21.31473749913288,
        "model__estimator__normalize_y": true
    },
    "SVR": {
        "model__estimator__C": 100,
        "model__estimator__epsilon": 0.01
    },
    "RF": {
        "model__max_depth": null,
        "model__min_samples_split": 2,
        "model__n_estimators": 300
    },
    "ANN": {
        "model__hidden_layer_sizes": [
            300
        ],
        "model__max_iter": 250
    },
    "ANN-K": {
        "model__epochs": 1000,
        "model__hidden_layer_size": 

In [11]:
# =============================================================================
# 5. DEFINICIÓN DE PIPELINES PARA LOS MODELOS
# =============================================================================
# Se establecen los modelos a probar:
#   - PLS (Partial Least Squares)
#   - Regresión Lineal
#   - Kriging (GPR)
#   - SVR (Support Vector Regression), envuelto en MultiOutputRegressor para salida multivariable
#   - Random Forest
#   - Artificial Neural Network (ANN), mediante un Multi-layer Perceptron regressor
#   - Artificial Neural Network (ANN), mediante Keras

# =============================================================================
# Paso 5.1: PLS - Pipeline con Hiperparámetros
# =============================================================================
p = hiperparametros['PLS'].get('model__n_components')
pls = PLSRegression(n_components=p) if p is not None else PLSRegression()
pipeline_pls = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', pls)
])

# =============================================================================
# Paso 5.2: RL - Pipeline con Hiperparámetros
# =============================================================================
fi = hiperparametros['LR'].get('model__fit_intercept')
lr = LinearRegression(fit_intercept=fi)
pipeline_lr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', lr)
])

# =============================================================================
# Paso 5.3: GPR - Pipeline con Hiperparámetros
# =============================================================================
gp_par = hiperparametros['GPR']
# kernel parámetros
lscale = gp_par.get('model__estimator__kernel__k1__length_scale')
nlevel = gp_par.get('model__estimator__kernel__k2__noise_level')
alpha  = gp_par.get('model__estimator__alpha')
norm_y = gp_par.get('model__estimator__normalize_y')

kernel = RBF(length_scale=lscale) + WhiteKernel(noise_level=nlevel)
gpr = GaussianProcessRegressor(kernel=kernel,
                               alpha=alpha,
                               normalize_y=norm_y,
                               random_state=42,
                               n_restarts_optimizer=10)
pipeline_gpr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', MultiOutputRegressor(gpr))
])

# =============================================================================
# Paso 5.4: SVR - Pipeline con Hiperparámetros
# =============================================================================
# Se utiliza MultiOutputRegressor ya que SVR no soporta multi-output
svr_par = hiperparametros['SVR']
C       = svr_par.get('model__estimator__C')
eps     = svr_par.get('model__estimator__epsilon')
svr = SVR(C=C, epsilon=eps)
pipeline_svr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', MultiOutputRegressor(svr))
])

# =============================================================================
# Paso 5.5: RF - Pipeline con Hiperparámetros
# =============================================================================
# RandomForestRegressor maneja multi-output
rf_par = hiperparametros['RF']
n_est = rf_par.get('model__n_estimators')
m_depth = rf_par.get('model__max_depth')
min_ss  = rf_par.get('model__min_samples_split')
rf = RandomForestRegressor(n_estimators=n_est,
                           max_depth=m_depth,
                           min_samples_split=min_ss,
                           random_state=42)
pipeline_rf = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', rf)
])

# =============================================================================
# Paso 5.6: ANN - Pipeline con Hiperparámetros
# =============================================================================
# Multi-layer Perceptron regressor
ann_par = hiperparametros['ANN']
hls = ann_par.get('model__hidden_layer_sizes')
mi  = ann_par.get('model__max_iter')
ann = MLPRegressor(hidden_layer_sizes=hls,
                   max_iter=mi,
                   activation='relu',
                   solver='adam',
                   random_state=42)
pipeline_ann = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', ann)
])

# =============================================================================
# Paso 5.7: ANN-K - Pipeline con Hiperparámetros
# =============================================================================
akk_par = hiperparametros['ANN-K']
h1 = akk_par.get('model__hidden_layer_size')
h2 = akk_par.get('model__hidden_layer_size_2')
ep = akk_par.get('model__epochs')

n_cols = X.shape[1]
n_out = y.shape[1]  # El modelo debe producir n_out salidas

# Definir la función que crea el modelo Keras
# @tf.function(reduce_retracing=True)
def ANN_K_model(hidden_layer_size=h1, hidden_layer_size_2=h2):
    model = Sequential()
    model.add(Dense(hidden_layer_size, activation='relu', input_shape=(n_cols,)))
    model.add(Dense(hidden_layer_size_2, activation='relu'))
    model.add(Dense(n_out))
    model.compile(loss='mean_squared_error', optimizer='adam')
    return model

# Envolver el modelo en KerasRegressor para utilizarlo con scikit-learn
my_keras_reg = MyKerasRegressorWrapper(
    model=ANN_K_model,
    hidden_layer_size=h1,
    hidden_layer_size_2=h2,
    epochs=ep,
    random_state=42,
    verbose=0
)

# Crear el pipeline para la ANN-K; se incluirá la etapa de preprocesamiento y el modelo Keras
pipeline_ann_keras = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', my_keras_reg)
])

# =============================================================================
# Paso 5.8: ANN-K - Se agrupan los distintos pipelines
# =============================================================================
# Se agrupan los pipelines en un diccionario para iterar y evaluar fácilmente
pipelines = {
    'PLS':   pipeline_pls,
    'LR':    pipeline_lr,
    'GPR':   pipeline_gpr,
    'SVR':   pipeline_svr,
    'RF':    pipeline_rf,
    'ANN':   pipeline_ann,
    'ANN-K': pipeline_ann_keras
}

# Ejemplo de estructura de uno de los modelos:
# Visualizar el pipeline
set_config(display="diagram")
display(pipeline_pls)
display(pipeline_ann_keras)

In [12]:
# =============================================================================
# 6. VALIDACIÓN CRUZADA: EVALUACIÓN DE MODELOS CON HIPERPARÁMETROS
# =============================================================================
# Se utilizan 5 particiones (KFold) para evaluar cada modelo mediante Cross Validation.
# las métricas (R², MSE, RMSE, MAE y CoP) para cada variable de salida por modelo.
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

cv = KFold(n_splits=5, shuffle=True, random_state=42)
metrics_results = {}

print("Evaluación por validación cruzada (y escalado):")
for name, pipe in pipelines.items():
    grid = hiperparametros[name]
    print(grid)
    '''
    if grid:
        # Incorporamos los hiperparámetros en un GridSearchCV
        estimator = GridSearchCV(pipe,
                                 param_grid=grid,
                                 cv=cv,
                                 scoring="r2",
                                 n_jobs=-1)
    else:
        estimator = pipe
    '''
    estimator = pipe
    # cross_val_predict hará nested CV si estimator es GridSearchCV
    y_pred_cv = cross_val_predict(estimator, X_train, y_train_scaled, cv=cv)
    # Métricas por columna
    mse_cols  = mean_squared_error(y_train_scaled, y_pred_cv, multioutput="raw_values")
    rmse_cols = np.sqrt(mse_cols)
    mae_cols  = mean_absolute_error(y_train_scaled, y_pred_cv, multioutput="raw_values")
    r2_cols   = r2_score(y_train_scaled, y_pred_cv, multioutput="raw_values")
    cop_cols  = np.ones_like(r2_cols)  # CoP = 1 para cada salida
    # TODO: cop_cols  = compute_CoP(y_train_scaled, y_pred_cv)
    
    metrics_results[name] = {
        "mse_columns":  dict(zip(y_train.columns, mse_cols)),
        "rmse_columns": dict(zip(y_train.columns, rmse_cols)),
        "mae_columns":  dict(zip(y_train.columns, mae_cols)),
        "r2_columns":   dict(zip(y_train.columns, r2_cols)),
        "cop_columns":  dict(zip(y_train.columns, cop_cols)),
        "mse_avg":      mse_cols.mean(),
        "rmse_avg":     rmse_cols.mean(),
        "mae_avg":      mae_cols.mean(),
        "r2_avg":       r2_cols.mean(),
        "cop_avg":      cop_cols.mean(),
    }

    print(f"\nModelo {name}:")
    print(f"  R² promedio:  {metrics_results[name]['r2_avg']:.4f}")
    print(f"  MSE promedio: {metrics_results[name]['mse_avg']:.4f}")
    print(f"  RMSE promedio:{metrics_results[name]['rmse_avg']:.4f}")
    print(f"  MAE promedio: {metrics_results[name]['mae_avg']:.4f}")
    print(f"  CoP promedio: {metrics_results[name]['cop_avg']:.4f}")

Evaluación por validación cruzada (y escalado):
{'model__n_components': 7}

Modelo PLS:
  R² promedio:  0.7867
  MSE promedio: 0.2133
  RMSE promedio:0.4355
  MAE promedio: 0.3199
  CoP promedio: 1.0000
{'model__fit_intercept': False}

Modelo LR:
  R² promedio:  0.7875
  MSE promedio: 0.2125
  RMSE promedio:0.4343
  MAE promedio: 0.3191
  CoP promedio: 1.0000
{'model__estimator__alpha': 4.908351200924686e-07, 'model__estimator__kernel__k1__length_scale': 43.51397079152049, 'model__estimator__kernel__k2__noise_level': 21.31473749913288, 'model__estimator__normalize_y': True}

Modelo GPR:
  R² promedio:  0.9768
  MSE promedio: 0.0232
  RMSE promedio:0.1286
  MAE promedio: 0.0821
  CoP promedio: 1.0000
{'model__estimator__C': 100, 'model__estimator__epsilon': 0.01}

Modelo SVR:
  R² promedio:  0.9658
  MSE promedio: 0.0342
  RMSE promedio:0.1771
  MAE promedio: 0.1153
  CoP promedio: 1.0000
{'model__max_depth': None, 'model__min_samples_split': 2, 'model__n_estimators': 300}

Modelo RF:
 

In [13]:
# =============================================================================
# 6.1. REPRESENTACIÓN DE RESULTADOS DE LA VALIDACIÓN CRUZADA
# =============================================================================
# Visualización mejorada para validación cruzada:
summary_cv = pd.DataFrame({
    'Modelo': list(metrics_results.keys()),
    'R2_promedio': [metrics_results[m]['r2_avg'] for m in metrics_results],
    'RMSE_promedio': [metrics_results[m]['rmse_avg'] for m in metrics_results],
    'MSE_promedio': [metrics_results[m]['mse_avg'] for m in metrics_results],
    'MAE_promedio': [metrics_results[m]['mae_avg'] for m in metrics_results],
    'CoP_promedio': [metrics_results[m]['cop_avg'] for m in metrics_results]
})

# 2. Gráficos de barras para los promedios de R2 y MSE
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de R2 Promedio
bars1 = ax[0].bar(summary_cv['Modelo'], summary_cv['R2_promedio'], color='skyblue')
ax[0].set_title(r'$R^2$ Promedio (Validación Cruzada)')
ax[0].set_xlabel('Modelo')
ax[0].set_ylabel(r'$R^2$ Promedio')
ax[0].set_ylim([0, 1])
for bar in bars1:
    yval = bar.get_height()
    ax[0].text(bar.get_x() + bar.get_width()/2, yval + 0.01, f'{yval:.3f}', ha='center', va='bottom')

# Gráfico de MSE Promedio
bars2 = ax[1].bar(summary_cv['Modelo'], summary_cv['MSE_promedio'], color='salmon')
ax[1].set_title('MSE Promedio (Validación Cruzada)')
ax[1].set_xlabel('Modelo')
ax[1].set_ylabel('MSE Promedio')
for bar in bars2:
    yval = bar.get_height()
    ax[1].text(bar.get_x() + bar.get_width()/2, yval + yval*0.01, f'{yval:.3f}', ha='center', va='bottom')

plt.title('Resumen con las métricas promedio')
plt.tight_layout()
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "Resumen con las métricas promedio.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# 3. Gráficos de líneas para comparar el desempeño por cada columna de salida.

# Gráfico para R2:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    # Extraemos la lista de nombres de columnas y sus valores de R2
    columns = list(metrics['r2_columns'].keys())
    r2_values = list(metrics['r2_columns'].values())
    # Se usa range(len(columns)) para el eje x y luego se asignan los ticks
    plt.plot(range(len(columns)), r2_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel(r'$R^2$')
plt.title(r'$R^2$ por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, 'R2 por columna en Validación Cruzada.png')
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para RMSE:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['rmse_columns'].keys())
    mse_values = list(metrics['rmse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('RMSE')
plt.title('RMSE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "RMSE por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para MSE:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['mse_columns'].keys())
    mse_values = list(metrics['mse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MSE')
plt.title('MSE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "MSE por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para MAE:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['mae_columns'].keys())
    mse_values = list(metrics['mae_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MAE')
plt.title('MAE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "MAE por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

# Gráfico para CoP:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['cop_columns'].keys())
    mse_values = list(metrics['cop_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('CoP')
plt.title('CoP por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "CoP por columna en Validación Cruzada.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [18]:
# =============================================================================
# Paso 7: Seleccionar el mejor modelo (mayor CoP) para cada variable de salida
# =============================================================================
# Construir DataFrame de CoP
df_cop = pd.DataFrame({m: metrics_results[m]['cop_columns'] for m in metrics_results}, index=salidas)
mejores_modelos_CoP = df_cop.idxmax(axis=1)
valores_cop = df_cop.max(axis=1)

print('Paso 9: Mejor modelo y CoP por variable de salida:')
for salida in salidas:
    print(f"{salida}: Modelo = {mejores_modelos_CoP[salida]}, CoP = {valores_cop[salida]:.3f}")

Paso 9: Mejor modelo y CoP por variable de salida:
p1::W: Modelo = PLS, CoP = 1.000
p4::GFF: Modelo = PLS, CoP = 1.000
p5::BSP_T: Modelo = PLS, CoP = 1.000
p6::BSP_n: Modelo = PLS, CoP = 1.000
p7::BSP_Mu: Modelo = PLS, CoP = 1.000
p8::MSP_n: Modelo = PLS, CoP = 1.000
p9::UWP_Mu: Modelo = PLS, CoP = 1.000


In [16]:
# =============================================================================
# Definición de un wrapper para desescalar la predicción del target
# =============================================================================
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import r2_score

class DescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para un modelo cuya salida se entrenó sobre y escalado y que, 
    al predecir, se desescala automáticamente usando el target_scaler.
    """
    def __init__(self, estimator, target_scaler):
        self.estimator = estimator  # Modelo previamente entrenado (pipeline)
        self.target_scaler = target_scaler  # Escalador entrenado sobre y_train

    def predict(self, X):
        # Se predice en la escala del target (y escalado)
        y_pred_scaled = self.estimator.predict(X)
        # Se aplica la transformación inversa para recuperar la escala original
        return self.target_scaler.inverse_transform(y_pred_scaled)

    def fit(self, X, y):
        # Aunque el modelo ya esté entrenado, este método permite reentrenarlo
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        # Calcula R² usando las predicciones ya desescaladas
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

class SingleOutputDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para obtener la predicción de un modelo multioutput
    para una variable de salida particular y desescalarla usando el
    target_scaler. Se utiliza el índice de la columna deseada.
    """
    def __init__(self, estimator, target_scaler, col_index):
        self.estimator = estimator            # Modelo multioutput previamente entrenado
        self.target_scaler = target_scaler    # Escalador entrenado sobre y_train
        self.col_index = col_index            # Índice de la variable de salida

    def predict(self, X):
        # Se predice con el modelo multioutput; se obtiene la predicción en escala (2D array)
        y_pred_scaled = self.estimator.predict(X)
        # Se extrae la predicción para la columna de interés
        single_pred_scaled = y_pred_scaled[:, self.col_index]
        # Se recuperan los parámetros del escalador para la columna
        scale_val = self.target_scaler.scale_[self.col_index]
        mean_val = self.target_scaler.mean_[self.col_index]
        # Desescalar manualmente: valor original = valor escalado * escala + media
        y_pred_original = single_pred_scaled * scale_val + mean_val
        return y_pred_original

    def fit(self, X, y):
        # (Opcional) Si se desea reentrenar el modelo, se transforma y y se ajusta
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

class UnifiedDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Modelo que encapsula un diccionario de modelos individuales (por variable de salida).
    Cada modelo (del tipo SingleOutputDescaledRegressor) se utiliza para predecir su variable
    de salida correspondiente y se realiza la transformación inversa para retornar el valor original.
    """
    def __init__(self, models):
        """
        :param models: diccionario con llave = etiqueta de salida y valor = SingleOutputDescaledRegressor.
        """
        self.models = models
        # Se conserva el orden de salida en función de las claves del diccionario;
        # se asume que estas claves son exactamente las mismas que aparecen en y_test.
        self.output_columns = list(models.keys())
    
    def predict(self, X):
        preds = []
        # Se predice para cada variable en el orden de self.output_columns
        for col in self.output_columns:
            model = self.models[col]
            pred = model.predict(X)  # cada predicción es un array de forma (n_samples,)
            preds.append(pred)
        # Se combinan las predicciones columna a columna para formar un array (n_samples, n_targets)
        return np.column_stack(preds)
    
    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred, multioutput='uniform_average')

In [21]:
# =============================================================================
# Paso 8: Seleccionar el mejor modelo (mayor R²) para cada variable de salida
# =============================================================================
# Obtener la lista de etiquetas de salida según y_test
target_columns = salidas

# Diccionario para almacenar el mejor modelo (wrapper) para cada variable de salida
best_models = {}

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para ver cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in metrics_results.items():
        # Se asume que la clave 'r2_columns' en metrics tiene la métrica para cada etiqueta
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")
    
    # Determinar el índice de la columna en el DataFrame de salida para usarlo en el wrapper.
    # NOTA: Se usa el orden de las columnas en y_test (no se confunde con la posición original previa al filtrado).
    col_index = target_columns.index(col)
    
    # Obtener el modelo final correspondiente
    best_model = pipelines[best_model_name_for_col]
    
    # Crear el wrapper SingleOutputDescaledRegressor para la variable 'col'.
    # Este wrapper extrae la predicción de la columna indicada y la desescala.
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    # Guardar el objeto (solo el modelo) en el diccionario usando la etiqueta como llave
    best_models[col] = single_model

best_models_per_output = {}  # Diccionario donde se almacenarán los modelos independientes

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para determinar cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in metrics_results.items():
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")

    # Determinar el índice de la columna 'col' en la lista de etiquetas
    col_index = target_columns.index(col)
    # Obtener el modelo final asociado a esa elección
    best_model = pipelines[best_model_name_for_col]

    # Crear el wrapper que extrae la predicción para esa variable y aplica el desescalado
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    
    # Almacenar la información en el diccionario
    best_models_per_output[col] = {
         'model_name': best_model_name_for_col,
         'model': single_model,
         'r2': best_r2_for_col,
         'mse': metrics_results[best_model_name_for_col]['mse_columns'][col]
    }

Para la variable 'p1::W' el mejor modelo es 'GPR' con R2 = 1.0000
Para la variable 'p4::GFF' el mejor modelo es 'ANN-K' con R2 = 0.9920
Para la variable 'p5::BSP_T' el mejor modelo es 'GPR' con R2 = 0.9982
Para la variable 'p6::BSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9930
Para la variable 'p7::BSP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9840
Para la variable 'p8::MSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9946
Para la variable 'p9::UWP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9807
Para la variable 'p1::W' el mejor modelo es 'GPR' con R2 = 1.0000
Para la variable 'p4::GFF' el mejor modelo es 'ANN-K' con R2 = 0.9920
Para la variable 'p5::BSP_T' el mejor modelo es 'GPR' con R2 = 0.9982
Para la variable 'p6::BSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9930
Para la variable 'p7::BSP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9840
Para la variable 'p8::MSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9946
Para la variable 'p9::UWP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9807


In [30]:
# Diccionario para almacenar el mejor modelo (wrapper) para cada variable de salida
best_models_per_output = {}

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para ver cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in metrics_results.items():
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name

    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")

    # Determinar el índice de la columna en el DataFrame de salida para usarlo en el wrapper.
    col_index = target_columns.index(col)

    # Obtener el modelo final correspondiente
    best_model = pipelines[best_model_name_for_col]

    # Crear el wrapper SingleOutputDescaledRegressor para la variable 'col'.
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )

    # Guardar toda la información en un único diccionario por salida
    best_models_per_output[col] = {
         'model_name': best_model_name_for_col,
         'model': single_model,
         'r2': best_r2_for_col,
         'mse': metrics_results[best_model_name_for_col]['mse_columns'][col]
    }

Para la variable 'p1::W' el mejor modelo es 'GPR' con R2 = 1.0000
Para la variable 'p4::GFF' el mejor modelo es 'ANN-K' con R2 = 0.9920
Para la variable 'p5::BSP_T' el mejor modelo es 'GPR' con R2 = 0.9982
Para la variable 'p6::BSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9930
Para la variable 'p7::BSP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9840
Para la variable 'p8::MSP_n' el mejor modelo es 'ANN-K' con R2 = 0.9946
Para la variable 'p9::UWP_Mu' el mejor modelo es 'ANN-K' con R2 = 0.9807


In [35]:
#=============================================================================
# Paso 8.1: Guardamos cada modelo de forma independiente.
#=============================================================================
# Recorrer cada resultado y guardar el pipeline final sin desescalar (tal como fue entrenado)
for model_name, pipe in pipelines.items():
    filename = os.path.join(modelo_path, f"{model_name}.joblib")
    joblib.dump(pipe, filename)
    print(f"Pipeline '{model_name}' almacenado en: {filename}")

Pipeline 'PLS' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\PLS.joblib
Pipeline 'LR' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\LR.joblib
Pipeline 'GPR' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\GPR.joblib
Pipeline 'SVR' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\SVR.joblib
Pipeline 'RF' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\RF.joblib
Pipeline 'ANN' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\ANN.joblib
Pipeline 'ANN-K' almacenado en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\ANN-K.joblib


In [23]:
# =============================================================================
# Paso 8.2: ALMACENAMIENTO DEL MODELO FINAL "DESESCADO"
# =============================================================================
# Supongamos que, tras la evaluación, se seleccionó el modelo con mejor desempeño en test.
best_model_name = max(metrics_results, key=lambda k: metrics_results[k]['r2_avg'])
best_model = metrics_results[best_model_name]
print(f"\nEl mejor modelo (en escala de y) es: {best_model_name}")

# Crear el wrapper para que, al predecir, se desescale la salida
final_descaled_model = DescaledRegressor(estimator=best_model, target_scaler=target_scaler)
model_filename = os.path.join(modelo_path, f"Modelo_Entrenamiento_Desescalado.joblib")
joblib.dump(final_descaled_model, model_filename)
print(f"\nModelo final guardado (desescado) en: {model_filename}")


El mejor modelo (en escala de y) es: ANN-K

Modelo final guardado (desescado) en: C:\Users\Felix\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme\Modelo_Entrenamiento_Desescalado.joblib


In [29]:
# =============================================================================
# Paso 8.3: CARGAR EL MODELO GUARDADO Y REALIZAR PREDICCIONES
# =============================================================================
# Al cargar el modelo, se obtendrá una instancia que, al llamar a predict(X),
# realizará internamente el procesamiento (pipeline) sobre X y luego desescalará las predicciones.
model_filename = os.path.join(modelo_path, f"Modelo_Entrenamiento_Desescalado.joblib")

# Se buscan todos los ficheros del modelo que tengan extensión .pkl
# (Suponemos que los modelos fueron guardados con joblib)
model_files = glob.glob(os.path.join(modelo_path, "*.joblib"))
print(f"Se han encontrado {len(model_files)} ficheros de modelo.")

# Leer y almacenar cada modelo en un diccionario. Se usa el nombre del fichero (sin extensión) como clave.
modelos = {}
for file in model_files:
    modelo_nombre = os.path.splitext(os.path.basename(file))[0]
    modelos[modelo_nombre] = joblib.load(file)
    print(f"Modelo {modelo_nombre} cargado exitosamente.")

# =============================================================================
# PASO B: CALCULAR LAS PREDICCIONES DE CADA MODELO
# =============================================================================
# Se asume que la variable de entrada (X) ya fue leída, preprocesada y está definida.
# Por ejemplo, X es el DataFrame de features (ver secciones anteriores de la plantilla).

# Inicializar un diccionario para almacenar las predicciones de cada modelo.
predicciones = {}

for nombre_modelo, modelo in modelos.items():
    # Recordar: cada modelo ha sido guardado con su pipeline (con escalado, etc.)
    # Se utiliza el método predict() del modelo para calcular la salida para los datos de entrada X.
    y_pred = modelo.predict(X)
    predicciones[nombre_modelo] = y_pred
    print(f"Predicción realizada para el modelo: {nombre_modelo}")

# Creamos y ajustamos el escalador sobre y completo (o solo sobre entrenamiento)
# target_scaler = StandardScaler()
# y_scaled = target_scaler.fit_transform(y.values)  # shape (n_samples, n_outputs)

Se han encontrado 7 ficheros de modelo.
Modelo ANN-K cargado exitosamente.
Modelo ANN cargado exitosamente.
Modelo GPR cargado exitosamente.
Modelo LR cargado exitosamente.
Modelo PLS cargado exitosamente.
Modelo RF cargado exitosamente.
Modelo SVR cargado exitosamente.


NotFittedError: Pipeline is not fitted yet.

In [None]:
# =============================================================================
# Paso 9: Calcular y representar mapas de calor de p₍ᵢⱼ₎ (correlación entre predicción y variables de entrada)
# =============================================================================
# Se usa la función compute_corr(y, x) definida en la plantilla para calcular p_ij:
# p_ij = (1/(N-1)) * Σ[(ŷ(k) - μ_ŷ)*(x_j(k) - μ_xj)] / (σ_ŷ σ_xj)
#
# Se decide calcular p_ij usando el modelo seleccionado (el mejor para cada salida).
# Para cada variable de salida, se tomarán las predicciones del mejor modelo y se calculará la correlación
# entre esas predicciones y cada una de las variables de entrada.

# Inicializar la matriz de pij donde filas corresponden a cada variable de entrada y columnas a cada salida.
pij = np.zeros((len(entradas), len(salidas)))

for j, variable_salida in enumerate(salidas):
    # Seleccionar el nombre del mejor modelo para esta salida
    mejor_modelo_nombre = modelos[variable_salida]
    # Obtener la predicción para la variable de salida j usando dicho modelo
    y_pred_mejor = predicciones[mejor_modelo_nombre][:, j]
    # Para cada variable de entrada, calcular el coeficiente p_ij.
    for i, variable_entrada in enumerate(entradas):
        pij[i, j] = compute_corr(y_pred_mejor, X[variable_entrada].values)
        # Se imprime el valor para seguimiento (opcional)
        # print(f"p_ij para entrada {variable_entrada} y salida {variable_salida}: {pij[i,j]:.4f}")

# Generar el mapa de calor usando la función plot_heatmap definida en la plantilla.
# Esta función requiere la matriz, etiquetas de columnas (salidas) y de filas (entradas).
plot_heatmap(pij, col_labels=salidas, row_labels=entradas, title="Mapa de calor: Impacto de X sobre p_ij")
plt.show()

In [None]:
# =============================================================================
# Paso 10: Calcular y representar el mapa de calor de la correlación de Pearson (entradas vs salidas)
# =============================================================================
corr_mat = pd.concat([X, y], axis=1).corr()
corr_Xy   = corr_mat.loc[entradas, salidas].values
plot_heatmap(corr_Xy, col_labels=salidas, row_labels=entradas,
             title='Correlación Pearson X vs Y')
plt.savefig(os.path.join(figure_path, 'Correlacion_X_Y.png'), dpi=300)
plt.close()
print('Paso 13 completado: mapa de calor de correlación Pearson guardado.')

In [27]:
# =============================================================================
# 11. CARGAR EL MODELO GUARDADO Y REALIZAR PREDICCIONES
# =============================================================================
# Al cargar el modelo, se obtendrá una instancia que, al llamar a predict(X),
# realizará internamente el procesamiento (pipeline) sobre X y luego desescalará las predicciones.
loaded_model = joblib.load(model_filename)
y_pred_loaded = loaded_model.predict(X_test)

# Convertir las predicciones a DataFrame usando las mismas etiquetas que y_test
df_pred = pd.DataFrame(y_pred_loaded, columns=y_test.columns, index=y_test.index)

# Mostrar una comparación de predicciones vs. valores reales, utilizando las etiquetas
print("\nEjemplo de predicciones (valores reales vs. predichos):")
for col in y_test.columns:
    print(f"\nColumna: {col}")
    comp_df = pd.DataFrame({
        "Real": y_test[col],
        "Predicho": df_pred[col]
    })
    print(comp_df.head())

AttributeError: 'dict' object has no attribute 'predict'

In [None]:
# =============================================================================
# 13. REPRESENTACIÓN DE RESULTADOS: GRÁFICO DE PREDICCIÓN VS REAL
# =============================================================================
# Número de variables de salida a graficar (usando las etiquetas de y_test)
num_vars = len(y_test.columns)
n_cols = 3  # Número deseado de columnas en el subplot (se puede ajustar)
n_rows = math.ceil(num_vars / n_cols)  # Número de filas

plt.figure(figsize=(5 * n_cols, 4 * n_rows))

for idx, col in enumerate(y_test.columns):
    ax = plt.subplot(n_rows, n_cols, idx + 1)
    
    # Graficar scatter de valores reales vs. predichos para la variable 'col'
    ax.scatter(y_test[col], df_pred[col], alpha=0.7)
    
    # Definir los límites para la línea de identidad (diagonal)
    min_val = min(y_test[col].min(), df_pred[col].min())
    max_val = max(y_test[col].max(), df_pred[col].max())
    ax.plot([min_val, max_val], [min_val, max_val], 'r--')
    
    # Recuperar la información del modelo escogido para esa variable
    chosen_model = best_models_per_output[col]['model_name']
    r2_val = best_models_per_output[col]['r2']
    mse_val = best_models_per_output[col]['mse']
    
    # Añadir el texto con el modelo escogido, R² y MSE en la esquina superior izquierda del subplot
    ax.text(0.05, 0.95,
            f"Modelo: {chosen_model}\nR2: {r2_val:.3f}\nMSE: {mse_val:.3g}",
            transform=ax.transAxes,
            fontsize=10,
            verticalalignment='top',
            bbox=dict(facecolor='white', alpha=0.6))
    
    ax.set_xlabel("Valor Real")
    ax.set_ylabel("Valor Predicho")
    ax.set_title(col)

plt.title('Comparacion_FEA_vs_Predicciones')
plt.tight_layout()
# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "Comparacion_FEA_vs_Predicciones.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [None]:
# =============================================================================
# Fin del código
# =============================================================================
# Tiempo de fin
end_time_program = time.time()     
program_time = end_time_program - start_time_program  # Tiempo transcurrido en segundos
print(f"Tiempo de computación del entrenamiento de hiperparámetros: {program_time:.2f} segundos")
print("Ejecución completada.")