---------------------------------------------------------------------------------------------------------------------------

## 3. Modelo de Optimización y Prognosis (MOP)

### 3.1. Librerías

In [1]:
# =============================================================================
# Paso 0: Importar librerías y definir funciones auxiliares
# =============================================================================

# Librerías necesarias
import os
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math
from math import ceil

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

import warnings

# Preprocesamiento, modelado y métricas
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.multioutput import MultiOutputRegressor
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import LinearRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.inspection import permutation_importance
from sklearn.exceptions import ConvergenceWarning

from skopt import BayesSearchCV
from skopt.space import Real

In [2]:
# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

# Función para calcular la correlación p_ij según la fórmula del paper:
#   p_ij = (1/(N-1)) * Σ[(ŷ(k) - μ_ŷ) * (x_j(k) - μ_xj)] / (σ_ŷ σ_xj)
def compute_corr(y, x):
    N = len(y)
    mean_y = np.mean(y)
    mean_x = np.mean(x)
    std_y = np.std(y, ddof=1)
    std_x = np.std(x, ddof=1)
    return np.sum((y - mean_y) * (x - mean_x)) / ((N - 1) * std_y * std_x)

# Función para dibujar un mapa de calor con seaborn
def plot_heatmap(matrix, col_labels, row_labels, title, ax=None):
    """
    Dibuja un mapa de calor de 'matrix' usando seaborn.
    'col_labels' y 'row_labels' definen las etiquetas de columnas y filas.
    Si se proporciona 'ax', se dibuja en ese subplot; de lo contrario, se crea uno nuevo.
    """
    if ax is None:
        fig, ax = plt.subplots()
    sns.heatmap(matrix, annot=True, fmt=".2f", xticklabels=col_labels,
                yticklabels=row_labels, cmap="viridis", ax=ax)
    ax.set_title(title)
    return ax

# Función para calcular el diccionario de CoP para cada salida y cada modelo
def compute_cop_results(metricas, outputs):
    """
    Genera un diccionario de CoP con la estructura:
      { output1: { 'PLS': cop_value, 'LR': cop_value, ... },
        output2: { 'PLS': cop_value, ... },
        ... }
    Se asume que 'metricas' tiene, para cada modelo, una lista de valores de CoP
    en el mismo orden que 'outputs'.
    """
    cop_results = {}
    for j, output in enumerate(outputs):
        cop_results[output] = {}
        for model_name in metricas.keys():
            cop_results[output][model_name] = metricas[model_name]['CoP'][j]
    return cop_results

# Función para graficar los CoP en subplots y guardar la figura
def plot_cop_subplots(cop_results, outputs, figure_path, filename="CoP_para_cada_modelo.png"):
    """
    Dibuja un gráfico de subplots, donde cada subplot es un gráfico de barras con los CoP
    de cada modelo para una variable de salida.
    La figura se guarda en 'figure_path/filename'.
    """
    n_out = len(outputs)
    ncols = 3
    nrows = ceil(n_out / ncols)
    fig, axes = plt.subplots(nrows, ncols, figsize=(12, 6 * nrows))
    axes = axes.flatten() if n_out > 1 else [axes]
    
    for i, output in enumerate(outputs):
        model_names = list(cop_results[output].keys())
        cop_vals = [cop_results[output][m] for m in model_names]
        ax = axes[i]
        ax.bar(model_names, cop_vals, color="steelblue")
        ax.set_title(f"CoP para {output}", fontsize=14)
        ax.set_ylabel("CoP", fontsize=12)
        ax.set_ylim(0, 1)
        ax.grid(True, linestyle="--", alpha=0.5)
    
    # Eliminar ejes sobrantes si existen
    for j in range(i + 1, len(axes)):
        fig.delaxes(axes[j])
    
    plt.tight_layout()
    figure_file = os.path.join(figure_path, filename)
    plt.savefig(figure_file, dpi=1080)
    plt.close()
    print(f"Figura de CoP guardada en: {figure_file}")

In [3]:
# =============================================================================
# Paso 1: Definir rutas, cargar datos y configurar directorios
# =============================================================================
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'MOP'
db_path = os.path.join(base_path, "DB_MOP")
fig_path = os.path.join(base_path, "Figuras_MOP")
model_path = os.path.join(base_path, "Modelos_MOP")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_400_Uniforme.csv")
print("Ruta de datos:", data_file)

# Ruta donde se guardarán las figuras
figure_path = os.path.join(fig_path, "400_MOT_Uniforme")
if not os.path.exists(figure_path):
    os.makedirs(figure_path)
print("Ruta de figuras:", figure_path)

# Ruta al archivo de los modelos
model_path = os.path.join(model_path, "400_MOT_Uniforme")
print(model_path)
print("Ruta de modelos:", model_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

Ruta de datos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\DB_MOP\design_DB_preprocessed_400_Uniforme.csv
Ruta de figuras: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\400_MOT_Uniforme
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\400_MOT_Uniforme
Ruta de modelos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\400_MOT_Uniforme
Archivo cargado exitosamente.


In [4]:
# =============================================================================
# Paso 2: Preprocesar datos: separar columnas en X, M, P y convertir a numérico
# =============================================================================
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()

for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')

In [5]:
# =============================================================================
# Paso 3: Seleccionar variables de entrada y salida
# =============================================================================
# Las variables de salida se toman de P; se eliminan 'p2::Tnom' y 'p3::nnom' si existen.
outputs = [col for col in P.columns]
if 'p2::Tnom' in outputs:
    outputs.remove('p2::Tnom')
if 'p3::nnom' in outputs:
    outputs.remove('p3::nnom')

# Las variables de entrada se obtienen concatenando X y M.
X_M = pd.concat([X, M], axis=1)
features = list(X_M.columns)
print("Variables de entrada:", features)
print("Variables de salida:", outputs)

# Redefinir X y Y usando los nombres de columnas seleccionados
X = df[features]
Y = df[outputs]

Variables de entrada: ['x1::OSD', 'x2::Dint', 'x3::L', 'x4::tm', 'x5::hs2', 'x6::wt', 'x7::Nt', 'x8::Nh', 'm1::Drot', 'm2::Dsh', 'm3::he', 'm4::Rmag', 'm5::Rs', 'm6::GFF']
Variables de salida: ['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [6]:
# =============================================================================
# Paso 4: Escalado de datos y separación en entrenamiento/test
# =============================================================================
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)
scaler_Y = StandardScaler()
Y_scaled = scaler_Y.fit_transform(Y)

# Separar en conjuntos de entrenamiento (80%) y test (20%)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)
X_train_scaled = pd.DataFrame(scaler_X.transform(X_train), columns=X_train.columns)
X_test_scaled  = pd.DataFrame(scaler_X.transform(X_test), columns=X_test.columns)
Y_train_scaled = pd.DataFrame(scaler_Y.transform(Y_train), columns=Y_train.columns)
Y_test_scaled  = pd.DataFrame(scaler_Y.transform(Y_test), columns=Y_test.columns)

# Crear DataFrames escalados completos (para reentrenamiento final y predicciones)
X_scaled_df = pd.DataFrame(scaler_X.transform(X), columns=X.columns, index=X.index)
Y_scaled_df = pd.DataFrame(scaler_Y.transform(Y), columns=Y.columns, index=Y.index)

In [7]:
# =============================================================================
# Paso 5: Cálculo de los hiperparámetros para cada modelo
# =============================================================================
# =============================================================================
# Paso 5.1: PLS - Hiperparámetros
# =============================================================================

n_features = X_train_scaled.shape[1]

# Para PLS, se determina el número óptimo de componentes mediante validación cruzada
mse_pls = []
componentes = np.arange(1, min(len(X.columns), 20))
for n in componentes:
    pls_temp = PLSRegression(n_components=n)
    scores = cross_val_score(pls_temp, X_train_scaled, Y_train_scaled, cv=5, scoring='neg_mean_squared_error')
    mse_pls.append(-scores.mean())
n_componentes_optimos = componentes[np.argmin(mse_pls)]
print("=== Optimización de PLS ===")
print(f'El número óptimo de componentes para modelar PLS es: {n_componentes_optimos}')

El número óptimo de componentes para modelar PLS es: 9


In [8]:
# =============================================================================
# Paso 5.2: Kriging (GPR) - Hiperparámetros
# =============================================================================
# Instanciar el modelo GPR sin reinicios en el optimizador ya que BayesSearchCV se encargará de buscar
kernel = RBF(length_scale=1.0, length_scale_bounds=(1e-2, 1e3)) + \
         WhiteKernel(noise_level=1e-3, noise_level_bounds=(1e-8, 1e+2))
gpr = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=0)

'''
# Usamos los parámetros obtenidos en un primer entrenamiento:
kernel = RBF(length_scale=1.12, length_scale_bounds=(1e-2, 1e3)) + \
         WhiteKernel(noise_level=0.035, noise_level_bounds=(1e-8, 1e+7))
gpr = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=10)
'''

# Definir el espacio de búsqueda para los hiperparámetros del kernel.
# La notación "kernel__k1__length_scale" y "kernel__k2__noise_level" es la que usa scikit-learn
# para acceder a los parámetros del kernel compuesto (k1 corresponde a RBF y k2 a WhiteKernel).
param_space = {
    "kernel__k1__length_scale": Real(1e-2, 1e3, prior="log-uniform"),
    "kernel__k2__noise_level": Real(1e-8, 1e+2, prior="log-uniform")
}
# Configurar la optimización bayesiana con BayesSearchCV
opt = BayesSearchCV(
    estimator=gpr,
    search_spaces=param_space,
    n_iter=50,           # número de iteraciones de búsqueda
    cv=3,                # validación cruzada de 3 pliegues
    scoring="neg_mean_squared_error",
    random_state=42,
    n_jobs=-1
)

# Ejecutar la búsqueda sobre los datos escalados
opt.fit(X_train_scaled, Y_train_scaled)

# Mostrar los mejores hiperparámetros encontrados
print("=== Optimización de GPR ===")
print("Mejores hiperparámetros encontrados:")
print(opt.best_params_)
print("Mejor score (neg MSE):", opt.best_score_)

# Suponiendo que 'opt' es tu objeto BayesSearchCV que ha sido ajustado
best_gpr = opt.best_estimator_  # Obtenemos el mejor modelo GPR optimizado
final_kernel = best_gpr.kernel_

# Asumiendo que el kernel es la suma de RBF (k1) y WhiteKernel (k2)
final_length_scale = final_kernel.k1.length_scale
final_noise_level = final_kernel.k2.noise_level

# Evaluar el modelo optimizado en el conjunto de test
y_pred = opt.predict(X_test_scaled)
mse = mean_squared_error(Y_test_scaled, y_pred)
r2 = r2_score(Y_test_scaled, y_pred)
print(f"MSE en test: {mse:.3e}")
print(f"R² en test: {r2:.3f}")

# Puedes también imprimir el kernel final ajustado:
print("Kernel final optimizado:")
print(opt.best_estimator_.kernel_)

Mejores hiperparámetros encontrados:
OrderedDict({'kernel__k1__length_scale': 43.23791495560915, 'kernel__k2__noise_level': 97.3812547621765})
Mejor score (neg MSE): -0.06469244596554043
MSE en test: 4.920e-02
R² en test: 0.950
Kernel final optimizado:
RBF(length_scale=4.15) + WhiteKernel(noise_level=0.015)


In [24]:
# =============================================================================
# Paso 5.3: Regresión Lineal (LR) - Hiperparámetros
# =============================================================================
# Para LinearRegression, se optimiza el parámetro "fit_intercept"
lr_param_grid = {
    'fit_intercept': [True, False]
}
lr_grid = GridSearchCV(LinearRegression(), lr_param_grid, 
                         cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
lr_grid.fit(X_train_scaled, Y_train_scaled)
print("=== Optimización de LR ===")
print("Mejores parámetros:", lr_grid.best_params_)
print("Mejor score (neg MSE):", lr_grid.best_score_)
best_lr_params = lr_grid.best_params_  # Ej: {'fit_intercept': True}
print("Hiperparámetros óptimos de LR:", best_lr_params)

=== Optimización de LR ===
Mejores parámetros: {'fit_intercept': False}
Mejor score (neg MSE): -0.18460580009485303
Hiperparámetros óptimos de LR: {'fit_intercept': False}


In [25]:
# =============================================================================
# Paso 5.4: Support Vector Regression (SVR) - Hiperparámetros
# =============================================================================
# Usamos MultiOutputRegressor para manejar salidas múltiples.
# Se optimizan los parámetros C y epsilon.
svr_param_grid = {
    'estimator__C': [0.1, 1, 10, 100],
    'estimator__epsilon': [0.01, 0.1, 0.5, 1.0]
}
svr_grid = GridSearchCV(MultiOutputRegressor(SVR(kernel='rbf')),
                        svr_param_grid, cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
svr_grid.fit(X_train_scaled, Y_train_scaled)
print("=== Optimización de SVR ===")
print("Mejores parámetros:", svr_grid.best_params_)
print("Mejor score (neg MSE):", svr_grid.best_score_)

best_svr_params = svr_grid.best_params_
print("Hiperparámetros óptimos de SVR (con prefijo):", best_svr_params)

# El grid de SVR se realizó usando MultiOutputRegressor, por lo que los parámetros tienen el prefijo 'estimator__'.
# Extraemos los parámetros y removemos dicho prefijo para pasarlos al estimador SVR.
svr_params = {key.replace('estimator__', ''): value for key, value in best_svr_params.items()}
print("Hiperparámetros óptimos de SVR:", svr_params)

=== Optimización de SVR ===
Mejores parámetros: {'estimator__C': 10, 'estimator__epsilon': 0.01}
Mejor score (neg MSE): -0.09212818167779144
Hiperparámetros óptimos de SVR (con prefijo): {'estimator__C': 10, 'estimator__epsilon': 0.01}
Hiperparámetros óptimos de SVR: {'C': 10, 'epsilon': 0.01}


In [27]:
# =============================================================================
# Paso 5.5: Random Forest (RF) - Hiperparámetros
# =============================================================================
# Se optimizan n_estimators, max_depth y min_samples_split.
rf_param_grid = {
    'n_estimators': [50, 100, 200, 300],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10, 20]
}
rf_grid = GridSearchCV(RandomForestRegressor(random_state=42), rf_param_grid,
                       cv=5, scoring='neg_mean_squared_error', n_jobs=-1)
rf_grid.fit(X_train_scaled, Y_train_scaled)
print("=== Optimización de RF ===")
print("Mejores parámetros:", rf_grid.best_params_)
print("Mejor score (neg MSE):", rf_grid.best_score_)
best_rf_params = rf_grid.best_params_
print("Hiperparámetros óptimos de RF:", best_rf_params)

=== Optimización de RF ===
Mejores parámetros: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 300}
Mejor score (neg MSE): -0.2355302659522201
Hiperparámetros óptimos de RF: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 300}


In [9]:
# =============================================================================
# Paso 5: Entrenar los modelos subrogados
# =============================================================================
# --- Modelo PLS (con 9 componentes) ---
model_PLS = PLSRegression(n_components=n_componentes_optimos)
model_PLS.fit(X_train_scaled, Y_train_scaled)
predicciones_test_pls = model_PLS.predict(X_test_scaled)

# --- Modelo de Regresión Lineal (LR) ---
model_LR = LinearRegression()
model_LR.fit(X_train_scaled, Y_train_scaled)
predicciones_test_lr = model_LR.predict(X_test_scaled)

# --- Modelo KRIGING (GPR) ---
'''
kernel = RBF(length_scale=3.74, length_scale_bounds=(1e-2, 1e3)) + \
         WhiteKernel(noise_level=0.00211, noise_level_bounds=(1e-8, 100))
'''
kernel = RBF(length_scale=final_length_scale, length_scale_bounds=(1e-2, 1e3)) + \
         WhiteKernel(noise_level=final_noise_level, noise_level_bounds=(1e-8, 100))
model_kriging = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=10)
model_kriging.fit(X_train_scaled, Y_train_scaled)
predicciones_test_kriging = model_kriging.predict(X_test_scaled)

# --- Modelo Support Vector Regression (SVR) ---
model_svr = MultiOutputRegressor(SVR(kernel='rbf', C=1.0, epsilon=0.1))
model_svr.fit(X_train_scaled, Y_train_scaled)
predicciones_test_svr = model_svr.predict(X_test_scaled)

# --- Modelo Random Forest (RF) ---
model_rf = RandomForestRegressor(n_estimators=100, random_state=42)
model_rf.fit(X_train_scaled, Y_train_scaled)
predicciones_test_rf = model_rf.predict(X_test_scaled)

In [10]:
# =============================================================================
# Paso 6: Calcular métricas (MSE, RMSE, MAE, R2, CoP) para cada modelo
# =============================================================================
# Crear un diccionario que asocie cada modelo con sus predicciones sobre el conjunto de test
modelos = {
    'PLS': (model_PLS, predicciones_test_pls),
    'LR': (model_LR, predicciones_test_lr),
    'GPR': (model_kriging, predicciones_test_kriging),
    'SVR': (model_svr, predicciones_test_svr),
    'RF': (model_rf, predicciones_test_rf)
}

In [11]:
# Inicializar diccionario de métricas para cada modelo
metricas = {nombre: {} for nombre in modelos.keys()}
for nombre, (modelo, preds) in modelos.items():
    metricas[nombre]['MSE'] = []
    metricas[nombre]['RMSE'] = []
    metricas[nombre]['MAE'] = []
    metricas[nombre]['R2'] = []
    metricas[nombre]['CoP'] = []
    # Calcular métricas para cada variable de salida
    for i, col in enumerate(Y_test_scaled.columns):
        y_true = Y_test_scaled[col].values
        y_pred = preds[:, i]
        mse = mean_squared_error(y_true, y_pred)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(y_true, y_pred)
        r2 = r2_score(y_true, y_pred)
        N = len(y_true)
        mean_y = np.mean(y_true)
        mean_y_pred = np.mean(y_pred)
        std_y = np.std(y_true, ddof=1)
        std_y_pred = np.std(y_pred, ddof=1)
        denominador = (N - 1) * std_y * std_y_pred
        cop = (np.sum((y_true - mean_y) * (y_pred - mean_y_pred)) / denominador) ** 2 if denominador != 0 else np.nan
        metricas[nombre]['MSE'].append(mse)
        metricas[nombre]['RMSE'].append(rmse)
        metricas[nombre]['MAE'].append(mae)
        metricas[nombre]['R2'].append(r2)
        metricas[nombre]['CoP'].append(cop)

In [12]:
# =============================================================================
# Paso 6.1: Representar métricas como gráficos de barras (subplot por métrica) para cada variable de salida
# =============================================================================

# Lista de métricas a representar
metric_names = ['CoP', 'R2', 'MSE', 'RMSE', 'MAE']
# Lista de modelos, extraída del diccionario 'metricas'
models_list = list(metricas.keys())
n_models = len(models_list)

# Usar una paleta de colores pastel (una por cada modelo)
colors = sns.color_palette("pastel", n_models)

# Iterar sobre cada variable de salida
for i, output in enumerate(outputs):
    # Crear una figura para la variable de salida actual
    fig, axs = plt.subplots(1, len(metric_names), figsize=(5 * len(metric_names), 4))
    
    # Asegurar que axs sea iterable (si solo hay un subplot)
    if len(metric_names) == 1:
        axs = [axs]
    
    # Para cada métrica, crear un subplot con barras para cada modelo
    for j, metric in enumerate(metric_names):
        # Extraer los valores de la métrica 'metric' para el modelo actual y la variable 'output'
        values = [metricas[model][metric][i] for model in models_list]
        ax = axs[j]
        # Crear gráfico de barras: eje x = modelos, eje y = valor de la métrica
        ax.bar(models_list, values, color=colors)
        # Configurar título y etiquetas del subplot
        ax.set_title(f"{metric}", fontsize=10)
        ax.set_ylabel(metric, fontsize=9)
        # Agregar etiquetas de valor sobre cada barra
        for k, v in enumerate(values):
            ax.text(k, v, f"{v:.3f}", ha='center', va='bottom', fontsize=8)
        # Ajustar el límite del eje y para mayor claridad
        ax.set_ylim(0, max(values) * 1.1)
        ax.grid(True, linestyle="--", alpha=0.5)
    
    # Título general de la figura para la variable de salida
    fig.suptitle(f"Métricas para la variable de salida: {output}", fontsize=12, fontweight='bold')
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    
    # Guardar la figura en la carpeta 'figure_path' usando el nombre de la variable de salida
    output_file = os.path.join(figure_path, f"Métricas_{clean_filename(output)}.png")
    plt.savefig(output_file, dpi=1080)
    plt.close()

In [13]:
# =============================================================================
# Paso 7: Representar gráficamente los CoP para cada modelo y salida
# =============================================================================
# Crear un DataFrame donde las filas son las variables de salida y las columnas los modelos
cop_df = pd.DataFrame({nombre: metricas[nombre]['CoP'] for nombre in modelos.keys()},
                      index=Y_test_scaled.columns)
print("Valores de CoP:")
print(cop_df)

# Graficar los CoP con un gráfico de barras
cop_df.plot(kind='bar', figsize=(10, 6))
plt.title("Coefficient of Prognosis (CoP) por modelo y variable de salida")
plt.ylabel("CoP")
plt.xlabel("Variable de salida")
plt.legend(title="Modelo")
plt.tight_layout()
plt.show()

# Calcular el diccionario cop_results para uso en subplots
cop_results = compute_cop_results(metricas, Y_test_scaled.columns.tolist())

# Graficar los CoP en subplots y guardar la figura
plot_cop_subplots(cop_results, Y_test_scaled.columns.tolist(), figure_path, filename="CoP_para_cada_modelo.png")


Valores de CoP:
                 PLS        LR       GPR       SVR        RF
p1::W       0.982915  0.982494  0.988938  0.946328  0.872430
p4::GFF     0.991414  0.991814  0.988216  0.953189  0.919211
p5::BSP_T   0.904445  0.904293  0.989911  0.936498  0.875497
p6::BSP_n   0.884458  0.872802  0.958648  0.872561  0.887538
p7::BSP_Mu  0.641967  0.605408  0.956429  0.897200  0.852624
p8::MSP_n   0.800683  0.798793  0.915076  0.825968  0.875817
p9::UWP_Mu  0.522519  0.498209  0.874946  0.742160  0.585583
Figura de CoP guardada en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\400_MOT_Uniforme\CoP_para_cada_modelo.png


In [14]:
# =============================================================================
# Paso 8: Seleccionar el mejor modelo (mayor CoP) para cada variable de salida
# =============================================================================
best_models = {}
for salida in cop_df.index:
    best_model = cop_df.loc[salida].idxmax()
    best_models[salida] = best_model

print("Mejor modelo para cada variable de salida basado en CoP:")
for output in Y_test_scaled.columns:
    bm = best_models.get(output)
    if bm is None:
        print(f" - {output}: No se evaluó ningún modelo")
    else:
        print(f" - {output}: {bm} (CoP = {cop_results[output][bm]:.3f})")

Mejor modelo para cada variable de salida basado en CoP:
 - p1::W: GPR (CoP = 0.989)
 - p4::GFF: LR (CoP = 0.992)
 - p5::BSP_T: GPR (CoP = 0.990)
 - p6::BSP_n: GPR (CoP = 0.959)
 - p7::BSP_Mu: GPR (CoP = 0.956)
 - p8::MSP_n: GPR (CoP = 0.915)
 - p9::UWP_Mu: GPR (CoP = 0.875)


In [15]:
# =============================================================================
# Paso 9: Crear un DataFrame final combinando X escalado y las predicciones del mejor modelo
# =============================================================================
# Obtener las predicciones sobre el conjunto completo X_scaled_df para cada modelo
predicciones_totales = {
    'PLS': model_PLS.predict(X_scaled_df),
    'LR': model_LR.predict(X_scaled_df),
    'GPR': model_kriging.predict(X_scaled_df),
    'SVR': model_svr.predict(X_scaled_df),
    'RF': model_rf.predict(X_scaled_df)
}

# Combinar las predicciones: para cada salida se usa la predicción del modelo con mayor CoP
pred_final = np.zeros_like(predicciones_totales['PLS'])
for j, salida in enumerate(Y.columns):
    modelo_mejor = best_models[salida]
    pred_final[:, j] = predicciones_totales[modelo_mejor][:, j]

# Crear el DataFrame final con las variables de entrada escaladas y las predicciones
final_df = pd.concat([X_scaled_df, pd.DataFrame(pred_final, columns=Y.columns, index=X_scaled_df.index)], axis=1)
print("Primeras filas del DataFrame final:")
print(final_df.head())

Primeras filas del DataFrame final:
    x1::OSD  x2::Dint     x3::L    x4::tm   x5::hs2    x6::wt    x7::Nt  \
0  1.118507 -0.684970  0.562831 -1.354814  0.697198 -0.842490  0.562394   
1 -0.246804  1.317178 -0.167823 -0.586559 -0.444787 -1.375437  1.983416   
2 -1.962195 -1.209342  0.085096  0.729742 -0.828538 -0.856794  1.036068   
3  1.223531  0.077753  0.619035  1.227435 -0.284446  1.828701  0.088720   
4 -0.099770  1.193236 -0.791689  0.283014 -0.415854  0.758933  1.509742   

     x8::Nh  m1::Drot   m2::Dsh  ...  m4::Rmag    m5::Rs   m6::GFF     p1::W  \
0 -1.241492 -0.684970 -0.264670  ... -0.612868  0.063445 -1.568586  0.616254   
1 -1.241492  1.317178  1.467421  ...  1.353688  0.820624 -0.319066 -0.294723   
2 -1.241492 -1.209342 -1.404701  ... -1.253356 -2.054855  1.285226 -0.572744   
3 -1.241492  0.077753 -0.292359  ...  0.010649 -0.223213 -0.322286  1.079042   
4 -1.241492  1.193236  1.084792  ...  1.181619  0.729811  0.201559 -0.791238   

    p4::GFF  p5::BSP_T  p6::BSP_

In [16]:
# =============================================================================
# Paso 9.1: Desescalar el DataFrame final y guardar en CSV
# =============================================================================

# Separar las columnas de entrada y de salida (recordando que 'features' y 'Y.columns' ya están definidos)
X_final_scaled = final_df[features]
Y_final_scaled = final_df[Y.columns]

# Aplicar el inverso de la transformación para obtener los valores originales (desescalados)
X_final_unscaled = pd.DataFrame(scaler_X.inverse_transform(X_final_scaled), 
                                columns=features, 
                                index=final_df.index)
Y_final_unscaled = pd.DataFrame(scaler_Y.inverse_transform(Y_final_scaled), 
                                columns=Y.columns, 
                                index=final_df.index)

# Combinar las variables desescaladas en un único DataFrame
final_unscaled_df = pd.concat([X_final_unscaled, Y_final_unscaled], axis=1)
display(final_unscaled_df.head())
display(final_unscaled_df.info())

# Definir la ruta de salida para guardar el CSV (puedes ajustar la carpeta y nombre del archivo)
output_csv_path = os.path.join(figure_path, "final_df_desescalado.csv")

# Guardar el DataFrame desescalado en formato CSV
model_file = os.path.join(model_path, "trained_database_optimal.csv")
final_unscaled_df.to_csv(model_file, index=True)
print("DataFrame desescalado guardado en:", model_path)

Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh,m1::Drot,m2::Dsh,...,m4::Rmag,m5::Rs,m6::GFF,p1::W,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,59.4,24.056,29.2,2.121244,10.249868,2.569301,12.0,3.0,23.056,11.940368,...,10.997689,22.277868,22.423594,0.672637,25.007762,0.414321,4870.925974,87.074414,5975.99334,88.769969
1,54.72,32.0528,22.960001,2.456926,7.797124,2.123813,18.0,3.0,31.0528,16.981005,...,14.912168,23.823524,34.12154,0.531573,43.479524,0.538645,4034.874688,84.023808,4106.740634,83.537379
2,48.84,21.9616,25.12,3.032072,6.972909,2.557345,14.0,3.0,20.9616,8.622712,...,9.722782,17.953709,49.140854,0.488521,56.786832,0.382338,5259.442425,87.088123,6425.08013,91.093273
3,59.76,27.1024,29.680002,3.249535,8.141503,4.802138,10.0,3.0,26.1024,11.859788,...,12.238816,21.692703,34.091393,0.744299,37.715746,0.425979,4789.1478,89.67452,6413.042125,92.127185
4,55.224,31.55776,17.632002,2.836879,7.859266,3.907924,16.0,3.0,30.55776,15.8675,...,14.56966,23.638145,38.995613,0.454687,46.133107,0.493526,4234.24455,86.936712,4800.008357,90.214995


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315 entries, 0 to 314
Data columns (total 21 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   x1::OSD     315 non-null    float64
 1   x2::Dint    315 non-null    float64
 2   x3::L       315 non-null    float64
 3   x4::tm      315 non-null    float64
 4   x5::hs2     315 non-null    float64
 5   x6::wt      315 non-null    float64
 6   x7::Nt      315 non-null    float64
 7   x8::Nh      315 non-null    float64
 8   m1::Drot    315 non-null    float64
 9   m2::Dsh     315 non-null    float64
 10  m3::he      315 non-null    float64
 11  m4::Rmag    315 non-null    float64
 12  m5::Rs      315 non-null    float64
 13  m6::GFF     315 non-null    float64
 14  p1::W       315 non-null    float64
 15  p4::GFF     315 non-null    float64
 16  p5::BSP_T   315 non-null    float64
 17  p6::BSP_n   315 non-null    float64
 18  p7::BSP_Mu  315 non-null    float64
 19  p8::MSP_n   315 non-null    f

None

DataFrame desescalado guardado en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\400_MOT_Uniforme


In [17]:
# =============================================================================
# Paso 10: Graficar comparación (scatter) entre FEA (valores originales escalados)
# y las predicciones, usando las métricas calculadas previamente para el mejor modelo
# =============================================================================

# Lista de variables de salida (asegúrate de que coincide con Y_scaled_df.columns)
output_vars = Y_scaled_df.columns.tolist()
n_vars = len(output_vars)
n_cols = 3
n_rows = int(np.ceil(n_vars / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(5 * n_cols, 4 * n_rows))
axes = axes.flatten()  # Asegurarse de tener una lista de ejes

# Iterar sobre cada variable de salida
for i, col in enumerate(output_vars):
    # Extraer valores originales y predichos
    y_true = Y_scaled_df[col].values
    y_pred = final_df[col].values

    # Obtener el mejor modelo para esta variable y extraer las métricas pre-calculadas
    best_model = best_models[col]  # best_models ya fue calculado previamente (ej. {'p1::W': 'PLS', ...})
    mse  = metricas[best_model]['MSE'][i]
    r2   = metricas[best_model]['R2'][i]
    cop  = metricas[best_model]['CoP'][i]
    
    # Dibujar el scatter en el subplot correspondiente (usar ax, no axes)
    ax = axes[i]
    ax.scatter(y_true, y_pred, alpha=0.6, edgecolor="k")
    
    # Dibujar la línea de identidad
    min_val = min(np.min(y_true), np.min(y_pred))
    max_val = max(np.max(y_true), np.max(y_pred))
    ax.plot([min_val, max_val], [min_val, max_val], 'r--')
    
    # Configurar etiquetas y título para el subplot
    ax.set_title(f"{col}")
    ax.set_xlabel("FEA Simulation (escalado)")
    ax.set_ylabel("Prediction (escalado)")
    
    # Anotar el subplot con las métricas extraídas para el mejor modelo
    annotation = f"Mejor Modelo: {best_model}\nCoP: {cop:.3f}\nR²: {r2:.3f}\nMSE: {mse:.3f}"
    ax.text(0.05, 0.95, annotation, transform=ax.transAxes, verticalalignment='top',
            bbox=dict(boxstyle="round", facecolor="wheat", alpha=0.5))
    ax.grid(True, linestyle="--", alpha=0.5)

# Eliminar subplots vacíos si existen
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])
plt.tight_layout()

# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, "valores_FEA_vs_valores_predichos.png")
plt.savefig(figure_file, dpi=1080)
plt.close()
print("Figura de comparación guardada en:", figure_file)

Figura de comparación guardada en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\400_MOT_Uniforme\valores_FEA_vs_valores_predichos.png


In [18]:
# -----------------------------------------------------------------------------
# Paso 11: Calcular y representar mapas de calor de p₍ᵢⱼ₎ (correlación entre predicción y variables de entrada)
# -----------------------------------------------------------------------------
# Diccionario con las predicciones de cada modelo en el conjunto de test
modelos_pred = {
    'PLS': predicciones_test_pls,
    'LR': predicciones_test_lr,
    'GPR': predicciones_test_kriging,
    'SVR': predicciones_test_svr,
    'RF': predicciones_test_rf
}

# Calcular p₍ᵢⱼ₎ para cada modelo
p_values_by_model = {}
for model_name, preds in modelos_pred.items():
    preds = np.asarray(preds)  # Convertir a array de NumPy
    # Crear un DataFrame para almacenar p₍ᵢⱼ₎ con índices = salidas, columnas = entradas
    p_matrix = pd.DataFrame(index=Y_test_scaled.columns, columns=X_test_scaled.columns, dtype=float)
    
    # Para cada variable de salida (fila)
    for i, out_var in enumerate(Y_test_scaled.columns):
        y_pred = preds[:, i]
        # Para cada variable de entrada (columna)
        for in_var in X_test_scaled.columns:
            x_vals = X_test_scaled[in_var].values
            # Si x_vals tiene más de una dimensión, tomar la primera columna
            if x_vals.ndim > 1:
                x_vals = x_vals[:, 0]
            # Calcular p₍ᵢⱼ₎ usando la función compute_corr
            p_matrix.loc[out_var, in_var] = compute_corr(y_pred, x_vals)
    
    p_values_by_model[model_name] = p_matrix

# Representar mapas de calor de p₍ᵢⱼ₎ para cada modelo y guardarlos
for model_name, df_p in p_values_by_model.items():
    pij_matrix = df_p.T.values  # Transponer para tener filas = entradas y columnas = salidas
    fig, ax = plt.subplots(figsize=(10, 8))
    plot_heatmap(pij_matrix, 
                 col_labels=Y_test_scaled.columns.tolist(), 
                 row_labels=X_test_scaled.columns.tolist(),
                 title=f"Mapa de calor de p₍ᵢⱼ₎ para {model_name}", ax=ax)
    plt.tight_layout()
    figure_file = os.path.join(figure_path, f"Mapa_de_calor_pij_{model_name}.png")
    plt.savefig(figure_file, dpi=1080)
    plt.close()

In [19]:
# =============================================================================
# Paso 12: Calcular y representar el mapa de calor de la correlación de Pearson (entradas vs salidas)
# =============================================================================
# Concatenar X escalado y Y escalado completos
combined = pd.concat([X_scaled_df, Y_scaled_df], axis=1)
corr_matrix = combined.corr()
# Extraer la submatriz: filas = entradas, columnas = salidas
pearson_matrix = corr_matrix.loc[X_scaled_df.columns, Y_scaled_df.columns]
fig, ax = plt.subplots(figsize=(10, 8))
plot_heatmap(pearson_matrix, col_labels=Y_scaled_df.columns.tolist(),
             row_labels=X_scaled_df.columns.tolist(),
             title="Matriz de correlación de Pearson (entradas vs salidas)", ax=ax)
plt.tight_layout()
figure_file = os.path.join(figure_path, "Mapa_de_calor_Pearson.png")
plt.savefig(figure_file, dpi=1080)
plt.close()

In [20]:
# =============================================================================
# Fin del código
# =============================================================================
print("Ejecución completada.")

Ejecución completada.
