---------------------------------------------------------------------------------------------------------------------------

## 3. MOP

### 3.1. Librerías

In [1]:
# =============================================================================
# 3. MOP - Modelo de Optimización y Prognosis
# =============================================================================

# Librerías necesarias
import os
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math
from math import ceil

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

import warnings

# Preprocesamiento y modelado
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.multioutput import MultiOutputRegressor
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import LinearRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.inspection import permutation_importance
from sklearn.exceptions import ConvergenceWarning

from skopt import BayesSearchCV
from skopt.space import Real

### 3.2. Cargar y convertir los datos preprocesados en matrices X, M y P

In [2]:
# Definir las rutas base y de las carpetas
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'MOP'
db_path = os.path.join(base_path, "DB_MOP")
fig_path = os.path.join(base_path, "Figuras_MOP")
model_path = os.path.join(base_path, "Modelos_MOP")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_200_Optimizado.csv")
print(data_file)

# Ruta al archivo de las figuras
figure_path = os.path.join(fig_path, "200_MOT_Optimizado")
print(figure_path)

# Ruta al archivo de los modelos
modelo_path = os.path.join(model_path, "200_MOT_Optimizado")
print(modelo_path)

C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\DB_MOP\design_DB_preprocessed_200_Optimizado.csv
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\200_MOT_Optimizado
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\200_MOT_Optimizado


In [3]:
# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

Archivo cargado exitosamente.


In [4]:
# Separa las columnas en matrices X, M y P
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()

# Transforma todos los datos de X, M y P a numéricos
for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')

for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')

for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')

### 3.3. Entrenamiento para cada modelo.

In [5]:
# Las variables de salida se toman de la matriz P. Se eliminan 'p2::Tnom' y 'p3::nnom'
outputs = [col for col in P.columns]
if 'p2::Tnom' in outputs: outputs.remove('p2::Tnom')
if 'p3::nnom' in outputs: outputs.remove('p3::nnom')

# Concatena las matrices X y M
X_M = pd.concat([X, M], axis=1)

# Las entradas serán el resto de las columnas (tanto X como M)
features = [col for col in X_M.columns]

print("Variables de entrada:", features)
print("Variables de salida:", outputs)

X = df[features]
Y = df[outputs]    

Variables de entrada: ['x1::OSD', 'x2::Dint', 'x3::L', 'x4::tm', 'x5::hs2', 'x6::wt', 'x7::Nt', 'x8::Nh', 'm1::Drot', 'm2::Dsh', 'm3::he', 'm4::Rmag', 'm5::Rs', 'm6::GFF']
Variables de salida: ['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [6]:
# Escalado de datos
# Se utiliza StandardScaler para normalizar los datos (importante para algunos modelos)
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X)  # Datos de entrada escalados

scaler_Y = StandardScaler()
Y_scaled = scaler_Y.fit_transform(Y)  # Datos de salida escalados

In [7]:
# =============================================================================
# Separamos los conjuntos de datos en entrenamiento y test.
# =============================================================================
# Separar conjuntos de entrenamiento y prueba (80% / 20%)
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=42)

# Para asegurar que los DataFrames tengan índices consecutivos, se reinician
X_train = X_train.reset_index(drop=True)
X_test  = X_test.reset_index(drop=True)
Y_train = Y_train.reset_index(drop=True)
Y_test  = Y_test.reset_index(drop=True)

# También, para los datos escalados (se convierten a DataFrame para conservar nombres de columnas)
X_train_scaled = pd.DataFrame(scaler_X.transform(X_train), columns=X_train.columns)
X_test_scaled  = pd.DataFrame(scaler_X.transform(X_test), columns=X_test.columns)

Y_train_scaled = pd.DataFrame(scaler_Y.transform(Y_train), columns=Y_train.columns)
Y_test_scaled  = pd.DataFrame(scaler_Y.transform(Y_test), columns=Y_test.columns)

# Crear DataFrames para el conjunto completo escalado (usado en reentrenamiento final)
X_scaled_df = pd.DataFrame(scaler_X.transform(X), columns=X.columns, index=X.index)
Y_scaled_df = pd.DataFrame(scaler_Y.transform(Y), columns=Y.columns, index=Y.index)

In [8]:
#==============================================================================
# Se entrenan los modelos por separado.
#==============================================================================
# --- PLS (componentes optimizados) ---
model_PLS = PLSRegression(n_components = 9)
model_PLS.fit(X_train_scaled, Y_train_scaled)
predicciones_test_pls = model_PLS.predict(X_test_scaled)

# --- Regresión lineal (LR) ---
model_LR = LinearRegression()
model_LR.fit(X_train_scaled, Y_train_scaled)
predicciones_test_lr = model_LR.predict(X_test_scaled)

# --- KRIGING (GPR) ---
kernel = RBF(length_scale=3.74, length_scale_bounds=(1e-2, 1e3)) + \
               WhiteKernel(noise_level=0.00211, noise_level_bounds=(1e-8, 100))
model_kriging = GaussianProcessRegressor(kernel=kernel, random_state=42, n_restarts_optimizer=10)
model_kriging.fit(X_train_scaled, Y_train_scaled)
predicciones_test_kriging = model_kriging.predict(X_test_scaled)

# --- Modelo Support Vector Regression (SVR) --- 
model_svr = MultiOutputRegressor(SVR(kernel='rbf', C=1.0, epsilon=0.1))
model_svr.fit(X_train_scaled, Y_train_scaled)
predicciones_test_svr = model_svr.predict(X_test_scaled)

# --- Modelo Random Forest (RF)---
model_rf = RandomForestRegressor(n_estimators=100, random_state=42)
model_rf.fit(X_train_scaled, Y_train_scaled)
predicciones_test_rf = model_rf.predict(X_test_scaled)

In [9]:
# -----------------------------------------------------------------------------
# 1. Calcular métricas para cada modelo y cada variable de salida en el conjunto de test
# -----------------------------------------------------------------------------
# Diccionario que asocia cada modelo con sus predicciones sobre el test set
modelos = {
    'PLS': (model_PLS, predicciones_test_pls),
    'LR': (model_LR, predicciones_test_lr),
    'GPR': (model_kriging, predicciones_test_kriging),
    'SVR': (model_svr, predicciones_test_svr),
    'RF': (model_rf, predicciones_test_rf)
}

In [10]:
# Inicializar un diccionario para almacenar las métricas
metricas = {nombre: {} for nombre in modelos.keys()}

# Para cada modelo, calcular las métricas por cada variable de salida
for nombre, (modelo, preds) in modelos.items():
    metricas[nombre]['MSE'] = []
    metricas[nombre]['RMSE'] = []
    metricas[nombre]['MAE'] = []
    metricas[nombre]['R2'] = []
    metricas[nombre]['CoP'] = []
    # Se itera sobre cada variable (columna) de salida
    for i, col in enumerate(Y_test_scaled.columns):
        y_true = Y_test_scaled[col].values
        y_pred = preds[:, i]
        mse = mean_squared_error(y_true, y_pred)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(y_true, y_pred)
        r2 = r2_score(y_true, y_pred)
        # Cálculo del CoP según:
        # CoP = ( [∑(y_true - media_y_true) * (y_pred - media_y_pred)] / ((N-1)*std_y_true*std_y_pred) )^2
        N = len(y_true)
        media_y = np.mean(y_true)
        media_y_pred = np.mean(y_pred)
        std_y = np.std(y_true, ddof=1)
        std_y_pred = np.std(y_pred, ddof=1)
        denominador = (N - 1) * std_y * std_y_pred
        cop = (np.sum((y_true - media_y) * (y_pred - media_y_pred)) / denominador) ** 2 if denominador != 0 else np.nan
        
        metricas[nombre]['MSE'].append(mse)
        metricas[nombre]['RMSE'].append(rmse)
        metricas[nombre]['MAE'].append(mae)
        metricas[nombre]['R2'].append(r2)
        metricas[nombre]['CoP'].append(cop)


In [11]:
# -----------------------------------------------------------------------------
# 2. Representar los valores de CoP para cada modelo y variable de salida
# -----------------------------------------------------------------------------
# Crear un DataFrame donde las filas sean las variables de salida y las columnas los modelos
cop_df = pd.DataFrame({nombre: metricas[nombre]['CoP'] for nombre in modelos.keys()},
                      index=Y_test_scaled.columns)

print("Valores de CoP (cada fila es una variable de salida y cada columna un modelo):")
print(cop_df)

# Graficar los valores de CoP
cop_df.plot(kind='bar', figsize=(10, 6))
plt.title("Coefficient of Prognosis (CoP) por modelo y variable de salida")
plt.ylabel("CoP")
plt.xlabel("Variable de salida")
plt.legend(title="Modelo")
plt.tight_layout()
plt.show()

Valores de CoP (cada fila es una variable de salida y cada columna un modelo):
                 PLS        LR       GPR       SVR        RF
p1::W       0.978726  0.978322  0.976231  0.949012  0.836816
p4::GFF     0.996847  0.996860  0.989599  0.955832  0.870374
p5::BSP_T   0.882227  0.881742  0.973143  0.931743  0.811409
p6::BSP_n   0.858882  0.866434  0.943312  0.862322  0.885187
p7::BSP_Mu  0.874045  0.884179  0.915923  0.848212  0.820263
p8::MSP_n   0.789972  0.791059  0.881436  0.826073  0.739720
p9::UWP_Mu  0.718808  0.710744  0.835483  0.798224  0.757564


In [24]:
# Definir cop_results a partir de 'metricas'
cop_results = {}
for j, output in enumerate(outputs):
    cop_results[output] = {}
    for model_name in metricas.keys():
         cop_results[output][model_name] = metricas[model_name]['CoP'][j]

In [25]:
# =============================================================================
# Representar gráficamente los CoP de cada modelo para cada salida en subplots
# =============================================================================
n_out = len(outputs)
ncols = 3
nrows = ceil(n_out / ncols)
fig1, axes1 = plt.subplots(nrows, ncols, figsize=(12, 6 * nrows))
if n_out == 1:
    axes1 = [axes1]
else:
    axes1 = axes1.flatten()

for i, output in enumerate(outputs):
    # Se obtienen los nombres de los modelos y sus correspondientes CoP para la salida 'output'
    model_names = list(cop_results[output].keys())
    cop_vals = [cop_results[output][m] for m in model_names]
    
    ax = axes1[i]
    ax.bar(model_names, cop_vals, color="steelblue")
    ax.set_title(f"CoP para {output}", fontsize=14)
    ax.set_ylabel("CoP", fontsize=12)
    ax.set_ylim(0, 1)
    ax.grid(True, linestyle="--", alpha=0.5)

# Eliminar subplots vacíos, si existen
for j in range(i + 1, len(axes1)):
    fig1.delaxes(axes1[j])

plt.tight_layout()

# Guardar la figura en la carpeta 'figure_path'
figure_file = os.path.join(figure_path, 'CoP_para_cada_modelo.png')
plt.savefig(figure_file, dpi=1080)
plt.close()
# plt.show()

In [33]:
# -----------------------------------------------------------------------------
# 3. Seleccionar el mejor modelo (mayor CoP) para cada variable de salida
# -----------------------------------------------------------------------------
best_models = {}
for salida in cop_df.index:
    best_model = cop_df.loc[salida].idxmax()
    best_models[salida] = best_model

print("Mejor modelo para cada variable de salida basado en CoP:")

for output in outputs:
    best_model = best_models.get(output)
    if best_model is None:
        print(f" - {output}: No se evaluó ningún modelo (posiblemente la variable es constante o hubo error)")
    else:
        print(f" - {output}: {best_model} (CoP = {cop_results[output][best_model]:.3f})")


Mejor modelo para cada variable de salida basado en CoP:
 - p1::W: PLS (CoP = 0.979)
 - p4::GFF: LR (CoP = 0.997)
 - p5::BSP_T: GPR (CoP = 0.973)
 - p6::BSP_n: GPR (CoP = 0.943)
 - p7::BSP_Mu: GPR (CoP = 0.916)
 - p8::MSP_n: GPR (CoP = 0.881)
 - p9::UWP_Mu: GPR (CoP = 0.835)


In [13]:
# -----------------------------------------------------------------------------
# 4. Crear un DataFrame final con X escalado y las predicciones (Y escaladas)
#    provenientes del mejor modelo para cada variable de salida.
# -----------------------------------------------------------------------------
# Primero, obtener las predicciones sobre todo el conjunto escalado de X
predicciones_totales = {}
predicciones_totales['PLS'] = model_PLS.predict(X_scaled_df)
predicciones_totales['LR'] = model_LR.predict(X_scaled_df)
predicciones_totales['GPR'] = model_kriging.predict(X_scaled_df)
predicciones_totales['SVR'] = model_svr.predict(X_scaled_df)
predicciones_totales['RF'] = model_rf.predict(X_scaled_df)

# Combinar las predicciones: para cada variable de salida se elige la predicción del modelo con mayor CoP
# Se asume que el orden de las columnas en Y_scaled_df es el mismo que en Y
pred_final = np.zeros_like(predicciones_totales['PLS'])
for j, salida in enumerate(Y.columns):
    modelo_mejor = best_models[salida]
    pred_final[:, j] = predicciones_totales[modelo_mejor][:, j]

# Crear un DataFrame final que combine las variables de entrada escaladas y las predicciones
final_df = pd.concat([X_scaled_df, pd.DataFrame(pred_final, columns=Y.columns, index=X_scaled_df.index)], axis=1)

print("Primeras filas del DataFrame final (X escalado y Y predicha con el mejor modelo por variable):")
print(final_df.head())

Primeras filas del DataFrame final (X escalado y Y predicha con el mejor modelo por variable):
    x1::OSD  x2::Dint     x3::L    x4::tm   x5::hs2    x6::wt    x7::Nt  \
0 -1.745484 -1.091625  0.082287  0.860428  0.578235 -0.551567  1.367565   
1 -0.576354 -1.018010  1.005932  0.048988  0.277302 -2.109603 -0.921267   
2  0.460140 -0.108615 -0.914109  1.393208  0.821538 -1.677565  0.032413   
3  0.803495 -0.813464 -0.394306  0.087034  1.643646  0.463319  0.413885   
4 -3.227699  0.269066 -1.829119  2.074190 -1.675338 -1.454338 -1.112003   

     x8::Nh  m1::Drot   m2::Dsh  ...  m4::Rmag    m5::Rs   m6::GFF     p1::W  \
0 -0.400158 -1.091625 -1.325245  ... -1.142016 -0.202284  1.136058 -0.442143   
1  0.693131 -1.018010 -1.009146  ... -1.023443 -0.471686 -1.224087  0.294143   
2  1.786421 -0.108615 -0.525363  ... -0.185759  0.805432  0.552491 -0.508628   
3  0.146487 -0.813464 -0.820792  ... -0.820447  1.159723 -0.074768 -0.163880   
4  1.786421  0.269066 -0.361372  ...  0.155371 -1.6064

In [41]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, r2_score

# Supongamos que 'final_df' contiene las predicciones (columnas de salida)
# y que 'Y_scaled_df' contiene los valores originales escalados para las salidas.
# Se asume que ambas DataFrames tienen las mismas columnas correspondientes a las variables de salida.
output_vars = Y_scaled_df.columns  # Lista de variables de salida

# Definir el número de filas y columnas para los subplots
n_vars = len(output_vars)
n_cols = 3
n_rows = int(np.ceil(n_vars / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(5 * n_cols, 4 * n_rows))
axes = axes.flatten()

# Para cada variable de salida se calcula las métricas y se genera el subplot
for i, col in enumerate(output_vars):
    # Valores originales y predichos para la variable actual
    y_true = Y_scaled_df[col].values
    y_pred = final_df[col].values

    # Calcular MSE y R2
    mse = mean_squared_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    
    # Calcular CoP según la fórmula:
    # CoP = ( [∑(y_true - media_y_true) * (y_pred - media_y_pred)] / ((N-1)*std_y_true*std_y_pred) )^2
    N = len(y_true)
    mean_y = np.mean(y_true)
    mean_y_pred = np.mean(y_pred)
    std_y = np.std(y_true, ddof=1)
    std_y_pred = np.std(y_pred, ddof=1)
    denominador = (N - 1) * std_y * std_y_pred
    cop = (np.sum((y_true - mean_y) * (y_pred - mean_y_pred)) / denominador) ** 2 if denominador != 0 else np.nan

    # Generar el subplot para la variable 'col'
    ax = axes[i]
    ax.scatter(y_true, y_pred, alpha=0.6, edgecolor="k")
    
    # Línea de identidad para referencia (y=x)
    min_val = min(np.min(y_true), np.min(y_pred))
    max_val = max(np.max(y_true), np.max(y_pred))
    ax.plot([min_val, max_val], [min_val, max_val], 'r--')
    
    ax.set_title(f"{col}")
    ax.set_xlabel("FEA Simulation (escalado)")
    ax.set_ylabel("Prediction (escalado)")
    
    # Anotar el subplot con las métricas
    ax.text(0.05, 0.95, f"CoP: {cop:.3f}\nR²: {r2:.3f}\nMSE: {mse:.3f}", 
            transform=ax.transAxes, verticalalignment='top',
            bbox=dict(boxstyle="round", facecolor="wheat", alpha=0.5))
    '''
    ax.set_title(
        f"{output}\nR²={r2:.3f}, CoP={cop:.3f}, MSE={mse:.3e}",
        fontsize=14
    )
    '''
    ax.grid(True, linestyle="--", alpha=0.5)

# Eliminar subplots vacíos, si los hay
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

plt.tight_layout()
# Guardar la figura en la carpeta 'Figuras_MOP/(La carpeta que corresponda)'
figure_file = os.path.join(figure_path, f"valores_FEA_vs_valores_predichos.png")
plt.savefig(figure_file, dpi =1080)
plt.close()
# plt.show()

In [15]:
# Función para calcular la correlación (p_ij) usando la fórmula del paper:
def compute_corr(y, x):
    N = len(y)
    mean_y = np.mean(y)
    mean_x = np.mean(x)
    std_y = np.std(y, ddof=1)
    std_x = np.std(x, ddof=1)
    return np.sum((y - mean_y) * (x - mean_x)) / ((N - 1) * std_y * std_x)

In [16]:
# Supongamos que ya tenemos:
# - X_test_scaled: DataFrame con variables de entrada escaladas.
# - Y_test_scaled: DataFrame con variables de salida escaladas.
# - predicciones_test_pls, predicciones_test_lr, predicciones_test_kriging, 
#   predicciones_test_svr, predicciones_test_rf: predicciones de cada modelo en el test.

# Diccionario con las predicciones de cada modelo.
modelos = {
    'PLS': predicciones_test_pls,
    'LR': predicciones_test_lr,
    'GPR': predicciones_test_kriging,
    'SVR': predicciones_test_svr,
    'RF': predicciones_test_rf
}

In [17]:
# -----------------------------------------------------------------------------
# 1. Calcular los valores de p_ij para cada modelo (correlación entre la predicción de cada salida y cada variable de entrada)
# -----------------------------------------------------------------------------
p_values_by_model = {}
for model_name, preds in modelos.items():
    # Utilizamos las predicciones del mejor modelo para la variable de salida 'out'
    # Convertir preds a un array de NumPy en caso de que sea un tuple
    preds = np.asarray(preds)
    
    # Crear un DataFrame con índices = variables de salida y columnas = variables de entrada
    p_matrix = pd.DataFrame(index=Y_test_scaled.columns, columns=X_test_scaled.columns, dtype=float)
    
    # Para cada variable de salida (fila) y cada variable de entrada (columna)
    for i, out_var in enumerate(Y_test_scaled.columns):
        y_pred = preds[:, i]
        for in_var in X_test_scaled.columns:
            x_vals = X_test_scaled[in_var].values
            p_matrix.loc[out_var, in_var] = compute_corr(y_pred, x_vals)
    p_values_by_model[model_name] = p_matrix


In [18]:
def plot_heatmap(matrix, col_labels, row_labels, title, ax=None):
    """
    Dibuja un mapa de calor de la matriz usando seaborn.
    'col_labels' son las etiquetas de las columnas y 'row_labels' las de las filas.
    Si se especifica 'ax', se dibuja en ese subplot; de lo contrario, crea uno nuevo.
    """
    if ax is None:
        fig, ax = plt.subplots()
    sns.heatmap(matrix, annot=True, fmt=".2f", xticklabels=col_labels,
                yticklabels=row_labels, cmap="viridis", ax=ax)
    ax.set_title(title)
    return ax

In [19]:
# Se definen las etiquetas de las variables de entrada y de salida:
features = X_test_scaled.columns.tolist()  # Ej: ['x1::OSD', 'x2::Dint', ...]
outputs = Y_test_scaled.columns.tolist()     # Ej: ['p1::W', 'p4::GFF', ...]

# =============================================================================
# Representar los p₍ᵢⱼ₎ en mapas de calor: filas = variables de entrada, columnas = salidas
# Se genera un heatmap para cada modelo evaluado y se guarda en 'figure_path'
# =============================================================================
for model_name, df in p_values_by_model.items():
    # Nuestro DataFrame 'df' tiene:
    #    index: outputs (variables de salida)
    #    columns: features (variables de entrada)
    # Para que el heatmap tenga filas = features y columnas = outputs, se transpone:
    pij_matrix = df.T.values  # dimensiones: (n_features, n_outputs)
    
    fig, ax = plt.subplots(figsize=(10, 8))
    plot_heatmap(pij_matrix, col_labels=outputs, row_labels=features,
                 title=f"Mapa de calor de p₍ᵢⱼ₎ para {model_name}", ax=ax)
    plt.tight_layout()
    
    # Guardar la figura en la carpeta 'figure_path'
    figure_file = os.path.join(figure_path, f"Mapa_de_calor_pij_{model_name}.png")
    plt.savefig(figure_file, dpi=1080)
    plt.close()
    # Para ver en pantalla, se podría usar plt.show()

In [None]:
# =============================================================================
# Representar el mapa de calor de la matriz de correlación de Pearson (entradas vs salidas)
# =============================================================================
pearson_matrix = np.zeros((len(features), len(outputs)))
for i, feat in enumerate(features):
    for j, out in enumerate(outputs):
        if df[feat].std() == 0 or df[out].std() == 0:
            pearson_matrix[i, j] = np.nan
        else:
            pearson_matrix[i, j] = np.corrcoef(df[feat], df[out])[0, 1]
fig, ax = plt.subplots(figsize=(10, 8))
plot_heatmap(pearson_matrix, col_labels=outputs, row_labels=features,
             title="Matriz de correlación de Pearson (entradas vs salidas)", ax=ax)
plt.tight_layout()
# Guardar la figura en la carpeta 'Figuras_MOP/(La carpeta que corresponda)'
figure_file = os.path.join(figure_path, 'Mapa de calor Pearson.png')
plt.savefig(figure_file, dpi =1080)
plt.close()
# plt.show()

In [37]:
# ------------------------------------------------------------
# 2. Calcular coeficientes de Pearson y generar mapa de calor
# ------------------------------------------------------------

# Concatenar las variables de entrada y las salidas originales escaladas
combined = pd.concat([X_scaled_df, Y_scaled_df], axis=1)
corr_matrix = combined.corr()

# Extraer la submatriz de correlación entre las variables de salida y las de entrada
pearson_matrix = corr_matrix.loc[X_scaled_df.columns, Y_scaled_df.columns]

fig, ax = plt.subplots(figsize=(10, 8))
plot_heatmap(pearson_matrix, col_labels=outputs, row_labels=features,
             title="Matriz de correlación de Pearson (entradas vs salidas)", ax=ax)
plt.tight_layout()
# Guardar la figura en la carpeta 'Figuras_MOP/(La carpeta que corresponda)'
figure_file = os.path.join(figure_path, f"Mapa_de_calor_Pearson.png")
plt.savefig(figure_file, dpi =1080)
plt.close()
# plt.show()