---------------------------------------------------------------------------------------------------------------------------

## 3. Modelo de Optimización y Prognosis (MOP)

### 3.1. Librerías

In [1]:
# =============================================================================
# Paso 0: Importar librerías y definir funciones auxiliares
# =============================================================================

# Librerías necesarias
import os
import glob
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math
from math import ceil

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

import time
import warnings
warnings.filterwarnings("ignore")

# Para guardar y cargar modelos
import joblib

# Preprocesamiento, modelado y métricas
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.multioutput import MultiOutputRegressor
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.pipeline import Pipeline

from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import LinearRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.inspection import permutation_importance
from sklearn.exceptions import ConvergenceWarning

from skopt import BayesSearchCV
from skopt.space import Real

In [2]:
# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

# Función para calcular la correlación p_ij según la fórmula del paper:
#   p_ij = (1/(N-1)) * Σ[(ŷ(k) - μ_ŷ) * (x_j(k) - μ_xj)] / (σ_ŷ σ_xj)
def compute_corr(y, x):
    N = len(y)
    mean_y = np.mean(y)
    mean_x = np.mean(x)
    std_y = np.std(y, ddof=1)
    std_x = np.std(x, ddof=1)
    return np.sum((y - mean_y) * (x - mean_x)) / ((N - 1) * std_y * std_x)

# Función para dibujar un mapa de calor con seaborn
def plot_heatmap(matrix, col_labels, row_labels, title, ax=None):
    """
    Dibuja un mapa de calor de 'matrix' usando seaborn.
    'col_labels' y 'row_labels' definen las etiquetas de columnas y filas.
    Si se proporciona 'ax', se dibuja en ese subplot; de lo contrario, se crea uno nuevo.
    """
    if ax is None:
        fig, ax = plt.subplots()
    sns.heatmap(matrix, annot=True, fmt=".2f", xticklabels=col_labels,
                yticklabels=row_labels, cmap="viridis", ax=ax)
    ax.set_title(title)
    return ax

# Función auxiliar para calcular el Coefficient of Prognosis (CoP)
def compute_CoP(y_true, y_pred):
    N = len(y_true)
    mean_y = np.mean(y_true)
    mean_y_pred = np.mean(y_pred)
    std_y = np.std(y_true, ddof=1)
    std_y_pred = np.std(y_pred, ddof=1)
    denominator = (N - 1) * std_y * std_y_pred
    if denominator == 0:
        return np.nan
    else:
        return (np.sum((y_true - mean_y) * (y_pred - mean_y_pred)) / denominator) ** 2

# Función para calcular el diccionario de CoP para cada salida y cada modelo
def compute_cop_results(metricas, outputs):
    """
    Genera un diccionario de CoP con la estructura:
      { output1: { 'PLS': cop_value, 'LR': cop_value, ... },
        output2: { 'PLS': cop_value, ... },
        ... }
    Se asume que 'metricas' tiene, para cada modelo, una lista de valores de CoP
    en el mismo orden que 'outputs'.
    """
    cop_results = {}
    for j, output in enumerate(outputs):
        cop_results[output] = {}
        for model_name in metricas.keys():
            cop_results[output][model_name] = metricas[model_name]['CoP'][j]
    return cop_results

# Función para graficar los CoP en subplots y guardar la figura (Paso 8)
def plot_cop_subplots(cop_results, outputs, mejores_modelos, figure_path,
                      filename='CoP_para_cada_modelo.png'):
    """
    Dibuja un subplot por variable de salida mostrando únicamente las barras con CoP
    y acrónimos en el eje x. Resalta con borde rojo el mejor modelo.
    """
    n_out = len(outputs)
    ncols = 3
    nrows = int(np.ceil(n_out / ncols))
    fig, axes = plt.subplots(nrows, ncols, figsize=(12, 6 * nrows))
    axes = axes.flatten()
    for i, output in enumerate(outputs):
        model_names = list(cop_results[output].keys())
        cop_vals = [cop_results[output][m] for m in model_names]
        acronyms = model_names
        ax = axes[i]
        bars = ax.bar(range(len(model_names)), cop_vals)
        # configurar acrónimos como xticklabels
        ax.set_xticks(range(len(model_names)))
        ax.set_xticklabels(acronyms, fontsize=10)
        # resaltar mejor modelo
        best = mejores_modelos[output]
        if best in model_names:
            best_idx = model_names.index(best)
            bars[best_idx].set_edgecolor('red')
            bars[best_idx].set_linewidth(2)
        ax.set_title(f'CoP para {output}', fontsize=12)
        ax.set_ylabel('CoP')
        ax.set_ylim(0, 1)
    # eliminar ejes vacíos
    for j in range(i+1, len(axes)):
        fig.delaxes(axes[j])
    plt.tight_layout()
    out_file = os.path.join(figure_path, filename)
    plt.savefig(out_file, dpi=300)
    plt.close()
    print(f'Paso 8 completado: figura CoP guardada en {out_file}')

In [3]:
# =============================================================================
# Paso 1: Definir rutas, cargar datos y configurar directorios
# =============================================================================
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'MOP'
db_path = os.path.join(base_path, "DB_MOP")
fig_path = os.path.join(base_path, "Figuras_MOP")
model_path = os.path.join(base_path, "Modelos_MOP")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_1000_Uniforme.csv")
print("Ruta de datos:", data_file)

# Ruta donde se guardarán las figuras
figure_path = os.path.join(fig_path, "1000_MOT_Uniforme")
if not os.path.exists(figure_path):
    os.makedirs(figure_path)
print("Ruta de figuras:", figure_path)

# Ruta al archivo de los modelos
modelo_path = os.path.join(model_path, "1000_MOT_Uniforme")
print("Ruta de modelos:", modelo_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

Ruta de datos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\DB_MOP\design_DB_preprocessed_1000_Uniforme.csv
Ruta de figuras: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\1000_MOT_Uniforme
Ruta de modelos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Modelos_MOP\1000_MOT_Uniforme
Archivo cargado exitosamente.


In [4]:
# =============================================================================
# Paso 2: Preprocesar datos: separar columnas en X, M, P y convertir a numérico
# =============================================================================
# Se separan las columnas según prefijos:
#   - Variables 'x' (inputs principales)
#   - Variables 'm' (otras características del motor)
#   - Variables 'p' (salidas: parámetros a predecir)
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

# Se crea el DataFrame de características y del target. En este ejemplo se usa X (inputs)
# y P (salidas), pero se pueden incluir también las M si así se requiere.
X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()
y = df[P_cols].copy()  # Usamos las columnas p para las predicciones

# Convertir todas las columnas a tipo numérico en caso de haber algún dato no numérico
for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')
for col in y.columns:
    y[col] = pd.to_numeric(y[col], errors='coerce')

# Concatena las matrices X y M
X_M = pd.concat([X, M], axis=1)

print("\nPrimeras filas de X:")
display(X.head())
print("\nPrimeras filas de y (P):")
display(y.head())

print("Columnas de salida originales:", y.columns.tolist())

# Definir un umbral para la varianza
threshold = 1e-8  # Este umbral puede ajustarse según la precisión deseada

# Calcular la varianza de cada columna del DataFrame y
variances = y.var()
print("\nVariancia de cada columna de salida:")
print(variances)

# Seleccionar aquellas columnas cuya varianza es mayor que el umbral
cols_to_keep = variances[variances > threshold].index
y = y[cols_to_keep]

# Filtrar las filas del DataFrame y para eliminar aquellas que contienen NaN
y = y.dropna()  # Se eliminan todas las filas con al menos un valor NaN en y
# Actualizar X para que quede alineado con los índices de y
X = X.loc[y.index]

print("\nColumnas de salida tras eliminar las constantes o casi constantes:")
print(y.columns.tolist())


Primeras filas de X:


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
0,48.6,27.864,14.8,2.780311,6.312467,4.392325,6,4
1,59.4,24.056,29.2,2.121244,10.249868,2.569301,12,3
2,54.72,32.0528,22.960001,2.456926,7.797124,2.123813,18,3
3,48.84,21.9616,25.12,3.032072,6.972909,2.557345,14,3
4,59.76,27.1024,29.680002,3.249535,8.141503,4.802138,10,3



Primeras filas de y (P):


Unnamed: 0,p1::W,p2::Tnom,p3::nnom,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,0.322074,0.11,3960.0,40.082718,0.170606,17113.234,90.763855,18223.32,86.13815
1,0.674799,0.11,3960.0,24.67578,0.412852,4913.548,87.07682,5737.1406,88.79988
2,0.535554,0.11,3960.0,42.65237,0.538189,3806.537,83.929474,4325.1235,83.40234
3,0.487619,0.11,3960.0,57.017277,0.38092,5161.0967,87.04031,6293.4336,91.34349
4,0.749844,0.11,3960.0,37.44487,0.429127,4961.4146,89.36369,5615.511,91.807846


Columnas de salida originales: ['p1::W', 'p2::Tnom', 'p3::nnom', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']

Variancia de cada columna de salida:
p1::W         2.413512e-02
p2::Tnom      1.928477e-34
p3::nnom      0.000000e+00
p4::GFF       1.228099e+02
p5::BSP_T     5.206690e-02
p6::BSP_n     2.567653e+07
p7::BSP_Mu    6.758214e+00
p8::MSP_n     3.054785e+07
p9::UWP_Mu    1.010653e+01
dtype: float64

Columnas de salida tras eliminar las constantes o casi constantes:
['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [5]:
# =============================================================================
# Paso 3: División de los datos en entrenamiento y test y escalado de y
# =============================================================================
model_names = ['PLS','LR','GPR','SVR','RF','ANN','ANN-K']  
salidas = y.columns.tolist()
entradas = X.columns.tolist()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# escalar y
target_scaler = StandardScaler()
y_scaled = target_scaler.fit_transform(y)
y_test_scaled  = target_scaler.transform(y_test)

# =============================================================================
# Paso 6: Cargar modelos almacenados
# =============================================================================
model_files = glob.glob(os.path.join(modelo_path, "*.joblib"))
modelos = {}
for f in model_files:
    name = os.path.splitext(os.path.basename(f))[0]
    modelos[name] = joblib.load(f)
    name = model_names

#name = ['PLS','LR','GPR','SVR','RF','ANN','ANN-K'] 
print(f'Modelos cargados: {list(modelos.keys())}')

Modelos cargados: ['ANN-K', 'ANN', 'GPR', 'LR', 'PLS', 'RF', 'SVR']


In [6]:
# =============================================================================
# Paso 7: Calcular métricas (MSE, RMSE, MAE, R2, CoP) para cada modelo
# =============================================================================
metric_results = {}
for name, model in modelos.items():
    # predecir (salida escalada)
    y_pred_scaled = model.predict(X)
    # invertir escala
    y_pred = target_scaler.inverse_transform(y_pred_scaled)
    # inicializar listas
    MSE, RMSE, MAE, R2, CoP = [], [], [], [], []
    for j in range(len(salidas)):
        y_true = y_scaled[:, j]
        y_p = y_pred_scaled[:, j]
        mse = mean_squared_error(y_true, y_p)
        rmse = np.sqrt(mse)
        mae = mean_absolute_error(y_true, y_p)
        r2  = r2_score(y_true, y_p)
        cop = compute_CoP(y_true, y_p)
        MSE.append(mse)
        RMSE.append(rmse)
        MAE.append(mae)
        R2.append(r2)
        CoP.append(cop)
    metric_results[name] = {'MSE': MSE, 'RMSE': RMSE,
                            'MAE': MAE, 'R2': R2, 'CoP': CoP}
print('Paso 7 completado: métricas calculadas para cada modelo.')

Paso 7 completado: métricas calculadas para cada modelo.


In [7]:
# =============================================================================
# Paso 7.1: Representar métricas como gráficos de barras (subplot por métrica)
# =============================================================================
# preparar DataFrames
df_mse  = pd.DataFrame({m: metric_results[m]['MSE']  for m in metric_results}, index=salidas)
df_rmse = pd.DataFrame({m: metric_results[m]['RMSE'] for m in metric_results}, index=salidas)
df_mae  = pd.DataFrame({m: metric_results[m]['MAE']  for m in metric_results}, index=salidas)
_df_r2  = pd.DataFrame({m: metric_results[m]['R2']   for m in metric_results}, index=salidas)

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
for ax, df, title in zip(axes.flatten(),
                         [df_mse, df_rmse, df_mae, _df_r2],
                         ['MSE','RMSE','MAE','R²']):
    df.plot.bar(ax=ax)
    ax.set_title(title)
    ax.set_xlabel('Variable de salida')
    ax.legend(title='Modelos')
    ax.tick_params(axis='x', rotation=45)
plt.tight_layout()
plt.savefig(os.path.join(figure_path, 'Metricas_modelos.png'), dpi=300)
plt.close()
print('Paso 7.1 completado: gráficas de métricas guardadas.')

Paso 7.1 completado: gráficas de métricas guardadas.


In [8]:
# =============================================================================
# Paso 8: Representar gráficamente los CoP para cada modelo y salida
# =============================================================================
# Construir DataFrame de CoP
df_cop = pd.DataFrame({m: metric_results[m]['CoP'] for m in metric_results}, index=salidas)
mejores_modelos = df_cop.idxmax(axis=1)
valores_cop = df_cop.max(axis=1)
# Asumimos que `metric_results` y `salidas` y `mejores_modelos` están definidos
cop_dict = {out: {m: metric_results[m]['CoP'][i]
                   for m in metric_results}
            for i, out in enumerate(salidas)}
plot_cop_subplots(cop_dict, salidas, mejores_modelos, figure_path)

Paso 8 completado: figura CoP guardada en C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\3.MOP\Figuras_MOP\1000_MOT_Uniforme\CoP_para_cada_modelo.png


In [9]:
# =============================================================================
# Paso 9: Seleccionar el mejor modelo (mayor CoP) para cada variable de salida
# =============================================================================
# Construir DataFrame de CoP
df_cop = pd.DataFrame({m: metric_results[m]['CoP'] for m in metric_results}, index=salidas)
mejores_modelos = df_cop.idxmax(axis=1)
valores_cop = df_cop.max(axis=1)

print('Paso 9: Mejor modelo y CoP por variable de salida:')
for salida in salidas:
    print(f"{salida}: Modelo = {mejores_modelos[salida]}, CoP = {valores_cop[salida]:.3f}")

Paso 9: Mejor modelo y CoP por variable de salida:
p1::W: Modelo = GPR, CoP = 1.000
p4::GFF: Modelo = GPR, CoP = 0.999
p5::BSP_T: Modelo = GPR, CoP = 1.000
p6::BSP_n: Modelo = GPR, CoP = 0.995
p7::BSP_Mu: Modelo = GPR, CoP = 0.981
p8::MSP_n: Modelo = GPR, CoP = 0.996
p9::UWP_Mu: Modelo = SVR, CoP = 0.983


In [10]:
# =============================================================================
# Paso 10: Calcular y representar mapas de calor de p₍ᵢⱼ₎ (impacto X→ŷ)
# =============================================================================
# construir matriz pij
pij = np.zeros((len(entradas), len(salidas)))
for j, salida in enumerate(salidas):
    modelo_best = modelos[mejores_modelos[salida]]
    y_pred = target_scaler.inverse_transform(modelo_best.predict(X))[:, j]
    for i, entrada in enumerate(entradas):
        pij[i, j] = compute_corr(y_pred, X[entrada].values)

plot_heatmap(pij, col_labels=salidas, row_labels=entradas,
             title='Mapa de calor: p_ij (impacto)', ax=None)
plt.savefig(os.path.join(figure_path, 'Mapa_Impacto_pij.png'), dpi=300)
plt.close()
print('Paso 10 completado: mapa de calor p_ij guardado.')

Paso 10 completado: mapa de calor p_ij guardado.


In [11]:
# =============================================================================
# Paso 13: Correlación de Pearson (entradas vs salidas) y mapa de calor
# =============================================================================
corr_mat = pd.concat([X, y], axis=1).corr()
corr_Xy   = corr_mat.loc[entradas, salidas].values
plot_heatmap(corr_Xy, col_labels=salidas, row_labels=entradas,
             title='Correlación Pearson X vs Y')
plt.savefig(os.path.join(figure_path, 'Correlacion_X_Y.png'), dpi=300)
plt.close()
print('Paso 13 completado: mapa de calor de correlación Pearson guardado.')

Paso 13 completado: mapa de calor de correlación Pearson guardado.


In [12]:
# =============================================================================
# 11. CARGAR EL MODELO GUARDADO Y REALIZAR PREDICCIONES
# =============================================================================
# Al cargar el modelo, se obtendrá una instancia que, al llamar a predict(X),
# realizará internamente el procesamiento (pipeline) sobre X y luego desescalará las predicciones.
model_filename = os.path.join(modelo_path, f"Modelo_Entrenamiento_Desescalado.joblib")

# Se buscan todos los ficheros del modelo que tengan extensión .pkl
# (Suponemos que los modelos fueron guardados con joblib)
model_files = glob.glob(os.path.join(modelo_path, "*.joblib"))
print(f"Se han encontrado {len(model_files)} ficheros de modelo.")

# Leer y almacenar cada modelo en un diccionario. Se usa el nombre del fichero (sin extensión) como clave.
modelos = {}
for file in model_files:
    modelo_nombre = os.path.splitext(os.path.basename(file))[0]
    modelos[modelo_nombre] = joblib.load(file)
    print(f"Modelo {modelo_nombre} cargado exitosamente.")

# =============================================================================
# PASO B: CALCULAR LAS PREDICCIONES DE CADA MODELO
# =============================================================================
# Se asume que la variable de entrada (X) ya fue leída, preprocesada y está definida.
# Por ejemplo, X es el DataFrame de features (ver secciones anteriores de la plantilla).

# Inicializar un diccionario para almacenar las predicciones de cada modelo.
predicciones = {}

for nombre_modelo, modelo in modelos.items():
    # Recordar: cada modelo ha sido guardado con su pipeline (con escalado, etc.)
    # Se utiliza el método predict() del modelo para calcular la salida para los datos de entrada X.
    y_pred = modelo.predict(X)
    predicciones[nombre_modelo] = y_pred
    print(f"Predicción realizada para el modelo: {nombre_modelo}")

from sklearn.preprocessing import StandardScaler

# Creamos y ajustamos el escalador sobre y completo (o solo sobre entrenamiento)
target_scaler = StandardScaler()
y_scaled = target_scaler.fit_transform(y.values)  # shape (n_samples, n_outputs)

Se han encontrado 7 ficheros de modelo.
Modelo ANN-K cargado exitosamente.
Modelo ANN cargado exitosamente.
Modelo GPR cargado exitosamente.
Modelo LR cargado exitosamente.
Modelo PLS cargado exitosamente.
Modelo RF cargado exitosamente.
Modelo SVR cargado exitosamente.
Predicción realizada para el modelo: ANN-K
Predicción realizada para el modelo: ANN
Predicción realizada para el modelo: GPR
Predicción realizada para el modelo: LR
Predicción realizada para el modelo: PLS
Predicción realizada para el modelo: RF
Predicción realizada para el modelo: SVR


In [13]:
# =============================================================================
# PASO C: CÁLCULO DEL Coefficient of Prognosis (CoP) PARA CADA MODELO Y VARIABLE DE SALIDA
# =============================================================================
# Se asume que:
#   - y es el DataFrame con las salidas reales (P) (previamente preparado, con eliminación de NaN y columnas casi constantes).
#   - La función compute_CoP(y_true, y_pred) se encuentra definida en la plantilla.
#   - Las columnas de salida se extraen, por ejemplo:
salidas = y.columns.tolist()  # ej.: ['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']

# Crear un diccionario para almacenar los resultados de CoP.
cop_resultados = {}  # Estructura: { modelo1: [cop_p1, cop_p2, ...], modelo2: [...] }
for nombre_modelo, y_pred in predicciones.items():
    # Se inicializa una lista para los valores CoP correspondientes a cada salida.
    cop_por_modelo = []
    # Para cada variable de salida, calcular CoP comparando valores reales y predichos.
    for j, variable in enumerate(salidas):
        # Nota: se asume que y_pred tiene forma (n_samples, n_salidas)
        cop_valor = compute_CoP(y_scaled[:, j], y_pred[:, j])
        cop_por_modelo.append(cop_valor)
        print(f"Modelo: {nombre_modelo}, Variable: {variable}, CoP: {cop_valor:.4f}")
    cop_resultados[nombre_modelo] = cop_por_modelo

# =============================================================================
# PASO D: SELECCIÓN DEL MEJOR MODELO POR CADA VARIABLE DE SALIDA
# =============================================================================
# Se organiza la información en un DataFrame donde cada fila es una variable de salida
# y cada columna representa un modelo.
import pandas as pd
df_cop = pd.DataFrame(cop_resultados, index=salidas)
print("\nTabla de CoP para cada modelo y variable de salida:")
print(df_cop)

# Para cada variable de salida se escoge el modelo que tenga el mayor CoP.
mejores_modelos = df_cop.idxmax(axis=1)
print("\nMejor modelo por cada variable de salida:")
print(mejores_modelos)

Modelo: ANN-K, Variable: p1::W, CoP: 0.9978
Modelo: ANN-K, Variable: p4::GFF, CoP: 0.9820
Modelo: ANN-K, Variable: p5::BSP_T, CoP: 0.9869
Modelo: ANN-K, Variable: p6::BSP_n, CoP: 0.9823
Modelo: ANN-K, Variable: p7::BSP_Mu, CoP: 0.9497
Modelo: ANN-K, Variable: p8::MSP_n, CoP: 0.9829
Modelo: ANN-K, Variable: p9::UWP_Mu, CoP: 0.9424
Modelo: ANN, Variable: p1::W, CoP: 0.9978
Modelo: ANN, Variable: p4::GFF, CoP: 0.9820
Modelo: ANN, Variable: p5::BSP_T, CoP: 0.9869
Modelo: ANN, Variable: p6::BSP_n, CoP: 0.9823
Modelo: ANN, Variable: p7::BSP_Mu, CoP: 0.9497
Modelo: ANN, Variable: p8::MSP_n, CoP: 0.9829
Modelo: ANN, Variable: p9::UWP_Mu, CoP: 0.9424
Modelo: GPR, Variable: p1::W, CoP: 1.0000
Modelo: GPR, Variable: p4::GFF, CoP: 0.9990
Modelo: GPR, Variable: p5::BSP_T, CoP: 0.9998
Modelo: GPR, Variable: p6::BSP_n, CoP: 0.9946
Modelo: GPR, Variable: p7::BSP_Mu, CoP: 0.9811
Modelo: GPR, Variable: p8::MSP_n, CoP: 0.9956
Modelo: GPR, Variable: p9::UWP_Mu, CoP: 0.9772
Modelo: LR, Variable: p1::W, CoP

In [14]:
# =============================================================================
# PASO E: CÁLCULO DE LOS PARÁMETROS p_ij Y MAPA DE CALOR DEL IMPACTO DE LAS VARIABLES DE ENTRADA
# =============================================================================
# Se usa la función compute_corr(y, x) definida en la plantilla para calcular p_ij:
# p_ij = (1/(N-1)) * Σ[(ŷ(k) - μ_ŷ)*(x_j(k) - μ_xj)] / (σ_ŷ σ_xj)
#
# Se decide calcular p_ij usando el modelo seleccionado (el mejor para cada salida).
# Para cada variable de salida, se tomarán las predicciones del mejor modelo y se calculará la correlación
# entre esas predicciones y cada una de las variables de entrada.
entradas = X.columns.tolist()  # Variables de entrada X

# Inicializar la matriz de pij donde filas corresponden a cada variable de entrada y columnas a cada salida.
pij = np.zeros((len(entradas), len(salidas)))

for j, variable_salida in enumerate(salidas):
    # Seleccionar el nombre del mejor modelo para esta salida
    mejor_modelo_nombre = mejores_modelos[variable_salida]
    # Obtener la predicción para la variable de salida j usando dicho modelo
    y_pred_mejor = predicciones[mejor_modelo_nombre][:, j]
    # Para cada variable de entrada, calcular el coeficiente p_ij.
    for i, variable_entrada in enumerate(entradas):
        pij[i, j] = compute_corr(y_pred_mejor, X[variable_entrada].values)
        # Se imprime el valor para seguimiento (opcional)
        # print(f"p_ij para entrada {variable_entrada} y salida {variable_salida}: {pij[i,j]:.4f}")

# Generar el mapa de calor usando la función plot_heatmap definida en la plantilla.
# Esta función requiere la matriz, etiquetas de columnas (salidas) y de filas (entradas).
plot_heatmap(pij, col_labels=salidas, row_labels=entradas, title="Mapa de calor: Impacto de X sobre p_ij")
plt.show()

In [15]:
# =============================================================================
# PASO F: VALIDACIÓN DEL MODELO COMPARANDO CON LAS SALIDAS (P) REALES
# =============================================================================
# Se pueden utilizar métricas como MSE, R2, MAE, etc. Para efectos de ejemplo se muestra MSE y R2.
from sklearn.metrics import mean_squared_error, r2_score

metricas_validacion = {}  # Guardar resultados para cada modelo evaluado

for nombre_modelo, y_pred in predicciones.items():
    y_pred_orig = target_scaler.inverse_transform(predicciones[nombre_modelo])
    mse = mean_squared_error(y, y_pred_orig)
    r2 = r2_score(y, y_pred_orig)
    metricas_validacion[nombre_modelo] = {"MSE": mse, "R2": r2}
    print(f"Validación - Modelo: {nombre_modelo} --> MSE: {mse:.4f}, R2: {r2:.4f}")

# Además, se puede graficar la comparación entre la salida real y la predicha para alguna variable.
# Por ejemplo, para la variable 'p1::W', se emplea el mejor modelo seleccionado.
modelo_p1 = mejores_modelos['p9::UWP_Mu']
y_pred_p1 = target_scaler.inverse_transform(predicciones[modelo_p1])[:, salidas.index('p1::W')]

plt.figure()
plt.scatter(y['p1::W'], y_pred_p1, alpha=0.6)
plt.xlabel("Valor Real de p1::W")
plt.ylabel("Valor Predicho de p1::W")
plt.title(f"Comparación para p1::W - Mejor Modelo: {modelo_p1}")
# Línea de igualdad para referencia
plt.plot([y['p1::W'].min(), y['p1::W'].max()],
         [y['p1::W'].min(), y['p1::W'].max()], color='red', linestyle='--')
# Añadir texto con métricas y modelo
texto = f"Modelo: {modelo_p1}\nMSE: {mse:.3f}\nR²: {r2:.3f}"
# Colocar el texto en la esquina superior izquierda del gráfico
plt.text(0.05, 0.95, texto,
         transform=plt.gca().transAxes,
         fontsize=12, verticalalignment='top',
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.7))
plt.show()

Validación - Modelo: ANN-K --> MSE: 148629.3065, R2: 0.9741
Validación - Modelo: ANN --> MSE: 148629.3065, R2: 0.9741
Validación - Modelo: GPR --> MSE: 40579.8052, R2: 0.9922
Validación - Modelo: LR --> MSE: 1349425.2583, R2: 0.7932
Validación - Modelo: PLS --> MSE: 1353022.2232, R2: 0.7925
Validación - Modelo: RF --> MSE: 195356.2743, R2: 0.9329
Validación - Modelo: SVR --> MSE: 49451.0006, R2: 0.9917


In [16]:
# Elegimos la variable y el índice correspondiente
var = 'p1::W'
j = salidas.index(var)

# Nombre del mejor modelo para esta variable
modelo_p1 = mejores_modelos[var]

# Predicción en escala original
y_pred_scaled = predicciones[modelo_p1][:, j].reshape(-1, 1)
y_pred_orig = target_scaler.inverse_transform(predicciones[nombre_modelo])
y_pred_orig  = target_scaler.inverse_transform(
    np.hstack([np.zeros((len(y_pred_scaled), y.shape[1] - 1)), 
               y_pred_scaled, 
               np.zeros((len(y_pred_scaled), 0))])  # ajuste para igualar dims
)[:, j]

# Cálculo de métricas en unidades originales
mse = mean_squared_error(y[var], y_pred_orig)
r2  = r2_score(y[var], y_pred_orig)

# Gráfico de dispersión con anotaciones
plt.figure(figsize=(8, 6))
plt.scatter(y[var], y_pred_orig, alpha=0.6, label='Predicción vs Real')
plt.plot([y[var].min(), y[var].max()],
         [y[var].min(), y[var].max()],
         color='red', linestyle='--', label='Línea 1:1')

# Añadir texto con métricas y modelo
texto = f"Modelo: {modelo_p1}\nMSE: {mse:.3f}\nR²: {r2:.3f}"
# Colocar el texto en la esquina superior izquierda del gráfico
plt.text(0.05, 0.95, texto,
         transform=plt.gca().transAxes,
         fontsize=12, verticalalignment='top',
         bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.7))

plt.xlabel(f"Valor Real de {var}")
plt.ylabel(f"Valor Predicho de {var}")
plt.title(f"Comparación Real vs Predicho para {var}")
plt.legend()
plt.tight_layout()
plt.show()

In [17]:
# =============================================================================
# Paso 7: Calcular métricas (MSE, RMSE, MAE, R2, CoP) para cada modelo
# =============================================================================


In [18]:
# =============================================================================
# Paso 7.1: Representar métricas como gráficos de barras (subplot por métrica) para cada variable de salida
# =============================================================================


In [19]:
# =============================================================================
# Paso 8: Representar gráficamente los CoP para cada modelo y salida
# =============================================================================


In [20]:
# =============================================================================
# Paso 9: Seleccionar el mejor modelo (mayor CoP) para cada variable de salida
# =============================================================================


In [21]:
# =============================================================================
# Paso 10: Calcular y representar mapas de calor de p₍ᵢⱼ₎ (correlación entre predicción y variables de entrada)
# =============================================================================


In [22]:
# =============================================================================
# Paso 13: Calcular y representar el mapa de calor de la correlación de Pearson (entradas vs salidas)
# =============================================================================


In [23]:
# =============================================================================
# Fin del código
# =============================================================================
print("Ejecución completada.")

Ejecución completada.
