In [1]:
# =============================================================================
# Importación de librerías necesarias
# =============================================================================
import os
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns

In [2]:
# Librerías de preprocesado y modelado de scikit-learn
from sklearn.model_selection import train_test_split, KFold, cross_val_predict, GridSearchCV
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn import set_config
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.cross_decomposition import PLSRegression
from sklearn.svm import SVR
from sklearn.multioutput import MultiOutputRegressor
from sklearn.ensemble import RandomForestRegressor

import warnings

In [3]:
# Para guardar y cargar modelos
import joblib


'''
from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler, RobustScaler
from sklearn.multioutput import MultiOutputRegressor
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

from sklearn.dummy import DummyRegressor
from sklearn.cross_decomposition import PLSRegression
from sklearn.linear_model import LinearRegression
from sklearn.gaussian_process import GaussianProcessRegressor
from sklearn.gaussian_process.kernels import RBF, WhiteKernel, ConstantKernel as C
from sklearn.impute import SimpleImputer, KNNImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.svm import SVR

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA
from sklearn import set_config
from sklearn.preprocessing import StandardScaler
from sklearn.cross_decomposition import PLSRegression
from sklearn.model_selection import train_test_split, GridSearchCV
import joblib

from sklearn.inspection import permutation_importance
from sklearn.exceptions import ConvergenceWarning
'''

In [4]:
# =============================================================================
# 1. CARGA DE DATOS Y PREPARACIÓN DEL DATAFRAME
# =============================================================================
# Definir las rutas base y de las carpetas
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'ML'
db_path = os.path.join(base_path, "DB_ML")
fig_path = os.path.join(base_path, "Figuras_ML")
model_path = os.path.join(base_path, "Modelos_ML")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_200_Optimizado.csv")
print(data_file)

# Ruta al archivo de las figuras
figure_path = os.path.join(fig_path, "200_MOT_Optimizado")
print(figure_path)

# Ruta al archivo de los modelos
modelo_path = os.path.join(model_path, "200_MOT_Optimizado")
print(modelo_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\DB_ML\design_DB_preprocessed_200_Optimizado.csv
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Figuras_ML\200_MOT_Optimizado
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\200_MOT_Optimizado
Archivo cargado exitosamente.


In [5]:
# =============================================================================
# 2. SEPARACIÓN DE VARIABLES
# =============================================================================
# Se separan las columnas según prefijos:
#   - Variables 'x' (inputs principales)
#   - Variables 'm' (otras características del motor)
#   - Variables 'p' (salidas: parámetros a predecir)
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

# Se crea el DataFrame de características y del target. En este ejemplo se usa X (inputs)
# y P (salidas), pero se pueden incluir también las M si así se requiere.
X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()
y = df[P_cols].copy()  # Usamos las columnas p para las predicciones

# Convertir todas las columnas a tipo numérico en caso de haber algún dato no numérico
for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')
for col in y.columns:
    y[col] = pd.to_numeric(y[col], errors='coerce')

print("\nPrimeras filas de X:")
display(X.head())
print("\nPrimeras filas de y (P):")
display(y.head())


print("Columnas de salida originales:", y.columns.tolist())

# Definir un umbral para la varianza
threshold = 1e-8  # Este umbral puede ajustarse según la precisión deseada

# Calcular la varianza de cada columna del DataFrame y
variances = y.var()
print("\nVariancia de cada columna de salida:")
print(variances)

# Seleccionar aquellas columnas cuya varianza es mayor que el umbral
cols_to_keep = variances[variances > threshold].index
y = y[cols_to_keep]

print("\nColumnas de salida tras eliminar las constantes o casi constantes:")
print(y.columns.tolist())


Primeras filas de X:


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh
0,51.69,21.32,25.14,3.04,11.26,3.17,18,4
1,55.385006,21.566435,31.92032,2.741117,10.541636,2.004243,6,6
2,58.660824,24.61077,17.825636,3.236242,11.840792,2.327503,11,8
3,59.74599,22.251184,21.64142,2.75513,13.803262,3.92936,13,5
4,47.005493,25.875113,11.108705,3.487073,5.880454,2.494527,5,8



Primeras filas de y (P):


Unnamed: 0,p1::W,p2::Tnom,p3::nnom,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,0.546655,0.11,3960.0,51.624046,0.623453,3276.9807,80.95138,5060.14,91.475174
1,0.626095,0.11,3960.0,23.672848,0.370497,11313.051,89.63181,10000.0,87.564896
2,0.536246,0.11,3960.0,45.401558,0.556664,8573.148,88.79658,10000.0,90.32792
3,0.586261,0.11,3960.0,36.230183,0.516459,5139.8037,85.65474,7697.3105,91.06665
4,0.285555,0.11,3960.0,58.693073,0.182915,30853.463,89.73517,10000.0,84.311806


Columnas de salida originales: ['p1::W', 'p2::Tnom', 'p3::nnom', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']

Variancia de cada columna de salida:
p1::W         2.100209e-02
p2::Tnom      1.938601e-34
p3::nnom      0.000000e+00
p4::GFF       1.567078e+02
p5::BSP_T     3.339441e-02
p6::BSP_n     2.276515e+07
p7::BSP_Mu    1.254962e+01
p8::MSP_n     4.421692e+06
p9::UWP_Mu    7.493787e+00
dtype: float64

Columnas de salida tras eliminar las constantes o casi constantes:
['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [6]:
# =============================================================================
# 3. DIVISIÓN DE LOS DATOS EN ENTRENAMIENTO Y TEST
# =============================================================================
# Se separa el conjunto de datos en entrenamiento (80%) y test (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
print(f"\nTamaño conjunto entrenamiento: {X_train.shape}, test: {X_test.shape}")


Tamaño conjunto entrenamiento: (122, 8), test: (31, 8)


In [7]:
# =============================================================================
# 3.1. ESCALADO DE LA VARIABLE OBJETIVO (y)
# =============================================================================
# Dado que los modelos son sensibles al escalado y se deben evaluar en el mismo espacio,
# se escala la variable de salida utilizando StandardScaler.
target_scaler = StandardScaler()
y_train_scaled = target_scaler.fit_transform(y_train)
y_test_scaled  = target_scaler.transform(y_test)

In [8]:
# =============================================================================
# 4. CREACIÓN DEL PIPELINE DE PREPROCESAMIENTO
# =============================================================================
# Se define un pipeline para el preprocesado de datos que aplica:
#   a) Escalado (StandardScaler) 
#   b) Análisis PCA (se retiene el 95% de la varianza)
data_pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=0.95, random_state=42)),
])
# Visualizar el pipeline
set_config(display="diagram")
display(data_pipeline)

In [9]:
# =============================================================================
# 5. DEFINICIÓN DE PIPELINES PARA LOS MODELOS
# =============================================================================
# Se establecen los modelos a probar:
#   - Regresión Lineal
#   - PLS (Partial Least Squares)
#   - SVR (Support Vector Regression), envuelto en MultiOutputRegressor para salida multivariable
#   - Random Forest

# Pipeline para Regresión Lineal
pipeline_lr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', LinearRegression())
])

# Pipeline para PLS Regression
pipeline_pls = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', PLSRegression())
])

# Pipeline para SVR: se utiliza MultiOutputRegressor ya que SVR no soporta multi-output
pipeline_svr = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', MultiOutputRegressor(SVR()))
])

# Pipeline para Random Forest (RandomForestRegressor maneja multi-output)
pipeline_rf = Pipeline([
    ('preprocessing', data_pipeline),
    ('model', RandomForestRegressor(random_state=42))
])

# Se agrupan los pipelines en un diccionario para iterar y evaluar fácilmente
pipelines = {
    'LR': pipeline_lr,
    'PLS': pipeline_pls,
    'SVR': pipeline_svr,
    'RF': pipeline_rf
}

# Ejemplo de estructura de uno de los modelos:
# Visualizar el pipeline
set_config(display="diagram")
display(pipeline_pls)

In [10]:
# =============================================================================
# 6. VALIDACIÓN CRUZADA: EVALUACIÓN INICIAL DE MODELOS
# =============================================================================
# Se utilizan 5 particiones (KFold) para evaluar cada modelo mediante Cross Validation.
# las métricas (MSE y R²) usando las variables de salida escaladas.
cv = KFold(n_splits=5, shuffle=True, random_state=42)

# Diccionario para guardar las métricas de cada modelo
metrics_results = {}  

print("\nEvaluación de modelos mediante validación cruzada (sobre y escalado):")

for name, pipe in pipelines.items():
    # Se realizan predicciones en validación cruzada usando y_train_scaled
    y_pred_cv = cross_val_predict(pipe, X_train, y_train_scaled, cv=cv)
    
    # Cálculo de las métricas por cada columna
    mse_columns = mean_squared_error(y_train_scaled, y_pred_cv, multioutput='raw_values')
    r2_columns = r2_score(y_train_scaled, y_pred_cv, multioutput='raw_values')
    
    # Métricas globales (promedio)
    mse_avg = np.mean(mse_columns)
    r2_avg = np.mean(r2_columns)
    
   # Se asocian las métricas a cada etiqueta de la variable de salida usando el mismo orden
    metrics_results[name] = {
        'mse_columns': dict(zip(y_train.columns, mse_columns)),
        'r2_columns': dict(zip(y_train.columns, r2_columns)),
        'mse_avg': mse_avg,
        'r2_avg': r2_avg
    }
    
    print(f"\nModelo {name}:")
    print("  MSE por columna:")
    for col, mse in metrics_results[name]['mse_columns'].items():
        print(f"    {col}: {mse:.6g}")
    print("  R2 por columna:")
    for col, r2 in metrics_results[name]['r2_columns'].items():
        print(f"    {col}: {r2:.6g}")
    print(f"  MSE promedio: {mse_avg:.4f}")
    print(f"  R2 promedio: {r2_avg:.4f}")

# Los valores esperados (según tu resultado) para cada modelo son:
# LR -> MSE_promedio: ~0.3887, R2_promedio: ~0.6113
# PLS -> MSE_promedio: ~0.4771, R2_promedio: ~0.5229
# SVR -> MSE_promedio: ~0.4129, R2_promedio: ~0.5871
# RF -> MSE_promedio: ~0.4149, R2_promedio: ~0.5851


Evaluación de modelos mediante validación cruzada (sobre y escalado):

Modelo LR:
  MSE por columna:
    p1::W: 0.0863757
    p4::GFF: 0.949001
    p5::BSP_T: 0.296466
    p6::BSP_n: 0.271864
    p7::BSP_Mu: 0.18319
    p8::MSP_n: 0.227878
    p9::UWP_Mu: 0.706474
  R2 por columna:
    p1::W: 0.913624
    p4::GFF: 0.0509988
    p5::BSP_T: 0.703534
    p6::BSP_n: 0.728136
    p7::BSP_Mu: 0.81681
    p8::MSP_n: 0.772122
    p9::UWP_Mu: 0.293526
  MSE promedio: 0.3887
  R2 promedio: 0.6113

Modelo PLS:
  MSE por columna:
    p1::W: 0.165274
    p4::GFF: 0.928143
    p5::BSP_T: 0.537048
    p6::BSP_n: 0.290682
    p7::BSP_Mu: 0.224207
    p8::MSP_n: 0.289411
    p9::UWP_Mu: 0.904642
  R2 por columna:
    p1::W: 0.834726
    p4::GFF: 0.0718573
    p5::BSP_T: 0.462952
    p6::BSP_n: 0.709318
    p7::BSP_Mu: 0.775793
    p8::MSP_n: 0.710589
    p9::UWP_Mu: 0.0953581
  MSE promedio: 0.4771
  R2 promedio: 0.5229

Modelo SVR:
  MSE por columna:
    p1::W: 0.19673
    p4::GFF: 0.970378
    p5::B

In [11]:
# =============================================================================
# 7. REPRESENTACIÓN DE RESULTADOS DE LA VALIDACIÓN CRUZADA
# =============================================================================
# Visualización mejorada para validación cruzada:
# 1. Crear un DataFrame resumen con las métricas promedio para cada modelo
summary_cv = pd.DataFrame({
    'Modelo': list(metrics_results.keys()),
    'R2_promedio': [metrics_results[m]['r2_avg'] for m in metrics_results],
    'MSE_promedio': [metrics_results[m]['mse_avg'] for m in metrics_results]
})

# 2. Gráficos de barras para los promedios de R2 y MSE
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de R2 Promedio
bars1 = ax[0].bar(summary_cv['Modelo'], summary_cv['R2_promedio'], color='skyblue')
ax[0].set_title('R2 Promedio (Validación Cruzada)')
ax[0].set_xlabel('Modelo')
ax[0].set_ylabel('R2 Promedio')
ax[0].set_ylim([0, 1])
for bar in bars1:
    yval = bar.get_height()
    ax[0].text(bar.get_x() + bar.get_width()/2, yval + 0.01, f'{yval:.3f}', ha='center', va='bottom')

# Gráfico de MSE Promedio
bars2 = ax[1].bar(summary_cv['Modelo'], summary_cv['MSE_promedio'], color='salmon')
ax[1].set_title('MSE Promedio (Validación Cruzada)')
ax[1].set_xlabel('Modelo')
ax[1].set_ylabel('MSE Promedio')
for bar in bars2:
    yval = bar.get_height()
    ax[1].text(bar.get_x() + bar.get_width()/2, yval + yval*0.01, f'{yval:.1f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# 3. Gráficos de líneas para comparar el desempeño por cada columna de salida.

# Gráfico para R2:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    # Extraemos la lista de nombres de columnas y sus valores de R2
    columns = list(metrics['r2_columns'].keys())
    r2_values = list(metrics['r2_columns'].values())
    # Se usa range(len(columns)) para el eje x y luego se asignan los ticks
    plt.plot(range(len(columns)), r2_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('R2')
plt.title('R2 por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
plt.show()

# Gráfico para MSE:
plt.figure(figsize=(8,5))
for model_name, metrics in metrics_results.items():
    columns = list(metrics['mse_columns'].keys())
    mse_values = list(metrics['mse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MSE')
plt.title('MSE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
plt.show()

In [12]:
# =============================================================================
# 8. HIPERPARAMETRIZACIÓN DE LOS MODELOS
# =============================================================================
# Se definirá una búsqueda en grilla (GridSearchCV) para encontrar los mejores parámetros.
# Para cada modelo se define un espacio de búsqueda. Se omite LR por no tener muchos
# hiperparámetros.

# Diccionario para guardar GridSearchCV ajustado para cada modelo
gridsearch_results = {}

# Parámetros para PLS: solo se ajusta el número de componentes
param_grid_pls = {
    'model__n_components': [2, 3, 4, 5]
}
gs_pls = GridSearchCV(pipeline_pls, param_grid=param_grid_pls, cv=cv, scoring='r2', n_jobs=-1)
gs_pls.fit(X_train, y_train_scaled)
gridsearch_results['PLS'] = gs_pls

print("\nMejores parámetros para PLS:")
print(gs_pls.best_params_)
print(f"Mejor R2 en validación: {gs_pls.best_score_:.4f}")

# Parámetros para SVR: se ajustan C y epsilon
param_grid_svr = {
    'model__estimator__C': [0.1, 1, 10],
    'model__estimator__epsilon': [0.01, 0.1, 1]
}
gs_svr = GridSearchCV(pipeline_svr, param_grid=param_grid_svr, cv=cv, scoring='r2', n_jobs=-1)
gs_svr.fit(X_train, y_train_scaled)
gridsearch_results['SVR'] = gs_svr

print("\nMejores parámetros para SVR:")
print(gs_svr.best_params_)
print(f"Mejor R2 en validación: {gs_svr.best_score_:.4f}")

# Parámetros para Random Forest: se ajustan número de estimadores y profundidad
param_grid_rf = {
    'model__n_estimators': [100, 200],
    'model__max_depth': [None, 5, 10]
}
gs_rf = GridSearchCV(pipeline_rf, param_grid=param_grid_rf, cv=cv, scoring='r2', n_jobs=-1)
gs_rf.fit(X_train, y_train_scaled)
gridsearch_results['RF'] = gs_rf

print("\nMejores parámetros para Random Forest:")
print(gs_rf.best_params_)
print(f"Mejor R2 en validación: {gs_rf.best_score_:.4f}")

# Para LR no se aplica GridSearch por la ausencia de hiperparámetros a ajustar.


Mejores parámetros para PLS:
{'model__n_components': 5}
Mejor R2 en validación: 0.5679

Mejores parámetros para SVR:
{'model__estimator__C': 1, 'model__estimator__epsilon': 0.1}
Mejor R2 en validación: 0.5934

Mejores parámetros para Random Forest:
{'model__max_depth': None, 'model__n_estimators': 200}
Mejor R2 en validación: 0.5634


In [13]:
# =============================================================================
# 9. EVALUACIÓN DE LOS MODELOS AJUSTADOS SOBRE EL CONJUNTO DE TEST
# =============================================================================
# Se evalúan los modelos con mejor hiperparametrización sobre el conjunto de test.
# Se calcularán las métricas finales para cada modelo.

final_metrics = {}

# Creamos un diccionario que asocie cada modelo con su GridSearchCV ajustado (o el pipeline original en el caso de LR)
final_models = {
    'LR': pipeline_lr,   # Sin ajuste hiperparamétrico
    'PLS': gs_pls.best_estimator_,
    'SVR': gs_svr.best_estimator_,
    'RF': gs_rf.best_estimator_
}

print("\nEvaluación final de los modelos en el conjunto de test:")
for name, model in final_models.items():
    # Entrenamos el modelo con X_train y y_train_scaled y predecimos sobre X_test
    model.fit(X_train, y_train_scaled)
    y_pred = model.predict(X_test)
    
    mse_columns = mean_squared_error(y_test_scaled, y_pred, multioutput='raw_values')
    r2_columns = r2_score(y_test_scaled, y_pred, multioutput='raw_values')
    mse_avg = np.mean(mse_columns)
    r2_avg  = np.mean(r2_columns)
    
    final_metrics[name] = {
        'mse_columns': dict(zip(y_test.columns, mse_columns)),
        'r2_columns': dict(zip(y_test.columns, r2_columns)),
        'mse_avg': mse_avg,
        'r2_avg': r2_avg
    }
    
    print(f"\nModelo {name}:")
    print("  MSE por columna:")
    for col, mse in final_metrics[name]['mse_columns'].items():
        print(f"    {col}: {mse:.6g}")
    print("  R2 por columna:")
    for col, r2 in final_metrics[name]['r2_columns'].items():
        print(f"    {col}: {r2:.6g}")
    print(f"  MSE promedio: {mse_avg:.4f}")
    print(f"  R2 promedio: {r2_avg:.4f}")


Evaluación final de los modelos en el conjunto de test:

Modelo LR:
  MSE por columna:
    p1::W: 0.072001
    p4::GFF: 0.962559
    p5::BSP_T: 0.296435
    p6::BSP_n: 0.242496
    p7::BSP_Mu: 0.179433
    p8::MSP_n: 0.281416
    p9::UWP_Mu: 0.639796
  R2 por columna:
    p1::W: 0.911309
    p4::GFF: 0.156087
    p5::BSP_T: 0.696206
    p6::BSP_n: 0.765067
    p7::BSP_Mu: 0.888548
    p8::MSP_n: 0.717298
    p9::UWP_Mu: 0.15098
  MSE promedio: 0.3820
  R2 promedio: 0.6122

Modelo PLS:
  MSE por columna:
    p1::W: 0.0886847
    p4::GFF: 1.01203
    p5::BSP_T: 0.288722
    p6::BSP_n: 0.250448
    p7::BSP_Mu: 0.165469
    p8::MSP_n: 0.26025
    p9::UWP_Mu: 0.621845
  R2 por columna:
    p1::W: 0.890758
    p4::GFF: 0.112718
    p5::BSP_T: 0.70411
    p6::BSP_n: 0.757363
    p7::BSP_Mu: 0.897222
    p8::MSP_n: 0.738561
    p9::UWP_Mu: 0.174802
  MSE promedio: 0.3839
  R2 promedio: 0.6108

Modelo SVR:
  MSE por columna:
    p1::W: 0.0905856
    p4::GFF: 0.8975
    p5::BSP_T: 0.322146
    

In [14]:
# =============================================================================
# 9.1. REPRESENTACIÓN DE RESULTADOS DE LA VALIDACIÓN CRUZADA
# =============================================================================
# Visualización mejorada para validación cruzada:
# 1. Crear un DataFrame resumen con las métricas promedio para cada modelo
summary_cv = pd.DataFrame({
    'Modelo': list(final_metrics.keys()),
    'R2_promedio': [final_metrics[m]['r2_avg'] for m in final_metrics],
    'MSE_promedio': [final_metrics[m]['mse_avg'] for m in final_metrics]
})

# 2. Gráficos de barras para los promedios de R2 y MSE
fig, ax = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de R2 Promedio
bars1 = ax[0].bar(summary_cv['Modelo'], summary_cv['R2_promedio'], color='skyblue')
ax[0].set_title('R2 Promedio (Validación Cruzada)')
ax[0].set_xlabel('Modelo')
ax[0].set_ylabel('R2 Promedio')
ax[0].set_ylim([0, 1])
for bar in bars1:
    yval = bar.get_height()
    ax[0].text(bar.get_x() + bar.get_width()/2, yval + 0.01, f'{yval:.3f}', ha='center', va='bottom')

# Gráfico de MSE Promedio
bars2 = ax[1].bar(summary_cv['Modelo'], summary_cv['MSE_promedio'], color='salmon')
ax[1].set_title('MSE Promedio (Validación Cruzada)')
ax[1].set_xlabel('Modelo')
ax[1].set_ylabel('MSE Promedio')
for bar in bars2:
    yval = bar.get_height()
    ax[1].text(bar.get_x() + bar.get_width()/2, yval + yval*0.01, f'{yval:.1f}', ha='center', va='bottom')

plt.tight_layout()
plt.show()

# 3. Gráficos de líneas para comparar el desempeño por cada columna de salida.

# Gráfico para R2:
plt.figure(figsize=(8,5))
for model_name, metrics in final_metrics.items():
    # Extraemos la lista de nombres de columnas y sus valores de R2
    columns = list(metrics['r2_columns'].keys())
    r2_values = list(metrics['r2_columns'].values())
    # Se usa range(len(columns)) para el eje x y luego se asignan los ticks
    plt.plot(range(len(columns)), r2_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('R2')
plt.title('R2 por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
plt.show()

# Gráfico para MSE:
plt.figure(figsize=(8,5))
for model_name, metrics in final_metrics.items():
    columns = list(metrics['mse_columns'].keys())
    mse_values = list(metrics['mse_columns'].values())
    plt.plot(range(len(columns)), mse_values, marker='o', label=model_name)
plt.xlabel('Columna de salida')
plt.ylabel('MSE')
plt.title('MSE por columna en Validación Cruzada')
plt.xticks(range(len(columns)), columns, rotation=45)
plt.legend()
plt.grid(True)
plt.show()

In [15]:
# =============================================================================
# Definición de un wrapper para desescalar la predicción del target
# =============================================================================
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import r2_score

class DescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para un modelo cuya salida se entrenó sobre y escalado y que, 
    al predecir, se desescala automáticamente usando el target_scaler.
    """
    def __init__(self, estimator, target_scaler):
        self.estimator = estimator  # Modelo previamente entrenado (pipeline)
        self.target_scaler = target_scaler  # Escalador entrenado sobre y_train

    def predict(self, X):
        # Se predice en la escala del target (y escalado)
        y_pred_scaled = self.estimator.predict(X)
        # Se aplica la transformación inversa para recuperar la escala original
        return self.target_scaler.inverse_transform(y_pred_scaled)

    def fit(self, X, y):
        # Aunque el modelo ya esté entrenado, este método permite reentrenarlo
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        # Calcula R² usando las predicciones ya desescaladas
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

In [16]:
# =============================================================================
# Definición de un wrapper para desescalar la predicción del target
# =============================================================================
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.metrics import r2_score

class SingleOutputDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Wrapper para obtener la predicción de un modelo multioutput
    para una variable de salida particular y desescalarla usando el
    target_scaler. Se utiliza el índice de la columna deseada.
    """
    def __init__(self, estimator, target_scaler, col_index):
        self.estimator = estimator            # Modelo multioutput previamente entrenado
        self.target_scaler = target_scaler    # Escalador entrenado sobre y_train
        self.col_index = col_index            # Índice de la variable de salida

    def predict(self, X):
        # Se predice con el modelo multioutput; se obtiene la predicción en escala (2D array)
        y_pred_scaled = self.estimator.predict(X)
        # Se extrae la predicción para la columna de interés
        single_pred_scaled = y_pred_scaled[:, self.col_index]
        # Se recuperan los parámetros del escalador para la columna
        scale_val = self.target_scaler.scale_[self.col_index]
        mean_val = self.target_scaler.mean_[self.col_index]
        # Desescalar manualmente: valor original = valor escalado * escala + media
        y_pred_original = single_pred_scaled * scale_val + mean_val
        return y_pred_original

    def fit(self, X, y):
        # (Opcional) Si se desea reentrenar el modelo, se transforma y y se ajusta
        y_scaled = self.target_scaler.transform(y)
        self.estimator.fit(X, y_scaled)
        return self

    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

In [17]:
from sklearn.base import BaseEstimator, RegressorMixin
import joblib
import numpy as np
import os

# -----------------------------------------------------------------------------
# 1. Selección del mejor modelo para cada variable de salida (por etiqueta)
# -----------------------------------------------------------------------------
# Se asume que:
#   - final_metrics es un diccionario con la evaluación final en test para cada modelo,
#     donde cada entrada (por modelo) es otro diccionario que incluye, entre otras,
#     las métricas por columna en 'r2_columns' (usando las etiquetas originales).
#
#   - final_models es un diccionario que asocia cada nombre de modelo con el pipeline 
#     final ajustado (entrenado con y escalado).
#
#   - target_scaler es el StandardScaler previamente entrenado sobre y_train.
#
#   - y_test es el DataFrame de la variable de salida filtrado (con sus etiquetas originales).

# Obtener la lista de etiquetas de salida según y_test
target_columns = list(y_test.columns)

# Diccionario para almacenar el mejor modelo (wrapper) para cada variable de salida
best_models = {}

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para ver cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in final_metrics.items():
        # Se asume que la clave 'r2_columns' en metrics tiene la métrica para cada etiqueta
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")
    
    # Determinar el índice de la columna en el DataFrame de salida para usarlo en el wrapper.
    # NOTA: Se usa el orden de las columnas en y_test (no se confunde con la posición original previa al filtrado).
    col_index = target_columns.index(col)
    
    # Obtener el modelo final correspondiente
    best_model = final_models[best_model_name_for_col]
    
    # Crear el wrapper SingleOutputDescaledRegressor para la variable 'col'.
    # Este wrapper extrae la predicción de la columna indicada y la desescala.
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    # Guardar el objeto (solo el modelo) en el diccionario usando la etiqueta como llave
    best_models[col] = single_model

# -----------------------------------------------------------------------------
# 2. Definición del modelo unificado que encapsula todos los modelos individuales
# -----------------------------------------------------------------------------
class UnifiedDescaledRegressor(BaseEstimator, RegressorMixin):
    """
    Modelo que encapsula un diccionario de modelos individuales (por variable de salida).
    Cada modelo (del tipo SingleOutputDescaledRegressor) se utiliza para predecir su variable
    de salida correspondiente y se realiza la transformación inversa para retornar el valor original.
    """
    def __init__(self, models):
        """
        :param models: diccionario con llave = etiqueta de salida y valor = SingleOutputDescaledRegressor.
        """
        self.models = models
        # Se conserva el orden de salida en función de las claves del diccionario;
        # se asume que estas claves son exactamente las mismas que aparecen en y_test.
        self.output_columns = list(models.keys())
    
    def predict(self, X):
        preds = []
        # Se predice para cada variable en el orden de self.output_columns
        for col in self.output_columns:
            model = self.models[col]
            pred = model.predict(X)  # cada predicción es un array de forma (n_samples,)
            preds.append(pred)
        # Se combinan las predicciones columna a columna para formar un array (n_samples, n_targets)
        return np.column_stack(preds)
    
    def score(self, X, y):
        from sklearn.metrics import r2_score
        y_pred = self.predict(X)
        return r2_score(y, y_pred, multioutput='uniform_average')

# Crear el modelo unificado utilizando el diccionario de mejores modelos
unified_model = UnifiedDescaledRegressor(best_models)

# -----------------------------------------------------------------------------
# 3. Almacenamiento del modelo unificado en un único archivo
# -----------------------------------------------------------------------------
model_filename = os.path.join(model_path, "mejor_modelo_unificado.joblib")
joblib.dump(unified_model, model_filename)
print(f"\nModelo unificado guardado en: {model_filename}")

Para la variable 'p1::W' el mejor modelo es 'LR' con R2 = 0.9113
Para la variable 'p4::GFF' el mejor modelo es 'SVR' con R2 = 0.2131
Para la variable 'p5::BSP_T' el mejor modelo es 'RF' con R2 = 0.7056
Para la variable 'p6::BSP_n' el mejor modelo es 'SVR' con R2 = 0.7967
Para la variable 'p7::BSP_Mu' el mejor modelo es 'PLS' con R2 = 0.8972
Para la variable 'p8::MSP_n' el mejor modelo es 'SVR' con R2 = 0.8045
Para la variable 'p9::UWP_Mu' el mejor modelo es 'RF' con R2 = 0.3786

Modelo unificado guardado en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\mejor_modelo_unificado.joblib


In [24]:
# -----------------------------------------------------------------------------
# Seleccionar el mejor modelo para cada variable de salida (por etiqueta)
# -----------------------------------------------------------------------------

# Se asume que 'final_metrics' es un diccionario con las métricas finales para cada modelo,
# donde cada valor es otro diccionario que incluye 'r2_columns' (con keys iguales a las etiquetas de y)
# y 'mse_columns'. Asimismo, 'final_models' contiene los modelos finales evaluados.

# Obtener la lista de las etiquetas (nombres) de las variables de salida
target_columns = list(y_test.columns)

best_models_per_output = {}  # Diccionario donde se almacenarán los modelos independientes

for col in target_columns:
    best_model_name_for_col = None
    best_r2_for_col = -np.inf
    # Recorrer cada modelo para determinar cuál tiene el mayor R² para la variable 'col'
    for model_name, metrics in final_metrics.items():
        current_r2 = metrics['r2_columns'][col]
        if current_r2 > best_r2_for_col:
            best_r2_for_col = current_r2
            best_model_name_for_col = model_name
    print(f"Para la variable '{col}' el mejor modelo es '{best_model_name_for_col}' con R2 = {best_r2_for_col:.4f}")

    # Determinar el índice de la columna 'col' en la lista de etiquetas
    col_index = target_columns.index(col)
    # Obtener el modelo final asociado a esa elección
    best_model = final_models[best_model_name_for_col]

    # Crear el wrapper que extrae la predicción para esa variable y aplica el desescalado
    single_model = SingleOutputDescaledRegressor(
                        estimator=best_model,
                        target_scaler=target_scaler,
                        col_index=col_index
                    )
    
    # Almacenar la información en el diccionario
    best_models_per_output[col] = {
         'model_name': best_model_name_for_col,
         'model': single_model,
         'r2': best_r2_for_col,
         'mse': final_metrics[best_model_name_for_col]['mse_columns'][col]
    }
    
    # Guardar en disco el modelo correspondiente para la variable 'col'
    # Se reemplazan caracteres no permitidos en el nombre del archivo
    # file_col = col.replace("::", "_").replace(" ", "_")
    # model_filename = os.path.join(model_path, f"mejor_modelo_{file_col}.joblib")
    # joblib.dump(single_model, model_filename)
    # print(f"Modelo para '{col}' guardado en: {model_filename}")

Para la variable 'p1::W' el mejor modelo es 'LR' con R2 = 0.9113
Para la variable 'p4::GFF' el mejor modelo es 'SVR' con R2 = 0.2131
Para la variable 'p5::BSP_T' el mejor modelo es 'RF' con R2 = 0.7056
Para la variable 'p6::BSP_n' el mejor modelo es 'SVR' con R2 = 0.7967
Para la variable 'p7::BSP_Mu' el mejor modelo es 'PLS' con R2 = 0.8972
Para la variable 'p8::MSP_n' el mejor modelo es 'SVR' con R2 = 0.8045
Para la variable 'p9::UWP_Mu' el mejor modelo es 'RF' con R2 = 0.3786


In [19]:
# =============================================================================
# 10. ALMACENAMIENTO DEL MODELO FINAL "DESESCADO"
# =============================================================================
# Supongamos que, tras la evaluación, se seleccionó el modelo con mejor desempeño en test.
best_model_name = max(final_metrics, key=lambda k: final_metrics[k]['r2_avg'])
best_model = final_models[best_model_name]
print(f"\nEl mejor modelo (en escala de y) es: {best_model_name}")

# Crear el wrapper para que, al predecir, se desescale la salida
final_descaled_model = DescaledRegressor(estimator=best_model, target_scaler=target_scaler)
model_filename = os.path.join(model_path, f"mejor_modelo_{best_model_name}_desesc.joblib")
joblib.dump(final_descaled_model, model_filename)
print(f"\nModelo final guardado (desescado) en: {model_filename}")


El mejor modelo (en escala de y) es: SVR

Modelo final guardado (desescado) en: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\2.ML\Modelos_ML\mejor_modelo_SVR_desesc.joblib


In [20]:
# =============================================================================
# 11. CARGAR EL MODELO GUARDADO Y REALIZAR PREDICCIONES
# =============================================================================
# Al cargar el modelo, se obtendrá una instancia que, al llamar a predict(X),
# realizará internamente el procesamiento (pipeline) sobre X y luego desescalará las predicciones.
loaded_model = joblib.load(model_filename)
y_pred_loaded = loaded_model.predict(X_test)

# Convertir las predicciones a DataFrame usando las mismas etiquetas que y_test
df_pred = pd.DataFrame(y_pred_loaded, columns=y_test.columns, index=y_test.index)

# Mostrar una comparación de predicciones vs. valores reales, utilizando las etiquetas
print("\nEjemplo de predicciones (valores reales vs. predichos):")
for col in y_test.columns:
    print(f"\nColumna: {col}")
    comp_df = pd.DataFrame({
        "Real": y_test[col],
        "Predicho": df_pred[col]
    })
    print(comp_df.head())


Ejemplo de predicciones (valores reales vs. predichos):

Columna: p1::W
         Real  Predicho
84   0.590717  0.579511
86   0.387300  0.459779
97   0.581063  0.633215
115  0.402146  0.439598
29   0.443868  0.427779

Columna: p4::GFF
          Real   Predicho
84   53.619730  46.801987
86   42.407352  43.725747
97   27.203800  41.152310
115  47.153076  46.903080
29   30.807941  39.116954

Columna: p5::BSP_T
         Real  Predicho
84   0.437974  0.451763
86   0.357868  0.394317
97   0.406541  0.520660
115  0.364383  0.375534
29   0.298460  0.331143

Columna: p6::BSP_n
          Real     Predicho
84   4369.8203  4597.965195
86   8763.0950  8876.539596
97   4557.9650  3558.705992
115  6227.3257  6426.025668
29   7064.6396  8359.155104

Columna: p7::BSP_Mu
          Real   Predicho
84   86.005590  85.401865
86   87.871260  87.876666
97   85.485374  83.335021
115  85.548860  84.787341
29   89.379940  88.787338

Columna: p8::MSP_n
           Real     Predicho
84    5498.9110  5296.305977
86

In [25]:
# =============================================================================
# 13. REPRESENTACIÓN DE RESULTADOS: GRÁFICO DE PREDICCIÓN VS REAL
# =============================================================================
# Número de variables de salida a graficar (usando las etiquetas de y_test)
num_vars = len(y_test.columns)
n_cols = 3  # Número deseado de columnas en el subplot (se puede ajustar)
n_rows = math.ceil(num_vars / n_cols)  # Número de filas

plt.figure(figsize=(5 * n_cols, 4 * n_rows))

for idx, col in enumerate(y_test.columns):
    ax = plt.subplot(n_rows, n_cols, idx + 1)
    
    # Graficar scatter de valores reales vs. predichos para la variable 'col'
    ax.scatter(y_test[col], df_pred[col], alpha=0.7)
    
    # Definir los límites para la línea de identidad (diagonal)
    min_val = min(y_test[col].min(), df_pred[col].min())
    max_val = max(y_test[col].max(), df_pred[col].max())
    ax.plot([min_val, max_val], [min_val, max_val], 'r--')
    
    # Recuperar la información del modelo escogido para esa variable
    chosen_model = best_models_per_output[col]['model_name']
    r2_val = best_models_per_output[col]['r2']
    mse_val = best_models_per_output[col]['mse']
    
    # Añadir el texto con el modelo escogido, R² y MSE en la esquina superior izquierda del subplot
    ax.text(0.05, 0.95,
            f"Modelo: {chosen_model}\nR2: {r2_val:.3f}\nMSE: {mse_val:.3g}",
            transform=ax.transAxes,
            fontsize=10,
            verticalalignment='top',
            bbox=dict(facecolor='white', alpha=0.6))
    
    ax.set_xlabel("Valor Real")
    ax.set_ylabel("Valor Predicho")
    ax.set_title(col)

plt.tight_layout()
plt.show()