In [1]:
# Librerías necesarias
import os
import re  # Import the regular expression module

import pandas as pd
import numpy as np
import math
from math import ceil

import matplotlib
matplotlib.use('TKAgg')
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

import warnings

import pickle

from sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScaler, MinMaxScaler, RobustScaler

In [2]:
# =============================================================================
# Paso 1: Definir rutas, cargar datos y configurar directorios
# =============================================================================
base_path = os.getcwd()  # Se asume que el notebook se ejecuta desde la carpeta 'MOP'
db_path = os.path.join(base_path, "DB_MOP")
fig_path = os.path.join(base_path, "Figuras_MOP")
model_path = os.path.join(base_path, "Modelos_MOP")

# Ruta al archivo de la base de datos
data_file = os.path.join(db_path, "design_DB_preprocessed_400_Optimizado.csv")
print("Ruta de datos:", data_file)

# Ruta donde se guardarán las figuras
figure_path = os.path.join(fig_path, "400_MOT_Optimizado")
if not os.path.exists(figure_path):
    os.makedirs(figure_path)
print("Ruta de figuras:", figure_path)

# Ruta al archivo de los modelos
model_path = os.path.join(model_path, "400_MOT_Optimizado")
print(model_path)
print("Ruta de modelos:", model_path)

# Lectura del archivo CSV
try:
    df = pd.read_csv(data_file)
    print("Archivo cargado exitosamente.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Revisa la ruta del archivo.")
except pd.errors.ParserError:
    print("Error: Problema al analizar el archivo CSV. Revisa el formato del archivo.")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

# Función para limpiar nombres de archivo inválidos
def clean_filename(name):
    return re.sub(r'[\\/*?:"<>|]', "_", name)

Ruta de datos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\4.DBG\DB_MOP\design_DB_preprocessed_400_Optimizado.csv
Ruta de figuras: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\4.DBG\Figuras_MOP\400_MOT_Optimizado
C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\4.DBG\Modelos_MOP\400_MOT_Optimizado
Ruta de modelos: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\4.DBG\Modelos_MOP\400_MOT_Optimizado
Archivo cargado exitosamente.


In [3]:
# =============================================================================
# Paso 2: Preprocesar datos: separar columnas en X, M, P y convertir a numérico
# =============================================================================
X_cols = [col for col in df.columns if col.startswith('x')]
M_cols = [col for col in df.columns if col.startswith('m')]
P_cols = [col for col in df.columns if col.startswith('p')]

X = df[X_cols].copy()
M = df[M_cols].copy()
P = df[P_cols].copy()

for col in X.columns:
    X[col] = pd.to_numeric(X[col], errors='coerce')
for col in M.columns:
    M[col] = pd.to_numeric(M[col], errors='coerce')
for col in P.columns:
    P[col] = pd.to_numeric(P[col], errors='coerce')

In [4]:
# =============================================================================
# Paso 3: Seleccionar variables de entrada y salida
# =============================================================================
# Las variables de salida se toman de P; se eliminan 'p2::Tnom' y 'p3::nnom' si existen.
outputs = [col for col in P.columns]
if 'p2::Tnom' in outputs:
    outputs.remove('p2::Tnom')
if 'p3::nnom' in outputs:
    outputs.remove('p3::nnom')

# Las variables de entrada se obtienen concatenando X y M.
X_M = pd.concat([X, M], axis=1)
features = list(X_M.columns)
print("Variables de entrada:", features)
print("Variables de salida:", outputs)

# Redefinir X y Y usando los nombres de columnas seleccionados
X = df[features]
Y = df[outputs]

Variables de entrada: ['x1::OSD', 'x2::Dint', 'x3::L', 'x4::tm', 'x5::hs2', 'x6::wt', 'x7::Nt', 'x8::Nh', 'm1::Drot', 'm2::Dsh', 'm3::he', 'm4::Rmag', 'm5::Rs', 'm6::GFF']
Variables de salida: ['p1::W', 'p4::GFF', 'p5::BSP_T', 'p6::BSP_n', 'p7::BSP_Mu', 'p8::MSP_n', 'p9::UWP_Mu']


In [5]:
# =============================================================================
# Paso 4: Generar 10,000 nuevos motores a partir de los rangos de entrada
# =============================================================================
# Guardamos los valores máximos y mínimos
X_min = df[features].min()
X_max = df[features].max()

n_samples = 10000
# Generar nuevos motores de forma uniforme dentro de los rangos observados
X_new = pd.DataFrame({col: np.random.uniform(low=X_min[col], high=X_max[col], size=n_samples) 
                      for col in features})

In [6]:
# =============================================================================
# Paso 5: Escalado de datos
# =============================================================================
scaler_X = StandardScaler()
X_scaled = scaler_X.fit_transform(X_new)
scaler_Y = StandardScaler()
Y_scaled = scaler_Y.fit_transform(Y)


# Crear DataFrames escalados completos (para reentrenamiento final y predicciones)
X_scaled_df = pd.DataFrame(scaler_X.transform(X_new), columns=X_new.columns, index=X_new.index)
Y_scaled_df = pd.DataFrame(scaler_Y.transform(Y), columns=Y.columns, index=Y.index)


In [7]:
# -----------------------------------------------------------------------------
# Definir una clase que encapsule el ensemble de los mejores modelos
# -----------------------------------------------------------------------------
class BestModelEnsemble:
    def __init__(self, model_dict, outputs):
        """
        model_dict: Diccionario que mapea cada variable de salida a una tupla (modelo, índice)
                    donde 'modelo' es el mejor modelo para esa salida y 'índice' es la posición
                    de esa salida en el vector de predicción que produce ese modelo.
        outputs: Lista de nombres de variables de salida, en el orden deseado.
        """
        self.model_dict = model_dict
        self.outputs = outputs

    def predict(self, X):
        """
        Realiza la predicción para cada variable de salida usando el modelo asignado.
        Se espera que cada modelo tenga un método predict que devuelva un array de
        dimensiones (n_samples, n_outputs_model). Si el modelo es univariable, se asume
        que devuelve un array 1D.
        
        :param X: Datos de entrada (array o DataFrame) con la forma (n_samples, n_features).
        :return: Array con la predicción para todas las variables de salida, forma (n_samples, n_outputs).
        """
        n_samples = X.shape[0]
        n_outputs = len(self.outputs)
        preds = np.zeros((n_samples, n_outputs))
        
        # Iterar sobre cada variable de salida
        for output in self.outputs:
            model, idx = self.model_dict[output]
            model_pred = model.predict(X)
            # Si el modelo es univariable, model_pred es 1D; de lo contrario, es 2D
            if model_pred.ndim == 1:
                preds[:, self.outputs.index(output)] = model_pred
            else:
                preds[:, self.outputs.index(output)] = model_pred[:, idx]
        return preds

In [13]:
# =============================================================================
# Paso 6: Preprocesar los nuevos datos con el mismo escalador usado en entrenamiento
# =============================================================================
# Definir la ruta del archivo del ensemble (se asume que figure_path ya está definido)
ensemble_file = os.path.join(model_path, "best_model_ensemble.pkl")
# Cargar el modelo ensemble utilizando pickle
with open(ensemble_file, "rb") as f:
    loaded_ensemble = pickle.load(f)
print("Modelo ensemble cargado correctamente desde:", ensemble_file)

# Obtener las predicciones del ensemble para los datos escalados (por ejemplo, el conjunto completo)
preds_ensemble = loaded_ensemble.predict(X_scaled_df)

# Convertir las predicciones a la escala original
preds_original = scaler_Y.inverse_transform(preds_ensemble)

# Combinar las predicciones en un DataFrame
df_predictions = pd.DataFrame(preds_original, columns=outputs)

# Combinar las variables de entrada originales y las salidas predichas
motors = pd.concat([X_new, df_predictions], axis=1)
display(motors.head())
motors.to_csv("generated_motors.csv", index=False)
print("Base de datos de 10,000 motores guardada en 'generated_motors.csv'.")

Modelo ensemble cargado correctamente desde: C:\Users\s00244\Documents\GitHub\MotorDesignDataDriven\Notebooks\4.DBG\Modelos_MOP\400_MOT_Optimizado\best_model_ensemble.pkl


Unnamed: 0,x1::OSD,x2::Dint,x3::L,x4::tm,x5::hs2,x6::wt,x7::Nt,x8::Nh,m1::Drot,m2::Dsh,...,m4::Rmag,m5::Rs,m6::GFF,p1::W,p4::GFF,p5::BSP_T,p6::BSP_n,p7::BSP_Mu,p8::MSP_n,p9::UWP_Mu
0,47.129001,32.26077,39.626939,2.585757,10.029717,3.990317,19.488576,3.324859,38.905883,8.864551,...,10.601062,25.002033,45.93993,0.681913,298277.6,0.674841,4166.80145,85.510521,3675.330003,91.492538
1,51.928541,21.331537,35.511402,2.593721,12.366188,2.883744,17.427076,4.245171,24.064073,8.262178,...,11.055287,17.134228,52.990573,0.630115,-36562.91,0.545019,5240.278856,85.729051,6344.756067,91.755065
2,56.295089,39.79157,34.434308,2.591976,10.22619,3.361219,20.381673,4.161807,26.340745,16.811723,...,14.277141,22.585119,51.53232,0.731878,1084528.0,0.79679,3995.322116,85.074468,3446.820599,91.413142
3,47.277209,33.213141,25.936609,2.031618,13.467889,4.356869,17.84143,4.488595,33.999645,11.276994,...,11.473852,22.007672,53.702942,0.479453,862956.5,0.46249,6711.459413,88.015382,7779.648825,91.04511
4,47.00249,36.912795,37.922533,3.342236,11.635977,3.927111,28.646026,3.363648,38.974456,12.202782,...,10.576771,24.380313,51.405602,0.67864,-80297.95,0.745065,3741.66865,82.458469,2044.163984,91.172262


Base de datos de 10,000 motores guardada en 'generated_motors.csv'.


In [15]:
# =============================================================================
# Paso 7: Filtrar motores válidos según constraints definidos
# =============================================================================
def is_valid_motor(row):
    # Ejemplo de constraints (ajustar según lo indicado en el paper)
    # Se desea que:
    # - p1::W esté entre 0.5 y 0.7
    # - p7::BSP_Mu esté entre 85 y 90
    # - p9::UWP_Mu esté entre 88 y 92
    if (0.15 <= row['p1::W'] <= 1) and (50 <= row['p7::BSP_Mu'] <= 99) and (92 <= row['p9::UWP_Mu'] <= 99):
        return True
    return False

motors['Valid'] = motors.apply(is_valid_motor, axis=1)
valid_motors = motors[motors['Valid']]
print(f"Número de motores válidos: {len(valid_motors)}")

Número de motores válidos: 269


In [16]:
# =============================================================================
# Paso 6: Calcular y representar la frontera de Pareto
# =============================================================================
# Objetivos: minimizar p1::W, maximizar p7::BSP_Mu y p9::UWP_Mu
def compute_pareto_front(df, objectives):
    is_dominated = np.zeros(len(df), dtype=bool)
    for i in range(len(df)):
        for j in range(len(df)):
            if i == j:
                continue
            dominates = True
            for obj, sense in objectives.items():
                if sense == 'min':
                    if df.iloc[j][obj] > df.iloc[i][obj]:
                        dominates = False
                        break
                elif sense == 'max':
                    if df.iloc[j][obj] < df.iloc[i][obj]:
                        dominates = False
                        break
            if dominates:
                is_dominated[i] = True
                break
    frontier = df[~is_dominated]
    return frontier

objectives = {'p1::W': 'min', 'p7::BSP_Mu': 'max', 'p9::UWP_Mu': 'max'}
valid_motors_reset = valid_motors.reset_index(drop=True)
pareto_motors = compute_pareto_front(valid_motors_reset, objectives)
print(f"Número de motores en la frontera de Pareto: {len(pareto_motors)}")

# Representación 3D de la frontera de Pareto
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(valid_motors['p1::W'], valid_motors['p7::BSP_Mu'], valid_motors['p9::UWP_Mu'], 
           c='blue', label='Válidos', alpha=0.5)
ax.scatter(motors[~motors['Valid']]['p1::W'], motors[~motors['Valid']]['p7::BSP_Mu'], motors[~motors['Valid']]['p9::UWP_Mu'], 
           c='red', label='No válidos', alpha=0.5)
ax.scatter(pareto_motors['p1::W'], pareto_motors['p7::BSP_Mu'], pareto_motors['p9::UWP_Mu'], 
           c='green', label='Frontera Pareto', s=100, marker='D')
ax.set_xlabel('p1::W')
ax.set_ylabel('p7::BSP_Mu')
ax.set_zlabel('p9::UWP_Mu')
ax.legend()
plt.title('Frontera de Pareto de diseños de motores')
plt.savefig("pareto_frontier.png", dpi=300)
plt.show()

Número de motores en la frontera de Pareto: 20


In [18]:
# Si existen motores válidos, procedemos a la selección:
if len(valid_motors) > 0:
    # 1. Motor más liviano: mínimo de p1::W
    motor_liviano = valid_motors.loc[valid_motors['p1::W'].idxmin()]
    
    # 2. Motor más eficiente: máximo de p9::UWP_Mu (asumiendo que mayor p9::UWP_Mu indica mayor eficiencia)
    motor_eficiente = valid_motors.loc[valid_motors['p9::UWP_Mu'].idxmax()]
    
    # 3. Motor más eficiente y liviano:
    # Se normalizan p1::W y p9::UWP_Mu en el subconjunto de motores válidos.
    vm = valid_motors.copy()
    # Normalizar p1::W (donde un menor valor es mejor, así que se invertirá)
    vm['p1::W_norm'] = (vm['p1::W'] - vm['p1::W'].min()) / (vm['p1::W'].max() - vm['p1::W'].min())
    # Normalizar p9::UWP_Mu (mayor es mejor)
    vm['p9::UWP_Mu_norm'] = (vm['p9::UWP_Mu'] - vm['p9::UWP_Mu'].min()) / (vm['p9::UWP_Mu'].max() - vm['p9::UWP_Mu'].min())
    
    # Definir un score compuesto: se busca minimizar p1::W (por ello, usamos 1 - normalizado) y maximizar p9::UWP_Mu
    vm['composite_score'] = (1 - vm['p1::W_norm']) + vm['p9::UWP_Mu_norm']
    motor_eficiente_liviano = vm.loc[vm['composite_score'].idxmax()]
    
    # Mostrar las soluciones:
    print("\nMotor más liviano:")
    print(motor_liviano)
    
    print("\nMotor más eficiente:")
    print(motor_eficiente)
    
    print("\nMotor más eficiente y liviano (score compuesto):")
    print(motor_eficiente_liviano)

# Opcional: Guardar cada solución en un CSV separado
    #motor_liviano.to_frame().T.to_csv("motor_mas_liviano.csv", index=False)
    # motor_eficiente.to_frame().T.to_csv("motor_mas_eficiente.csv", index=False)
    # motor_eficiente_liviano.to_frame().T.to_csv("motor_eficiente_y_liviano.csv", index=False)
    # print("\nSoluciones guardadas en CSV.")
else:
    print("No se encontraron motores válidos. Verifique las constraints y el escalado de los datos.")


Motor más liviano:
x1::OSD           48.366595
x2::Dint            33.9077
x3::L             24.770156
x4::tm             2.662167
x5::hs2            8.760018
x6::wt             4.275617
x7::Nt            26.240635
x8::Nh             3.691591
m1::Drot          32.238577
m2::Dsh           14.951697
m3::he             6.570348
m4::Rmag          14.424108
m5::Rs            24.443075
m6::GFF           43.763362
p1::W              0.448183
p4::GFF       450853.380563
p5::BSP_T          0.451072
p6::BSP_n       5146.363691
p7::BSP_Mu        85.883775
p8::MSP_n       5763.012243
p9::UWP_Mu        92.238694
Valid                  True
Name: 1967, dtype: object

Motor más eficiente:
x1::OSD            46.408023
x2::Dint           28.155519
x3::L              33.996521
x4::tm              2.012539
x5::hs2             8.906496
x6::wt              2.371898
x7::Nt              7.209483
x8::Nh              7.317941
m1::Drot           23.217703
m2::Dsh             8.218611
m3::he              4.7569

In [17]:
# =============================================================================
# Paso 7: Seleccionar el motor válido óptimo
# =============================================================================
# Se normalizan los objetivos y se define un score compuesto
valid_motors_comp = valid_motors.copy()
for col, sense in [('p1::W', 'min'), ('p7::BSP_Mu', 'max'), ('p9::UWP_Mu', 'max')]:
    col_min = valid_motors_comp[col].min()
    col_max = valid_motors_comp[col].max()
    if sense == 'min':
        valid_motors_comp[col + '_norm'] = 1 - (valid_motors_comp[col] - col_min) / (col_max - col_min)
    else:
        valid_motors_comp[col + '_norm'] = (valid_motors_comp[col] - col_min) / (col_max - col_min)

valid_motors_comp['composite_score'] = (valid_motors_comp['p1::W_norm'] +
                                          valid_motors_comp['p7::BSP_Mu_norm'] +
                                          valid_motors_comp['p9::UWP_Mu_norm'])
optimal_motor = valid_motors_comp.loc[valid_motors_comp['composite_score'].idxmax()]
print("Motor válido óptimo (según score compuesto):")
print(optimal_motor)

optimal_motor.to_frame().T.to_csv("optimal_motor.csv", index=False)
print("El motor óptimo se ha guardado en 'optimal_motor.csv'.")

Motor válido óptimo (según score compuesto):
x1::OSD                 46.408023
x2::Dint                28.155519
x3::L                   33.996521
x4::tm                   2.012539
x5::hs2                  8.906496
x6::wt                   2.371898
x7::Nt                   7.209483
x8::Nh                   7.317941
m1::Drot                23.217703
m2::Dsh                  8.218611
m3::he                   4.756903
m4::Rmag                12.747373
m5::Rs                  18.505487
m6::GFF                 53.618943
p1::W                    0.547024
p4::GFF            1418371.366736
p5::BSP_T                0.523992
p6::BSP_n            12019.445522
p7::BSP_Mu              91.538122
p8::MSP_n            10030.913131
p9::UWP_Mu                93.1813
Valid                        True
p1::W_norm               0.679836
p7::BSP_Mu_norm          0.861698
p9::UWP_Mu_norm               1.0
composite_score          2.541534
Name: 3360, dtype: object
El motor óptimo se ha guardado en 'optimal_mo