# Predicci√≥n del Color RNN y Desfase Fijo en M√°quinas de Impresi√≥n

En este proyecto, cada m√°quina de impresi√≥n tiene un desfase distinto entre el momento en que deposita la tinta sobre el material y el instante en que el sensor de color mide el resultado final. Este desfase depende de la configuraci√≥n f√≠sica de la m√°quina y puede variar en n√∫mero de pasos o momentos temporales.

Para estandarizar el proceso en esta tarea, consideraremos un **desfase fijo de 4 pasos** (offset = 4), lo que significa que el color que deseamos predecir en un instante *t* se medir√° realmente en *t+4*. Adem√°s, utilizaremos una **ventana de 20 pasos anteriores** para hacer la predicci√≥n.

Esto implica que nuestro modelo debe cumplir con los siguientes criterios:

- A cada instante *t*, queremos predecir el color que ser√° medido en *t+4*.
- Si offset = 4 pasos, significa que la fila *index=t+4* registrar√° el color correspondiente a la impresi√≥n en *t*.

Para manejar este desfase, utilizamos el enfoque conocido como **‚ÄúDirect approach con offset‚Äù**:

- No necesitamos un modelo multi-output que genere predicciones para *t+1, t+2, t+3, t+4* y luego seleccionar solo el 4¬∫ valor.
- No aplicamos un m√©todo autoregresivo que retroalimente sus propias predicciones en cada paso.
- Entrenamos un modelo (por ejemplo, LSTM) que, dada una **ventana previa de 20 pasos** *(t‚àí19..t)*, **prediga directamente el color en *t+4***.

## Ventajas y Consideraciones
‚úÖ **Ventaja**: Simplifica la arquitectura del modelo y permite concentrar el entrenamiento en exactamente el horizonte que nos interesa.  
‚ö†Ô∏è **Desventaja**: No proporciona predicciones intermedias (*t+1, t+2, t+3*), pero esto no es necesario si el sensor mide consistentemente a *t+4*.

---

## **Diagrama del Flujo de la L√°mina en la M√°quina de Impresi√≥n**
                     *(Flujo del material en la l√≠nea de producci√≥n)*
     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ>‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê

     ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê                  distancia "offset"                ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
     ‚îÇ        ‚îÇ                  (4 pasos en este caso)            ‚îÇ      ‚îÇ
     ‚îÇCABEZAL ‚îÇ--------------------------------------------------->‚îÇSENSOR‚îÇ
     ‚îÇIMPRENTA‚îÇ                                                    ‚îÇCOLOR ‚îÇ
     ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò                                                    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò

1Ô∏è‚É£ **Cabezales de impresi√≥n**
   - En el instante *t*, la m√°quina deposita tinta bajo ciertas condiciones (velocidad, estado de la m√°quina, etc.).
   - Estas condiciones influyen en el color resultante que se medir√° m√°s adelante.

2Ô∏è‚É£ **Desfase f√≠sico (offset)**
   - La l√°mina avanza hasta que el sensor de color puede medirla.
   - No se mide inmediatamente el color en *t+1* ni en *t+2*, sino hasta el tiempo *t+4*.

3Ô∏è‚É£ **Decisi√≥n de modelado ("Direct offset = 4")**
   - No es necesario predecir el color en *t+1, t+2, t+3*.
   - Nos enfocamos √∫nicamente en predecir el color cuando la tinta llegue al sensor en *t+4*.
   - Para ello, entrenamos un modelo que, dada una **ventana de 20 pasos anteriores** *(t‚àí19..t)*, prediga directamente el color en *t+4*.

---

üìå **Conclusi√≥n**  
Cada m√°quina puede tener un offset distinto dependiendo de su configuraci√≥n, pero para esta tarea, **lo hemos estandarizado a 4 pasos** y usaremos **una ventana de 20 pasos anteriores** como entrada del modelo. Esto permite un modelado m√°s eficiente y consistente, facilitando la predicci√≥n precisa del color en la producci√≥n. üöÄ

In [1]:
### RECORDAR CAMBIAR EL ENVIRONMENT A p310_npy1_GPUok_RNN
import pandas as pd
import os
import joblib
import numpy as np
import time
import tensorflow as tf
from tensorflow.keras import layers, models
import matplotlib.pyplot as plt
from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint, ReduceLROnPlateau
from tensorflow.keras import layers, Model, Input, regularizers
from sklearn.preprocessing import StandardScaler
import itertools

# Mirar si tensorflow usar√° GPU

Para este modelado de RNN con direct approach, usar√© la librer√≠a Tensorflow. Para verificar que la usar√°:

In [2]:
print("CUDA disponible:", tf.test.is_built_with_cuda())
print("cuDNN disponible:", tf.test.is_built_with_gpu_support())


CUDA disponible: True
cuDNN disponible: True


# Variables globales

In [3]:
FIC_ENTRADA='train_test_val_scaler.joblib'
RUTA_FICHEROS = r"C:\Users\jaume\Documents\Proyecto\datos"
FIC_SALIDA='prediccion_rnn_direct.joblib'
MEJOR_MODELO='mejor_modelo_rnn_direct_approach.h5'

# Par√°metros para la ventana y el horizonte
WINDOW_SIZE = 30
OFFSET = 4

# Semillas de aleatoriedad

Para que sea lo m√°s reproducible posible. Aunque ciertas cosas como el **dropout** pueden afectar al resultado

In [4]:
SEED = 7419

# Fijar la semilla en todos los m√≥dulos relevantes
#random.seed(SEED)
np.random.seed(SEED)
tf.random.set_seed(SEED)

os.environ['TF_DETERMINISTIC_OPS'] = '1'  # Fuerza operaciones deterministas
os.environ['TF_CUDNN_DETERMINISTIC'] = '1'  # Fuerza cuDNN determinista en GPU

# Cargamos los datos

In [5]:
# Carga de datos
os.chdir(RUTA_FICHEROS)

with open(FIC_ENTRADA, 'rb') as file:
    data_dict = joblib.load(file)

# Recuperar DataFrame y scaler
df_train = data_dict['train'].copy()
df_test = data_dict['test'].copy()
df_val = data_dict['val'].copy()
scaler = data_dict['scaler']              # Contiene las normalizaciones con StandarScaler()

In [6]:
df_train.columns
df_test.columns

Index(['L_scaled', 'A_scaled', 'B_scaled', 'tiempo_en_estado_scaled',
       'velocidad_scaled', 'duracion_parada_robust_scaled', 'patron_0',
       'patron_2', 'patron_3', 'patron_4',
       ...
       'patron_88', 'patron_89', 'patron_90', 'patron_91', 'patron_92',
       'patron_93', 'patron_94', 'estado_alta', 'estado_normal',
       'estado_puesta'],
      dtype='object', length=103)

## Defino las columnas target y feature

Quitamos la columna *seq_time* ya que a efectos pr√°cticos es un √≠ndice que no aporta valor al modelo, y anteriormente ya la hemos usado para ordenar el dataframe.

In [7]:
excluir_columnas = ["L_scaled", "A_scaled", "B_scaled", "seq_time"]
feature_cols = [col for col in df_train.columns if col not in excluir_columnas]
target_cols = ["L_scaled","A_scaled","B_scaled"]

# Crear secuencias (ventanas)

**Funci√≥n create_sequences_direct_offset:**

Toma un DataFrame ordenado cronol√≥gicamente y genera secuencias de largo window_size a partir de las columnas de entrada (features). El target que se predice es la fila que se encuentra a offset pasos en el futuro respecto al final de la ventana (se selecciona la fila en la posici√≥n i + window_size + offset - 1).

**Generaci√≥n de secuencias para cada subconjunto:**

Se llama a la funci√≥n para los dataframes de entrenamiento (df_train), validaci√≥n (df_val) y test (df_test), generando as√≠ las matrices X y Y correspondientes para cada uno.

In [8]:
def create_sequences_direct_offset(df, feature_cols, target_cols, 
                                   window_size=20, offset=4):
    """
    Crea X, Y para un enfoque "Direct" a offset pasos en el futuro.
    
    - X : (N, window_size, n_features)
    - Y : (N, n_targets)  # un √∫nico step => offset steps en el futuro
    - df: DataFrame ordenado cronol√≥gicamente (por ejemplo, 'seq_time').
    
    Par√°metros:
    -----------
      df : pd.DataFrame con las columnas de features + target + orden temporal.
      feature_cols : list[str], nombres de las columnas de entrada.
      target_cols : list[str], nombres de las columnas del target (ej. [L_scaled,A_scaled,B_scaled]).
      window_size : int, cu√°ntas filas usar de hist√≥rico como input.
      offset : int, cu√°ntos pasos a futuro se quiere predecir.
    
    Retorno:
    --------
      X : np.ndarray de shape (N, window_size, len(feature_cols))
      Y : np.ndarray de shape (N, len(target_cols))
    """

    data_features = df[feature_cols].values
    data_target   = df[target_cols].values

    X_list, Y_list = [], []
    n = len(df)

    # Se recorre hasta n - window_size - offset + 1 para que siempre exista la secuencia completa
    for i in range(n - window_size - offset + 1):
        x_seq = data_features[i : i + window_size]
        # La fila target es la que se encuentra en: i + window_size + (offset - 1)
        y_val = data_target[i + window_size + offset - 1]
        
        X_list.append(x_seq)
        Y_list.append(y_val)
    
    X_arr = np.array(X_list, dtype=np.float32)
    Y_arr = np.array(Y_list, dtype=np.float32)
    return X_arr, Y_arr

X_train, Y_train = create_sequences_direct_offset(df_train, feature_cols, target_cols, WINDOW_SIZE, OFFSET)
X_val,   Y_val   = create_sequences_direct_offset(df_val,   feature_cols, target_cols, WINDOW_SIZE, OFFSET)
X_test,  Y_test  = create_sequences_direct_offset(df_test,  feature_cols, target_cols, WINDOW_SIZE, OFFSET)

print("X_train.shape:", X_train.shape, "Y_train.shape:", Y_train.shape)
print("X_val.shape:  ", X_val.shape,   "Y_val.shape:  ", Y_val.shape)
print("X_test.shape: ", X_test.shape,  "Y_test.shape: ", Y_test.shape)

X_train.shape: (216735, 30, 100) Y_train.shape: (216735, 3)
X_val.shape:   (27062, 30, 100) Y_val.shape:   (27062, 3)
X_test.shape:  (27062, 30, 100) Y_test.shape:  (27062, 3)


# Optimizar datos para tensorflow

## Convertir los datos a tf.float32 (Formato nativo de TensorFlow)

TensorFlow maneja mejor float32 en GPUs, ya que float64 usa m√°s memoria sin mejorar el rendimiento.

In [9]:
# Convertir X e Y a tensores de float32
X_train = tf.convert_to_tensor(X_train, dtype=tf.float32)
Y_train = tf.convert_to_tensor(Y_train, dtype=tf.float32)

X_val = tf.convert_to_tensor(X_val, dtype=tf.float32)
Y_val = tf.convert_to_tensor(Y_val, dtype=tf.float32)

X_test = tf.convert_to_tensor(X_test, dtype=tf.float32)
Y_test = tf.convert_to_tensor(Y_test, dtype=tf.float32)

## Verificar el tipo de datos internos (float o int)

Si hay datos enteros (int), TensorFlow podr√≠a generar errores en la optimizaci√≥n. Aseg√∫rate de que X tenga solo float32.

In [10]:
print("X_train dtype:", X_train.dtype)
print("Y_train dtype:", Y_train.dtype)


X_train dtype: <dtype: 'float32'>
Y_train dtype: <dtype: 'float32'>


In [11]:
X_train = tf.cast(X_train, dtype=tf.float32)
Y_train = tf.cast(Y_train, dtype=tf.float32)

X_val = tf.cast(X_val, dtype=tf.float32)
Y_val = tf.cast(Y_val, dtype=tf.float32)

X_test = tf.cast(X_test, dtype=tf.float32)
Y_test = tf.cast(Y_test, dtype=tf.float32)

## Usar tf.data.Dataset para mayor eficiencia

Si los datos son grandes, es mejor convertirlos en tf.data.Dataset, lo cual optimiza la carga de datos y mejora el rendimiento en la GPU.

En mi caso NO los usar√© ya que de momento los datos no son muy grandes y como los agregu√© m√°s tarde, tendr√≠a que introducir muchos cambios en el c√≥digo.

In [12]:
# Crear datasets eficientes para entrenamiento
#train_dataset = tf.data.Dataset.from_tensor_slices((X_train, Y_train)).batch(32).prefetch(tf.data.AUTOTUNE)
#val_dataset = tf.data.Dataset.from_tensor_slices((X_val, Y_val)).batch(32).prefetch(tf.data.AUTOTUNE)
#test_dataset = tf.data.Dataset.from_tensor_slices((X_test, Y_test)).batch(32).prefetch(tf.data.AUTOTUNE)

# Callback para medir el tiempo por √©poca

Medir√© el tiempo de los entrenamientos.

In [13]:
class TimeHistory(tf.keras.callbacks.Callback):
    def on_train_begin(self, logs=None):
        self.times = []
    def on_epoch_begin(self, epoch, logs=None):
        self.epoch_start_time = time.time()
    def on_epoch_end(self, epoch, logs=None):
        self.times.append(time.time() - self.epoch_start_time)


# Definir modelo

La funci√≥n `build_rnn_direct` crea un modelo con dos capas LSTM o GRU. Al usar `return_sequences=False` en la segunda capa, se obtiene un √∫nico vector de salida. Esto no es un enfoque seq2seq (donde se generar√≠a una secuencia completa de salida).

Esta funci√≥n est√° preparada para recibir si queremos usar LSTM o GRU as√≠ podr√© luego en el grid pasarlo como par√°metro tambi√©n, los que recibe par√°metros son:

- num_features: n√∫mero de features de entrada.
- num_targets: tama√±o del vector de salida.
- window_size: longitud de la secuencia de entrada.
- latent_dim: n√∫mero de unidades en la capa recurrente.
- dropout: fracci√≥n de dropout a aplicar en las celdas recurrentes.
- learning_rate: tasa de aprendizaje del optimizador.
- cell_type: str, puede ser "GRU" o "LSTM". Permite elegir la c√©lula recurrente.

## Escoger la m√©trica para medir el resultado (bondad)

Durante el proceso de validaci√≥n con el cliente, **se ha acordado que la m√©trica de evaluaci√≥n principal ser√° el MSE (Mean Squared Error)**. Se ha considerado que esta funci√≥n de p√©rdida es la m√°s adecuada para el problema, dado que prioriza minimizar los errores grandes en la predicci√≥n de color.
La funci√≥n devuelve el modelo a entrenar y las m√©tricas de bondad. Usar√© MSE, aunque tambi√©n calcular√© MAE para comparar. El cliente determina que MSE es suficiente. 

Otras opciones eran "Delta E", "Cosine Similarity" pero el cliente por el momento las descarta.

## Explicaci√≥n del C√≥digo

Este modelo RNN sigue un **enfoque directo** (direct approach), donde la entrada es una ventana de datos hist√≥ricos (`window_size`) y la salida es un **√∫nico vector de predicci√≥n**.  
**Este modelo NO es seq2seq**, ya que la salida **no es una secuencia**, sino un **vector √∫nico**.

Prob√© un modelo con seq2seq y aunque los resultados no fueron malos, no mejoraban mucho, complicaban el modelo y no creo que sea realmente necesario para este problema.

## Par√°metros de entrada de la funci√≥n

| Par√°metro       | Descripci√≥n |
|----------------|------------|
| **`num_features`** | N√∫mero de variables de entrada. |
| **`num_targets`** | Dimensi√≥n del vector de salida (para predicci√≥n de colores LAB: 3). |
| **`window_size`** | Cantidad de pasos temporales usados en la entrada. |
| **`latent_dim`** | N√∫mero de neuronas en cada capa recurrente. |
| **`dropout`** | Ratio de dropout para prevenir sobreajuste. |
| **`learning_rate`** | Tasa de aprendizaje del optimizador. |
| **`cell_type`** | Tipo de celda recurrente: `"GRU"` o `"LSTM"`. |

He probado con GRU y LSTM, no se ve una diferencia muy grande as√≠ que me he quedado con LSTM por estar m√°s probado y ser m√°s robusto.

---

## ¬øPor qu√© cada decisi√≥n en el modelo?

**Elecci√≥n entre LSTM y GRU

- **GRU:** M√°s r√°pido y eficiente en memoria.
- **LSTM:** M√°s potente para secuencias largas con dependencias temporales.
- **El modelo permite seleccionar ambos** (`cell_type`).

Como he comentado y ya que he construido la funci√≥n para recibir este par√°metro me he quedado con LSTM.

**`return_sequences=True` en la primera capa**

- Permite que la segunda capa reciba secuencias completas.
- Mejora la representaci√≥n de los datos temporales.

He probado con 1, 2 y 3 capas, la que mejores resultados me ha dado es con 2.

**`BatchNormalization()`**

- Acelera la convergencia.
- Evita saturaci√≥n de gradientes.
- Mejora estabilidad en el entrenamiento.

El modelo se sobreajustaba demasiado, con este par√°metro tambi√©n logro que se estabilice un poco m√°s.

**`return_sequences=False` en la segunda capa**

- La red solo devuelve **el √∫ltimo estado** para la predicci√≥n.
- Evita que el modelo genere una secuencia completa de salida.

**`kernel_regularizer=regularizers.l2(1e-4)`**

- Evita el sobreajuste limitando la magnitud de los pesos.

El modelo se sobreajustaba demasiado, con este par√°metro tambi√©n logro que se estabilice un poco m√°s.

**Optimizaci√≥n con Adam (AMSGrad activado)**

- **AMSGrad** mejora la estabilidad en la actualizaci√≥n de gradientes.
- Reduce el problema de acumulaci√≥n de momento en Adam.
- Adem√°s ayuda a la hora de reproducir el mismo entrenamiento

**Funci√≥n de p√©rdida y m√©tricas**

- **`loss="mse"`**: M√≠nimos cuadrados medios, prioriza la reducci√≥n de grandes errores.
- **`metrics=["mae"]`**: Se agrega **MAE** para comparaci√≥n con MSE.
- El **MSE** es la m√©trica seleccionada porque a parte de ser la elecci√≥n que tom√≥ la emrpesa para esta prueba de concepto:
  - Es la m√°s adecuada para priorizar **errores grandes** en la predicci√≥n de color.
  - Minimiza las diferencias absolutas al cuadrado, lo que penaliza m√°s los errores grandes.
  - Es **m√°s estable** que m√©tricas como `Cosine Similarity` o `Delta E`, que se descartan por ahora.  



In [14]:
def build_rnn_direct(
    num_features: int, 
    num_targets: int = 3, 
    window_size: int = 20, 
    latent_dim: int = 64,
    dropout: float = 0.4, 
    learning_rate: float = 1e-4, 
    cell_type: str = "GRU"
) -> tf.keras.Model:
    """
    Construye un modelo RNN (direct approach) para predecir un √∫nico paso en el futuro.

    Este modelo **NO es seq2seq**, ya que devuelve un √∫nico vector de salida en lugar de una secuencia.

    Par√°metros:
    -----------
    - `num_features` (int): N√∫mero de caracter√≠sticas de entrada.
    - `num_targets` (int): Dimensi√≥n del vector de salida (por defecto, 3 para predicci√≥n de colores LAB).
    - `window_size` (int): Tama√±o de la secuencia de entrada (longitud del hist√≥rico usado para predecir).
    - `latent_dim` (int): N√∫mero de unidades en cada capa recurrente.
    - `dropout` (float): Ratio de dropout para prevenir sobreajuste en las capas recurrentes.
    - `learning_rate` (float): Tasa de aprendizaje del optimizador Adam.
    - `cell_type` (str): Tipo de c√©lula recurrente, `"GRU"` o `"LSTM"`.

    Retorna:
    -----------
    - `tf.keras.Model`: Modelo RNN compilado con optimizador Adam (amsgrad activado).

    Notas sobre el modelo:
    - Se permite elegir entre GRU y LSTM din√°micamente.
    - Se usa **BatchNormalization** despu√©s de la primera capa recurrente para mejorar estabilidad.
    - La segunda capa recurrente **no devuelve secuencias** (`return_sequences=False`).
    - Se aplica regularizaci√≥n L2 para evitar sobreajuste en los pesos de la red.
    - El optimizador **Adam con AMSGrad** se usa para una convergencia m√°s estable.
    """
    
    # üîπ Definir la arquitectura secuencial
    model = tf.keras.Sequential([
        layers.Input(shape=(window_size, num_features))  # Entrada con formato (time_steps, features)
    ])

    # üîπ Selecci√≥n de la c√©lula recurrente
    if cell_type.upper() == "GRU":
        rnn_layer = layers.GRU
    elif cell_type.upper() == "LSTM":
        rnn_layer = layers.LSTM
    else:
        raise ValueError("Error: 'cell_type' debe ser 'GRU' o 'LSTM'.")

    # üîπ Primera capa recurrente: 
    # - Devuelve secuencias para permitir el paso de informaci√≥n a la siguiente capa.
    # - Se aplica dropout para regularizaci√≥n.
    model.add(rnn_layer(latent_dim, return_sequences=True, dropout=dropout))

    # üîπ Normalizaci√≥n para estabilizar entrenamiento y acelerar convergencia
    model.add(layers.BatchNormalization())

    # üîπ Segunda capa recurrente: 
    # - Devuelve solo el estado final (`return_sequences=False`).
    # - Se aplica regularizaci√≥n L2 para evitar sobreajuste en los pesos.
    model.add(rnn_layer(latent_dim, return_sequences=False, dropout=dropout,
                        kernel_regularizer=regularizers.l2(1e-4)))

    # üîπ Capa densa de salida: 
    # - Predice los valores de salida (num_targets).
    model.add(layers.Dense(num_targets))

    # üîπ Configurar el optimizador Adam con AMSGrad activado
    optimizer = tf.keras.optimizers.Adam(learning_rate=learning_rate, amsgrad=True)

    # üîπ Compilar el modelo con MSE como funci√≥n de p√©rdida y MAE como m√©trica adicional
    model.compile(optimizer=optimizer, loss="mse", metrics=["mae"])

    return model

# Par√°metros para grid search

Defino los par√°metros a cruzar y una lista para meter los resultados.

In [15]:
grid_params = {
    "latent_dim": [32, 16],
    #"dropout": [0.4, 0.6],
    "dropout": [0.7, 0.8],
    "learning_rate": [1e-4, 1e-5],
    "batch_size": [32, 64],
    #"cell_type": ["GRU", "LSTM"]  # Probar ambas c√©lulas
    "cell_type": ["LSTM"]
}

results_list = []

# Entrenar el modelo

Aqu√≠ creo un bucle `for` que:

- Itera sobre todas las combinaciones de hiperpar√°metros definidos en el grid.
- Defino los callbacks `EarlyStopping`, `ReduceLROnPlateau` y `TimeHistory`, este √∫ltimo es una clase definida por mi para poder medir el tiempo de los entrenamientos.
- Entreno el modelo con `fit`.
- Los resultados los voy guardando en una lista que luego incorporar√© a un dataframe que finalmente en pasos siguientes ser√° evaluado y guardado en un fichero *joblib*.


In [None]:
# Calculo estas 2 variables que ser√°n fijas
num_features = len(feature_cols)
num_targets  = len(target_cols)

for latent_dim_val, dropout_val, lr_val, batch_size_val, cell_type_val in itertools.product(
        grid_params["latent_dim"],
        grid_params["dropout"],
        grid_params["learning_rate"],
        grid_params["batch_size"],
        grid_params["cell_type"]):

    print(f"Entrenando con: latent_dim={latent_dim_val}, dropout={dropout_val}, "
          f"learning_rate={lr_val}, batch_size={batch_size_val}, cell_type={cell_type_val}")
    
    # Construir el modelo con la combinaci√≥n actual
    model = build_rnn_direct(num_features, num_targets, WINDOW_SIZE,
                             latent_dim=latent_dim_val,
                             dropout=dropout_val,
                             learning_rate=lr_val,
                             cell_type=cell_type_val)
    
    # Callbacks:
    # - EarlyStopping: para detener el entrenamiento si no mejora el val_loss.
    # - ReduceLROnPlateau: para ajustar la tasa de aprendizaje si el val_loss se estanca.
    # - TimeHistory: para medir el tiempo por √©poca.
    early_stopping = EarlyStopping(monitor='val_loss', patience=10, restore_best_weights=True, verbose=0)
    lr_scheduler = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=2, min_lr=1e-6, verbose=1)
    time_callback = TimeHistory()

    start_time = time.time()
    history = model.fit(
        X_train, Y_train,
        validation_data=(X_val, Y_val),
        epochs=100,
        shuffle=False, # Se procesa en orden, sin aleatorizaci√≥n
        batch_size=batch_size_val,
        callbacks=[early_stopping, lr_scheduler, time_callback],
        verbose=1  # Poner 1 para ver el progreso
    )
    total_training_time = time.time() - start_time
    epoch_times = time_callback.times
    epochs_ran = len(epoch_times)

    # Obtener el menor valor de val_loss (MSE) del history y su √≠ndice
    best_val_mse = min(history.history["val_loss"])
    best_epoch_idx = np.argmin(history.history["val_loss"])
    
    # Opci√≥n: evaluar el modelo (con los mejores pesos restaurados) en los conjuntos de train y val.
    train_results = model.evaluate(X_train, Y_train, verbose=0)
    val_results   = model.evaluate(X_val, Y_val, verbose=0)
    # Suponiendo que el modelo se compil√≥ con metrics=['mae', 'mse'], los √≠ndices ser√°n:
    # 0: loss (mse), 1: mae, 2: mse
    best_train_mse_eval = train_results[0]
    best_val_mse_eval   = val_results[0]
    
    # Tambi√©n obtener el m√≠nimo valor de val_mae (por si interesa)
    best_val_mae = min(history.history["val_mae"])
    
    # Guardamos el history completo para poder graficar las curvas de aprendizaje despu√©s.
    learning_curve = history.history

    # Guardar los resultados en el diccionario
    results_list.append({
        "latent_dim": latent_dim_val,
        "dropout": dropout_val,
        "learning_rate": lr_val,
        "batch_size": batch_size_val,
        "cell_type": cell_type_val,
        "best_val_mse": best_val_mse,  # extra√≠do del history
        "best_val_mse_epoch_idx": best_epoch_idx, # Permutaci√≥n donde se encontr√≥ el best_val_mse
        "best_train_mse_eval": best_train_mse_eval,  # evaluado sobre el set de entrenamiento
        "best_val_mse_eval": best_val_mse_eval,        # evaluado sobre el set de validaci√≥n
        "best_val_mae": best_val_mae,
        "epochs_ran": epochs_ran,
        "epoch_times": epoch_times,
        "total_training_time": total_training_time,
        "learning_curve": learning_curve  # Este diccionario se usar√° para graficar las curvas de aprendizaje
    })
    
    print(f"  -> best_val_mse (history): {best_val_mse:.6f} encontrado en la permutaci√≥n: {best_epoch_idx+1} , "
          f"best_val_mse (evaluated): {best_val_mse_eval:.6f}, "
          f"best_train_mse (evaluated): {best_train_mse_eval:.6f}, "
          f"best_val_mae: {best_val_mae:.6f}, "
          f"epochs: {epochs_ran}, total_time: {total_training_time:.2f}s")

# Crear un DataFrame con los resultados del grid search
df_results = pd.DataFrame(results_list)
print("\nGrid Search Results:")
print(df_results)

Entrenando con: latent_dim=32, dropout=0.7, learning_rate=0.0001, batch_size=32, cell_type=LSTM
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 3: ReduceLROnPlateau reducing learning rate to 4.999999873689376e-05.
Epoch 4/100
Epoch 5/100
Epoch 5: ReduceLROnPlateau reducing learning rate to 2.499999936844688e-05.
Epoch 6/100
Epoch 7/100
Epoch 7: ReduceLROnPlateau reducing learning rate to 1.249999968422344e-05.
Epoch 8/100
Epoch 9/100
Epoch 9: ReduceLROnPlateau reducing learning rate to 6.24999984211172e-06.
Epoch 10/100
Epoch 11/100
Epoch 11: ReduceLROnPlateau reducing learning rate to 3.12499992105586e-06.
  -> best_val_mse (history): 0.671392 encontrado en la permutaci√≥n: 1 , best_val_mse (evaluated): 0.671392, best_train_mse (evaluated): 1.132948, best_val_mae: 0.633077, epochs: 11, total_time: 1013.11s
Entrenando con: latent_dim=32, dropout=0.7, learning_rate=0.0001, batch_size=64, cell_type=LSTM
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 3: ReduceLROnPlateau reducing learning rate to 4.

# Seleccionar los mejores hiperpar√°metros (seg√∫n el menor MSE en validaci√≥n)

In [None]:
best_idx = df_results['best_val_mse'].idxmin()
best_params = df_results.loc[best_idx]
print("\nBest Hyperparameters Found:")
print(best_params)

# Reconstruir el mejor modelo con los hiperpar√°metros √≥ptimos
best_model = build_rnn_direct(num_features, num_targets, WINDOW_SIZE,
                              latent_dim=int(best_params['latent_dim']),
                              dropout=best_params['dropout'],
                              learning_rate=best_params['learning_rate'],
                              cell_type=best_params['cell_type'])

# Entrenamiento final del mejor modelo usando train y validaci√≥n

In [None]:
final_early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)
final_checkpoint = ModelCheckpoint(MEJOR_MODELO, monitor='val_loss', save_best_only=True)
final_lr_scheduler = ReduceLROnPlateau(monitor='val_loss', factor=0.5, patience=2, min_lr=1e-6, verbose=1)

history_final = best_model.fit(
    X_train, Y_train,
    validation_data=(X_val, Y_val),
    epochs=50,
    shuffle=False,
    batch_size=int(best_params['batch_size']),
    callbacks=[final_early_stopping, final_checkpoint, final_lr_scheduler],
    verbose=1
)

# Cargar el mejor modelo guardado
best_model = models.load_model(MEJOR_MODELO)

# Predicci√≥n sobre el conjunto de test

In [None]:
Y_pred = best_model.predict(X_test)
print("\nPredicciones en TEST completadas.")

# Guardar resultados y predicciones

In [None]:
data_dict = {
    "df_results": df_results,
    "predictions_test": Y_pred,
    "windows_size": WINDOW_SIZE,
    "offset": OFFSET
}

# Guardar en un solo archivo
joblib.dump(data_dict, FIC_SALIDA)
