# üìù **Tarea semana 4 - Opci√≥n Low-Code: Imputaci√≥n de valores faltantes y modelado de series temporales**

## üìå **Descripci√≥n del dataset**

El conjunto de datos corresponde a mediciones de calidad del aire recogidas en una estaci√≥n en Italia, con registros horarios entre marzo de 2004 y abril de 2005.
Las variables principales son:

| N¬∞ | Variable      | Descripci√≥n                                                               |
| -- | ------------- | ------------------------------------------------------------------------- |
| 2  | CO(GT)        | Concentraci√≥n verdadera de CO (mg/m¬≥, referencia)                         |
| 3  | PT08.S1(CO)   | Respuesta del sensor de √≥xido de esta√±o (target: CO)                      |
| 4  | NMHC(GT)      | Concentraci√≥n verdadera de hidrocarburos no met√°nicos (Œºg/m¬≥, referencia) |
| 5  | C6H6(GT)      | Concentraci√≥n verdadera de benceno (Œºg/m¬≥, referencia)                    |
| 6  | PT08.S2(NMHC) | Respuesta del sensor de titania (target: NMHC)                            |
| 7  | NOx(GT)       | Concentraci√≥n verdadera de NOx (ppb, referencia)                          |
| 8  | PT08.S3(NOx)  | Respuesta del sensor de √≥xido de tungsteno (target: NOx)                  |
| 9  | NO2(GT)       | Concentraci√≥n verdadera de NO2 (Œºg/m¬≥, referencia)                        |
| 10 | PT08.S4(NO2)  | Respuesta del sensor de √≥xido de tungsteno (target: NO2)                  |
| 11 | PT08.S5(O3)   | Respuesta del sensor de √≥xido de indio (target: O3)                       |
| 12 | T             | Temperatura (¬∞C)                                                          |
| 13 | RH            | Humedad relativa (%)                                                      |
| 14 | AH            | Humedad absoluta                                                          |


## üéØ **Prop√≥sito de la tarea**

La tarea tiene dos objetivos principales:

### 1Ô∏è‚É£ **Imputaci√≥n de valores faltantes**


* Simular valores faltantes en el dataset mediante dos enfoques:

  * **Aleatorio (at random)**: Se eliminan valores de forma dispersa.
  * **En bloques (in blocks)**: Se eliminan valores en secuencias consecutivas para simular fallos de sensores.
* Aplicar un m√©todo de imputaci√≥n (por ejemplo, interpolaci√≥n, modelo simple, t√©cnica autom√°tica de la biblioteca proporcionada) para completar los datos.

### 2Ô∏è‚É£ **Modelado de serie temporal**


* Seleccionar una variable adecuada para modelar con un **LSTM** o un **Transformer**.
* La variable recomendada es:
  **CO(GT)** (Concentraci√≥n de mon√≥xido de carbono en mg/m¬≥)
  üëâ **Justificaci√≥n:** CO(GT) es una variable con patrones estacionales y tendencias temporales claras, es de inter√©s ambiental y presenta correlaci√≥n con otras mediciones del dataset.
* Desarrollar un modelo b√°sico (low-code) para predecir el valor futuro de CO(GT), usando las variables disponibles como entradas y evaluando el desempe√±o del modelo.


## ‚öôÔ∏è **Instrucciones**

* Esta es una tarea **low-code**: Se proporcionar√°n plantillas de c√≥digo o scripts b√°sicos, enf√≥cate en:

  * Comprender el proceso de imputaci√≥n y modelado.
  * Ejecutar el flujo de trabajo.
  * Interpretar y discutir los resultados: calidad de la imputaci√≥n y precisi√≥n del modelo de predicci√≥n.
* Analizar las m√©tricas (MAE, MSE, RMSE, R¬≤) para la imputaci√≥n y la predicci√≥n.


## ‚úÖ **Entregables**

* Un breve informe que incluya:

  * Gr√°ficos de la serie original, con y sin imputaci√≥n.
  * M√©tricas de evaluaci√≥n de la imputaci√≥n.
  * Gr√°ficos y m√©tricas del modelo LSTM o Transformer (por ejemplo: RMSE en test).
  * Reflexi√≥n sobre la calidad de la imputaci√≥n y el modelo.

## üéØ Generaci√≥n de valores faltantes aleatorios (Missing At Blocks)

En esta parte se introduce un 20% de valores faltantes en el dataset diario en forma de bloques en cada columna. Esto simula errores aislados en la medici√≥n, t√≠picos de fallos espor√°dicos en los sensores.

```python
# ----------------------------------------
# üìå IMPORTAR LIBRER√çAS
# ----------------------------------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno

# ----------------------------------------
# üìå CARGAR EL DATASET
# ----------------------------------------
df = pd.read_csv('https://raw.githubusercontent.com/marsgr6/rna-online/refs/heads/main/data/AirQualityUCI.csv')

# Combina fecha y hora en un solo √≠ndice de tipo datetime
df['DateTime'] = pd.to_datetime(df['Date'] + ' ' + df['Time'], errors='coerce')
df = df.drop(columns=['Date', 'Time'])
df = df.set_index('DateTime')

# Convierte los datos a num√©rico y reemplaza valores negativos por 0
df = df.apply(pd.to_numeric, errors='coerce')
df[df < 0] = 0

# Elimina la columna NMHC(GT) por calidad de datos
if 'NMHC(GT)' in df.columns:
    df = df.drop(columns=['NMHC(GT)'])

# Resamplea a datos diarios calculando la media
df_daily = df.resample('D').mean()
df_original = df_daily.copy()

# ----------------------------------------
# üìå INTRODUCIR VALORES FALTANTES ALEATORIAMENTE POR COLUMNA
# ----------------------------------------
def introduce_missing_per_column(data, frac=0.2):
    """
    Introduce valores faltantes de forma aleatoria por columna.
    
    Par√°metros:
    - data: DataFrame de entrada
    - frac: Fracci√≥n de datos a eliminar por columna
    
    Retorna:
    - data_missing: DataFrame con valores faltantes introducidos
    - nan_mask: M√°scara booleana que marca los NaN introducidos
    """
    data_missing = data.copy()
    nan_mask = pd.DataFrame(False, index=data.index, columns=data.columns)  # M√°scara para rastrear NaNs
    np.random.seed(42)  # Fijar semilla para reproducibilidad

    for column in data.columns:
        n_total = len(data[column])
        n_missing = int(n_total * frac)  # Cantidad de valores a eliminar
        missing_positions = np.random.choice(n_total, n_missing, replace=False)  # √çndices aleatorios
        # Introducir NaN
        data_missing.iloc[missing_positions, data.columns.get_loc(column)] = np.nan
        nan_mask.iloc[missing_positions, data.columns.get_loc(column)] = True

    print(f"Number of missing values introduced: {nan_mask.sum().sum()}")
    return data_missing, nan_mask

def introduce_missing_blocks(data, frac=0.2, block_size=5):
    """
    Introduce missing data in contiguous blocks.

    Parameters:
    - data: DataFrame
    - frac: Fraction of data points to set as NaN
    - block_size: Number of consecutive rows in each missing block

    Returns:
    - data_missing: DataFrame with missing values
    - nan_mask: Boolean DataFrame where True = missing position introduced
    """
    data_missing = data.copy()
    nan_mask = pd.DataFrame(False, index=data.index, columns=data.columns)

    n_total = len(data)
    n_blocks_per_col = int((n_total * frac) / block_size)

    np.random.seed(42)

    for col in data.columns:
        for _ in range(n_blocks_per_col):
            start_idx = np.random.randint(0, n_total - block_size + 1)
            block_idx = data.index[start_idx : start_idx + block_size]

            data_missing.loc[block_idx, col] = np.nan
            nan_mask.loc[block_idx, col] = True

    print(f"Number of missing values introduced: {nan_mask.sum().sum()}")
    return data_missing, nan_mask

df_missing, nan_mask = introduce_missing_blocks(df_daily, frac=0.2, block_size=5)

# Visualize
import missingno as msno
msno.matrix(df_missing, figsize=(12, 5), fontsize=12)
plt.title("Matriz de valores faltantes en bloques por columna")
plt.show()

# ----------------------------------------
# üìå PLOT SERIES TEMPORALES EN 2 COLUMNAS (CON PUNTOS ROJOS PARA MISSING)
# ----------------------------------------
cols = df_missing.columns
n_cols = 2
n_rows = int(np.ceil(len(cols) / n_cols))

fig, axes = plt.subplots(n_rows, n_cols, figsize=(14, 2 * n_rows), sharex=True)

axes = axes.reshape(n_rows, n_cols)

for i, col in enumerate(cols):
    ax = axes[i // n_cols, i % n_cols]

    # Whole series as a blue line
    ax.plot(df_missing.index, df_original[col], color='blue', alpha=0.7, label='Original')

    # Red dots where missing
    ax.plot(df_missing.index[df_missing[col].isna()],
            df_original[col][df_missing[col].isna()],
            'r.', label='Missing', markersize=6)

    ax.set_title(f"{col}")
    ax.set_ylabel(col)

# Remove empty subplots
for j in range(i + 1, n_rows * n_cols):
    fig.delaxes(axes[j // n_cols, j % n_cols])

handles, labels = ax.get_legend_handles_labels()
fig.legend(handles, labels, loc='upper center', ncol=2)
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.suptitle("Daily Time Series with Missing Data Highlighted", fontsize=16)
plt.show()
```

### ‚úÖ Lo que se espera

- Ejecutar el c√≥digo y analizar los gr√°ficos generados.

- Reflexionar: ¬øC√≥mo se distribuyen los valores faltantes aleatorios? ¬øQu√© impacto tendr√≠a esto en la imputaci√≥n?

## üéØ Imputaci√≥n de valores faltantes con SAITS

- Requistos

```Pyton
!pip install pypots==0.11
```

En esta secci√≥n se utiliza el modelo **SAITS** (Self-Attention-based Imputation for Time Series) del paquete `pypots` para imputar los valores faltantes generados previamente.  
El modelo est√° basado en transformers y es capaz de capturar dependencias temporales en las series.

```python
import missingno as msno
import pandas as pd
import numpy as np
from pypots.imputation import SAITS
from sklearn.preprocessing import MinMaxScaler

# ----------------------------------------
# üìå CONFIGURACI√ìN DE PAR√ÅMETROS
# ----------------------------------------
seq_len = 7  # Longitud de la ventana temporal (por ejemplo, 7 d√≠as)
n_features = len(df_missing.columns)  # N√∫mero de variables (columnas)

# ----------------------------------------
# üìå PREPARAR LOS DATOS PARA SAITS
# ----------------------------------------
# Convertir DataFrame a array numpy
data = df_missing.to_numpy(dtype=np.float32)

# Generar ventanas deslizantes de longitud seq_len
n_samples = len(data) - seq_len + 1
X = np.array([data[i:i + seq_len] for i in range(n_samples)])
print("Shape de X:", X.shape)

# ----------------------------------------
# üìå AJUSTAR X PARA QUE COINCIDA CON EL N√öMERO DE D√çAS ORIGINALES
# ----------------------------------------
# Repetir y rellenar filas para cubrir todos los d√≠as
repeat_factor = data.shape[0] // X.shape[0]
extra_rows = data.shape[0] % X.shape[0]

expanded_arr = np.repeat(X, repeat_factor, axis=0)
expanded_arr = np.vstack([expanded_arr, X[:extra_rows]])

# Asegurar que las √∫ltimas filas coincidan con los datos originales
expanded_arr[-extra_rows:, 0, :] = data[-extra_rows:]
print("Shape de X expandido:", expanded_arr.shape)

# ----------------------------------------
# üìå NORMALIZAR LOS DATOS
# ----------------------------------------
scaler = MinMaxScaler()
X_reshaped = expanded_arr.reshape(-1, expanded_arr.shape[-1])
X_scaled = scaler.fit_transform(X_reshaped)
X_scaled = X_scaled.reshape(expanded_arr.shape)
print("Shape de X escalado:", X_scaled.shape)

# ----------------------------------------
# üìå ENTRENAR EL MODELO SAITS
# ----------------------------------------
saits = SAITS(n_steps=seq_len, n_features=n_features,
              n_layers=2, d_model=256, d_ffn=128,
              n_heads=4, d_k=64, d_v=64, dropout=0.1, epochs=100)

dataset = {"X": X_scaled}
saits.fit(dataset)  # Entrenar el modelo
imputation = saits.impute(dataset)  # Imputar los valores faltantes

# ----------------------------------------
# üìå DESNORMALIZAR LA IMPUTACI√ìN
# ----------------------------------------
imputation_reshaped = imputation.reshape(-1, imputation.shape[-1])
imputation_denorm = scaler.inverse_transform(imputation_reshaped)
imputation_denorm = imputation_denorm.reshape(imputation.shape)

# Tomar las primeras posiciones imputadas de cada ventana
imputed_values = imputation_denorm[:, 0, :]
print("Shape de los datos imputados finales:", imputed_values.shape)

# Reconstruir el DataFrame con los valores imputados
data_imputed = pd.DataFrame(imputed_values, columns=df.columns, index=df_original.index[:imputed_values.shape[0]])

# ----------------------------------------
# üìå VISUALIZAR ORIGINAL VS IMPUTADO
# ----------------------------------------
import matplotlib.pyplot as plt

fig, axes = plt.subplots(
    int(np.ceil(len(df_original.columns) / 2)), 2, figsize=(16, 2 * int(np.ceil(len(df_original.columns) / 2)))
)

for ax, col in zip(axes.flat, df_original.columns):
    ax.plot(df_original.index, df_original[col], label="Original", color='blue')
    ax.plot(df_original.index, data_imputed[col], ':', label="Imputed", color='orange')
    ax.set_title(col)

fig.legend(['Original', 'Imputed'], loc='upper center', ncol=2, fontsize=12)
plt.tight_layout(rect=[0, 0, 1, 0.96])
plt.show()
````

## üìä Resultados de la imputaci√≥n con SAITS

| Variable        | MAE    | MSE       | RMSE   | R¬≤      |
|-----------------|--------|-----------|--------|---------|
| CO(GT)          | 0.281  | 0.106     | 0.326  | 0.746   |
| PT08.S1(CO)     | 61.061 | 5673.883  | 75.325 | 0.850   |
| C6H6(GT)        | 0.995  | 1.878     | 1.370  | 0.872   |
| PT08.S2(NMHC)   | 37.641 | 2561.053  | 50.607 | 0.929   |
| NOx(GT)         | 48.429 | 3705.005  | 60.869 | 0.866   |
| PT08.S3(NOx)    | 70.764 | 9218.081  | 96.011 | 0.780   |
| NO2(GT)         | 15.125 | 357.961   | 18.920 | 0.861   |
| PT08.S4(NO2)    | 78.496 | 10095.427 | 100.476| 0.858   |
| PT08.S5(O3)     | 94.586 | 13372.547 | 115.640| 0.864   |
| T               | 2.115  | 6.943     | 2.635  | 0.840   |
| RH              | 6.708  | 65.337    | 8.083  | 0.674   |
| AH              | 0.125  | 0.022     | 0.147  | 0.859   |


### üí° Preguntas  
- ¬øQu√© variables presentan la imputaci√≥n m√°s precisa seg√∫n R¬≤? ¬øPor qu√© creen que ocurre?
- ¬øQu√© caracter√≠sticas del dataset podr√≠an dificultar la imputaci√≥n de ciertas variables?
- ¬øEl error de imputaci√≥n ser√≠a aceptable para un an√°lisis ambiental? ¬øPor qu√©?


## üéØ Modelado de CO(GT) usando Transformer

Una vez imputados los valores faltantes, el objetivo es **modelar la serie temporal de CO(GT)** para predecir su valor futuro a partir de sus valores anteriores y/o las dem√°s variables.

üëâ **Variable objetivo**: CO(GT)  
üëâ **Justificaci√≥n**: Es una variable ambiental clave, con tendencia y estacionalidad diarias evidentes, lo que la hace adecuada para modelado secuencial.

### üìå Descripci√≥n del flujo
El modelo Transformer recibe secuencias pasadas y aprende a predecir el siguiente valor de CO(GT).

### üìå C√≥digo base

```python
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset

# ----------------------------------------
# üìå PREPARAR LOS DATOS
# ----------------------------------------
seq_len = 7  # Usaremos 7 d√≠as como ventana (se puede ajustar)

# Tomamos la serie imputada
series = data_imputed['CO(GT)'].to_numpy(dtype=np.float32)

# Generar secuencias y etiquetas
X = []
y = []
for i in range(len(series) - seq_len):
    X.append(series[i:i + seq_len])
    y.append(series[i + seq_len])

X = np.array(X)  # (n_samples, seq_len)
y = np.array(y)  # (n_samples,)

# A√±adir dimensi√≥n de caracter√≠sticas (1 caracter√≠stica: CO)
X = X[..., np.newaxis]  # (n_samples, seq_len, 1)

# Crear dataloader
batch_size = 16
dataset = TensorDataset(torch.from_numpy(X), torch.from_numpy(y))
loader = DataLoader(dataset, batch_size=batch_size, shuffle=True)

# ----------------------------------------
# üìå DEFINIR EL TRANSFORMER
# ----------------------------------------
class SimpleTransformer(nn.Module):
    def __init__(self, seq_len, d_model=64, nhead=4, num_layers=2):
        super().__init__()
        self.input_proj = nn.Linear(1, d_model)
        encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead)
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        self.output = nn.Linear(d_model, 1)

    def forward(self, x):
        # x: (batch, seq_len, 1)
        x = self.input_proj(x)  # (batch, seq_len, d_model)
        x = x.permute(1, 0, 2)  # Transformer espera (seq_len, batch, d_model)
        x = self.transformer(x)
        x = x[-1]  # Tomamos la salida del √∫ltimo paso temporal
        x = self.output(x).squeeze(1)  # (batch,)
        return x

# Instanciar el modelo
model = SimpleTransformer(seq_len=seq_len)

# ----------------------------------------
# üìå ENTRENAR
# ----------------------------------------
loss_fn = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

n_epochs = 50
for epoch in range(n_epochs):
    model.train()
    epoch_loss = 0
    for batch_X, batch_y in loader:
        optimizer.zero_grad()
        pred = model(batch_X)
        loss = loss_fn(pred, batch_y)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
    print(f"Epoch {epoch+1}/{n_epochs}, Loss: {epoch_loss / len(loader):.4f}")

# ----------------------------------------
# üìå EVALUAR (p. ej. en todo el conjunto)
# ----------------------------------------
model.eval()
with torch.no_grad():
    y_pred = model(torch.from_numpy(X)).numpy()

import matplotlib.pyplot as plt
plt.figure(figsize=(10, 4))
plt.plot(y, label='True')
plt.plot(y_pred, label='Predicted', linestyle=':')
plt.legend()
plt.title("Predicci√≥n de CO(GT) con Transformer")
plt.show()
````

### ‚úÖ Lo que debes hacer

* Ejecutar el c√≥digo.
* Observar las predicciones generadas.
* Reflexionar: ¬øC√≥mo se ajusta el modelo a los datos? ¬øQu√© podr√≠amos mejorar (m√°s capas, regularizaci√≥n, m√°s features)?

## üéØ Forecasting multivariado de CO con Transformer

El objetivo es modelar y predecir el CO utilizando un Transformer multivariado.  
üëâ El modelo aprende a partir de los datos previos y se eval√∫a su desempe√±o sobre un conjunto de test (√∫ltimo 20% del tiempo).

Se graficar√° la serie completa mostrando el ajuste y se comparar√°n los valores reales y predichos en test.


### üìå C√≥digo base

```python
import torch
import torch.nn as nn
from torch.utils.data import DataLoader, TensorDataset
import numpy as np
import matplotlib.pyplot as plt

# ----------------------------------------
# üìå PREPARAR LOS DATOS
# ----------------------------------------
seq_len = 7
data_arr = data_imputed.to_numpy(dtype=np.float32)

# Secuencias y etiquetas
X = []
y = []
for i in range(len(data_arr) - seq_len):
    X.append(data_arr[i:i + seq_len])
    y.append(data_arr[i + seq_len][data_imputed.columns.get_loc('CO(GT)')])

X = np.array(X)
y = np.array(y)

# Separar train / test (80% / 20%)
split_idx = int(0.8 * len(X))
X_train, X_test = X[:split_idx], X[split_idx:]
y_train, y_test = y[:split_idx], y[split_idx:]

# DataLoader
batch_size = 16
train_loader = DataLoader(TensorDataset(torch.from_numpy(X_train), torch.from_numpy(y_train)),
                          batch_size=batch_size, shuffle=True)

# ----------------------------------------
# üìå DEFINIR EL TRANSFORMER
# ----------------------------------------
class ForecastTransformer(nn.Module):
    def __init__(self, n_features, d_model=64, nhead=4, num_layers=2):
        super().__init__()
        self.input_proj = nn.Linear(n_features, d_model)
        encoder_layer = nn.TransformerEncoderLayer(d_model=d_model, nhead=nhead)
        self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        self.output = nn.Linear(d_model, 1)

    def forward(self, x):
        x = self.input_proj(x)  # (batch, seq_len, d_model)
        x = x.permute(1, 0, 2)  # (seq_len, batch, d_model)
        x = self.transformer(x)
        x = x[-1]
        x = self.output(x).squeeze(1)
        return x

model = ForecastTransformer(n_features=X.shape[2])

# ----------------------------------------
# üìå ENTRENAR
# ----------------------------------------
loss_fn = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
n_epochs = 50

for epoch in range(n_epochs):
    model.train()
    epoch_loss = 0
    for batch_X, batch_y in train_loader:
        optimizer.zero_grad()
        pred = model(batch_X)
        loss = loss_fn(pred, batch_y)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
    print(f"Epoch {epoch+1}/{n_epochs}, Loss: {epoch_loss / len(train_loader):.4f}")

# ----------------------------------------
# üìå PREDICCIONES
# ----------------------------------------
model.eval()
with torch.no_grad():
    y_pred_train = model(torch.from_numpy(X_train)).numpy()
    y_pred_test = model(torch.from_numpy(X_test)).numpy()

# ----------------------------------------
# üìå PLOT DE LA SERIE COMPLETA
# ----------------------------------------
plt.figure(figsize=(12, 5))
plt.plot(range(len(y)), y, label='True CO(GT)', color='blue')
plt.plot(range(seq_len, seq_len + len(y_pred_train)), y_pred_train, label='Predicted Train', color='green', alpha=0.7)
plt.plot(range(seq_len + len(y_pred_train), seq_len + len(y_pred_train) + len(y_pred_test)),
         y_pred_test, label='Predicted Test', color='orange', linestyle=':')
plt.axvline(seq_len + len(y_pred_train), color='gray', linestyle='--', label='Train/Test Split')
plt.legend()
plt.title("CO(GT) Forecasting - True vs Predicted (Train + Test)")
plt.xlabel("Time step")
plt.ylabel("CO(GT)")
plt.show()

# ----------------------------------------
# üìå PLOT COMPARATIVO TEST FINAL
# ----------------------------------------
plt.figure(figsize=(10, 4))
plt.plot(y_test, label='True CO(GT)', color='blue')
plt.plot(y_pred_test, label='Predicted CO(GT)', color='orange', linestyle=':')
plt.legend()
plt.title("CO(GT) Forecasting - Test Set Detail")
plt.xlabel("Time step")
plt.ylabel("CO(GT)")
plt.show()
```

### ‚úÖ Lo que se espera

* Analizar el gr√°fico de la serie completa: ¬øc√≥mo se ajusta el modelo en train y en test?
* Observar el detalle en test: ¬øqu√© tan bien predice el modelo los valores futuros?
* Proponer mejoras si fuera necesario (m√°s capas, regularizaci√≥n, ajuste de hiperpar√°metros).

- **Vea las recomendaciones al final de la Opci√≥n 2 para incluir posibles mejoras en el modelo.**

# üìù **Opci√≥n 2 - Informe ejecutivo: Imputaci√≥n de valores faltantes y forecasting de CO(GT)**

## üìå **Contexto**

El trabajo se realiz√≥ sobre un conjunto de datos de calidad del aire recogido en una estaci√≥n en Italia (2004-2005), con variables como CO(GT), NOx(GT), sensores PT08.\*, temperatura (T), humedad relativa (RH) y humedad absoluta (AH).

## üìù **Instrucci√≥n para el informe ejecutivo**

En esta opci√≥n de **informe ejecutivo**, el estudiante no debe centrarse en el c√≥digo ni en su ejecuci√≥n. El objetivo es que:

‚úÖ **Analice cr√≠ticamente los resultados obtenidos**, bas√°ndose en:

* Las figuras proporcionadas: visualizaci√≥n de valores faltantes, imputaci√≥n realizada por SAITS, y predicciones del modelo Transformer.
* Las m√©tricas de evaluaci√≥n de la imputaci√≥n (MAE, MSE, RMSE, R¬≤ por variable).
* Las m√©tricas del modelo de forecasting (MAE, MSE, RMSE, R¬≤ en test).

‚úÖ **Discuta los aciertos y limitaciones**:

* ¬øQu√© variables se imputaron mejor y por qu√©?
* ¬øQu√© patrones se observan en las figuras de imputaci√≥n y forecasting?
* ¬øQu√© dificultades tuvo el modelo para generalizar al conjunto de test?

‚úÖ **Proponga recomendaciones para mejorar**:

* Argumentar c√≥mo podr√≠an optimizarse los resultados, considerando pistas como:

  * Aumentar la longitud de la ventana temporal (`seq_len`).
  * Ajustar el n√∫mero de capas, cabezas de atenci√≥n y dimensiones del Transformer.
  * Aplicar mayor regularizaci√≥n (dropout, weight decay).
  * Explorar otras arquitecturas como LSTM, TCN o enfoques h√≠bridos.
  * Incorporar variables adicionales o ex√≥genas (por ejemplo: estacionales, d√≠a de la semana).

‚úÖ **Redacte un informe claro y estructurado**, que:

* Incluya las figuras proporcionadas como soporte visual.
* Presente las m√©tricas en tablas.
* Explique los resultados en un lenguaje t√©cnico, pero accesible.

### üí° **Pautas adicionales**

üëâ El informe debe responder a preguntas como:

* ¬øQu√© evidencian los gr√°ficos en relaci√≥n con la imputaci√≥n y el forecasting?
* ¬øQu√© m√©tricas destacan por su buen o mal desempe√±o?
* ¬øQu√© tan adecuados son los resultados para un an√°lisis ambiental real?

üëâ Se espera un an√°lisis reflexivo y bien argumentado, que sirva como base para futuras mejoras del proceso.


## üéØ **Generaci√≥n y visualizaci√≥n de valores faltantes**

Se introdujo un 20% de valores faltantes en bloques para simular fallos de sensores.

üìå **Figura: Matriz de valores faltantes en bloques**
![Matriz de valores faltantes](https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/mv_blocks_ts_4.png)

üìå **Figura: Series temporales con valores faltantes resaltados**
![Series temporales con missing](https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts_mv_blocks_ts_4.png)

**Observaciones**:

* Los valores faltantes se distribuyen en tramos consecutivos en todas las variables.
* Las series temporales muestran los huecos (en rojo) que representan los bloques de datos faltantes.

## üéØ **Imputaci√≥n con SAITS**

Se aplic√≥ el modelo SAITS para completar los datos.

üìå **Figura: Comparaci√≥n de series originales vs imputadas**
![Imputaci√≥n SAITS](https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/ts_imputation_saits_ts_4.png)

### üìä **M√©tricas de evaluaci√≥n de la imputaci√≥n**

| Variable      | MAE    | MSE       | RMSE    | R¬≤    |
| ------------- | ------ | --------- | ------- | ----- |
| CO(GT)        | 0.281  | 0.106     | 0.326   | 0.746 |
| PT08.S1(CO)   | 61.061 | 5673.883  | 75.325  | 0.850 |
| C6H6(GT)      | 0.995  | 1.878     | 1.370   | 0.872 |
| PT08.S2(NMHC) | 37.641 | 2561.053  | 50.607  | 0.929 |
| NOx(GT)       | 48.429 | 3705.005  | 60.869  | 0.866 |
| PT08.S3(NOx)  | 70.764 | 9218.081  | 96.011  | 0.780 |
| NO2(GT)       | 15.125 | 357.961   | 18.920  | 0.861 |
| PT08.S4(NO2)  | 78.496 | 10095.427 | 100.476 | 0.858 |
| PT08.S5(O3)   | 94.586 | 13372.547 | 115.640 | 0.864 |
| T             | 2.115  | 6.943     | 2.635   | 0.840 |
| RH            | 6.708  | 65.337    | 8.083   | 0.674 |
| AH            | 0.125  | 0.022     | 0.147   | 0.859 |

**An√°lisis**:

* Las variables como PT08.S2(NMHC), PT08.S1(CO) y C6H6(GT) presentan R¬≤ altos (>0.85), indicando una buena imputaci√≥n.
* RH muestra menor desempe√±o (R¬≤ = 0.674), probablemente debido a mayor variabilidad o menor dependencia de otras variables.

## üéØ **Forecasting multivariado de CO(GT) con Transformer**

El modelo Transformer fue entrenado con las variables imputadas para predecir CO(GT).

üìå **Figura: True vs Predicted (Train + Test)**
![Transformer CO Forecasting](https://raw.githubusercontent.com/marsgr6/r-scripts/refs/heads/master/imgs/transformer_co_ts_4.png)

### üìä **M√©tricas de forecasting (test set)**

| M√©trica | Valor  |
| ------- | ------ |
| MAE     | 0.709  |
| MSE     | 0.884  |
| RMSE    | 0.940  |
| R¬≤      | -0.404 |

**An√°lisis**:

* El R¬≤ negativo indica que el modelo no supera un predictor constante (media de la serie), sugiriendo sobreajuste o insuficiente captura de la din√°mica temporal.
* Visualmente, el modelo sigue bien la tendencia en train, pero las predicciones en test son planas o desacopladas del patr√≥n real.

## üí° **Reflexiones y propuestas de mejora**

‚úÖ **SAITS**

* SAITS logra buena calidad de imputaci√≥n en la mayor√≠a de variables.
* Las variables con menor R¬≤ podr√≠an beneficiarse de una imputaci√≥n combinada (e.g. interpolaci√≥n + SAITS).

‚úÖ **Transformer**

* Incrementar la longitud de las secuencias (por ejemplo seq\_len > 7).
* A√±adir regularizaci√≥n (mayor dropout, weight decay).
* Probar ajustes de hiperpar√°metros: m√°s capas, m√°s cabezas de atenci√≥n.
* Explorar arquitecturas alternativas como LSTM o TCN.

‚úÖ **General**

* Considerar agregar variables externas (e.g. d√≠a de la semana) como input al modelo.

üëâ **Siguiente paso sugerido:** Implementar un proceso de validaci√≥n cruzada y tuning de hiperpar√°metros para el Transformer.