### Introducción a las series temporales

Procesar correctamente diferentes tipos de datos requiere de transformaciones matemáticas concretas
(por ejemplo, transformar una característica categórica en one-hot-encoding) o estructuras de redes especiales (por ejemplo, redes convolucionales para procesar imágenes) para poder tener en cuenta aquellas características concretas que tienen esas estructuras de datos. De forma análoga, parece interesante pensar que un estudio acerca de qué son los datos de naturaleza secuencial puede llevar a proporcionar la intuición sobre la forma en que se debería estructurar una red que sea capaz de
extraer información de este tipo de datos. 

Aquí hay que partir de lo que se considera una serie temporal; cualquier dato que haya sido recogido en intervalos de tiempo constituye una serie temporal. Es un conjunto de observaciones donde la relación de obtención de cada punto importa y puede aportar mucha información del fenómeno
que se intenta resolver. Cambiar su orden cambiaría el significado de los datos y, por tanto, sería una fuente de ruido para los modelos. Un ejemplo de serie temporal puede ser el ejemplo que se muestra a continuación: 

Ejemplo de serie temporal, coches vendidos por mes en un concesionario, entre enero de
2018 y enero de 2020.

<img src="figs/sales.png" alt="Total de coches vendidos" width="60%">

En este caso, hay una variable dependiente del tiempo que va desde enero de 2018 hasta diciembre de 2020 con frecuencia mensual. Para cada mes, se tiene el número de coches vendidos y hay, por tanto, un total de 36 valores en la serie temporal. 

El ejemplo es un caso de serie temporal univariante. Si hubiera múltiples variables
dependientes del tiempo (por ejemplo, las ventas de coches en los concesionarios de
la ciudad) se estaría hablando de serie temporal multivariante.

<img src="figs/sales-multivariante.png" alt="Total de coches vendidos" width="60%">

El análisis de series temporales tiene una enorme aplicabilidad en múltiples disciplinas científicas:

- **Economía**: análisis de precios y demandas.
- **Marketing**: seguimiento de ventas y evolución de productos.
- **Medicina**: análisis de bioseñales (ECG, EEG, EOG) y datos clínicos como:
  - Número de pacientes en urgencias.
  - Demanda de especialistas.
  - Llamadas a servicios de emergencia (112).

- **Meteorología/Climatología**: análisis y predicción de fenómenos climáticos, especialmente relevantes por el cambio climático.
- **IoT (Internet of Things)**: análisis de datos capturados por sensores en procesos, personas o dispositivos.

## Series Temporales y Datos Secuenciales

Más allá de las series temporales clásicas, existen datos secuenciales que también pueden ser tratados con técnicas similares:

- **Lenguaje natural (NLP)**:
  - Predicción de palabras.
  - Resumen y traducción de textos.
  - Generación de imágenes a partir de texto.

- **Sonido**:
  - Identificación de género musical.
  - Comparación entre canciones.
  - Transcripción de voz a texto.
  - Generación de imágenes desde sonido.

> Se recomienda consultar bibliografía especializada en NLP para un tratamiento más profundo de estos temas.

## Preprocesamiento de Datos

El éxito de un modelo de aprendizaje profundo depende en gran medida del procesamiento adecuado de los datos. Para ello, es esencial comprender propiedades clave de las series temporales como:

- **Tendencia**
- **Estacionalidad**
- **Estacionariedad**

Estas propiedades serán introducidas en este capítulo para mejorar la preparación de datos antes del modelado.

La tendencia: Es un comportamiento que muestra el desplazamiento lineal de los valores de la serie temporal sobre un gran periodo de tiempo. Dicho de otra forma, se observa una tendencia cuando hay un comportamiento lineal que puede tener una pendiente positiva o negativa dentro de la serie
temporal.

<img src="figs/tendencia.png" alt="Total de coches vendidos" width="40%">

La tendencia no tiene por qué ser constante en una serie temporal: puede cambiar de creciente a decreciente, o puede incluso cambiar su pendiente según va avanzando el tiempo. Existe incluso la posibilidad de que no aparezca una tendencia clara en la serie temporal.

$$
X_t = \frac{1}{N} \sum_{k=0}^{N-1} X_{t-k}
$$

La media móvil permite eliminar pequeñas oscilaciones obteniendo la tendencia de la serie temporal en cada punto. La serie temporal obtenida es menos sensible a las vibraciones de alta frecuencia, centrándose en los comportamientos a largo plazo.

<img src="figs/media.png" alt="Total de coches vendidos" width="50%">

El cálculo de la media móvil depende del parámetro N; este parámetro determina las frecuencias de las oscilaciones de alta frecuencia que son eliminadas/amortiguadas. Se puede demostrar que esta operación de promediado actúa como un filtro pasa-baja, sistema que deja pasar las bajas frecuencias y elimina las altas. A mayor valor de N, más datos se cogen para el cálculo de la media y una mayor cantidad de altas frecuencias son eliminadas. En la práctica, es interesante escoger un valor de N que permita eliminar el ruido a corto plazo, pero no tan grande como para obviar los movimientos de la tendencia que, precisamente, se quieren obtener con la media móvil; aquí el conocimiento del experto en
el problema es fundamental.

<img src="figs/medias.png" alt="Total de coches vendidos" width="60%">

Estacionalidad. Es una característica de las series temporales en la que los datos experimentan cambios regulares y predecibles con una frecuencia constante. Esta frecuencia puede ser, por ejemplo, diaria, semanal o mensual.

Cualquier fluctuación predecible de frecuencia constante que aparezca en una serie temporal se dice que es estacional. 

Aparece de forma natural en muchos procesos medidos. El consumo eléctrico en una casa presenta una frecuencia estacional diaria (cuando estamos durmiendo, no se consume electricidad, por ejemplo). Además, el consumo eléctrico crece en las épocas frías como otoño e invierno, por lo que se aprecia también una estacionalidad de frecuencia anual. Otro ejemplo son las ventas de productos por internet

<img src="figs/estacionalidad.png" alt="Total de coches vendidos" width="60%">

En la figura (A), se puede observar que la gente tiende a comprar más productos en las cercanías del fin de semana: se puede apreciar gráficamente la estacionalidad semanal. En la figura (B) se representa la misma cantidad que en la gráfica superior, pero en un intervalo temporal anterior. Este intervalo temporal coincidió con una campaña de marketing agresiva que popularizó la tienda e hizo que las ventas crecieran mucho. Las dos series temporales presentan la misma estacionalidad, a pesar de que sus valores máximos y mínimos en distintos puntos sean tan distintos. 


Uno de los métodos utilizados comúnmente para cuantificar esta estacionalidad de forma matemática es usar la operación de diferenciación. Consiste en obtener una nueva serie temporal a partir de la original calculando diferencias de valores en diferentes instantes de tiempo. La diferenciación
de primer orden de una serie temporal sería la siguiente:

$$
X^1_t = X_t - X_{t-1}
$$


En este caso, la nueva serie temporal diferenciada tendría una entrada menos que la serie temporal original. La diferenciación necesaria para eliminar la tendencia estacional es la diferenciación estacional. Se calcula aplicando la diferencia entre la observación y la observación anterior en
la misma posición de la estación. Por ejemplo, en el ejemplo descrito anteriormente, la diferencia estacional del día jueves 28/02 se calcularía restando el valor original del jueves 28/02 con el valor del jueves anterior, 21/02, expresado matemáticamente:

$$
X^1_t = X_t - X_{t-p}
$$

Donde pes el periodo estacional, en el ejemplo descrito anteriormente,p = 7.

<img src="figs/desestacional.png" alt="Total de coches vendidos" width="60%">

Estacionariedad. Una serie temporal es estacionaria si su media y su desviación estándar se mantienen constantes en el tiempo. Gráficamente, esto se puede apreciar cuando los valores de la serie oscilan alrededor de una media constante y la variabilidad con respecto a esa media
también permanece constante en el tiempo. Las series que presenten una tendencia o una estacionalidad no son estacionarias, pero se pueden utilizar los métodos descritos anteriormente para intentar transformar una serie en estacionaria. Existe la posibilidad de que simplemente con estos
métodos no se pueda transformar la serie en estacionaria y haga falta
echar mano de otros métodos,(que sucede con las redes recurrentes aquí??)

Una vez vistas las características básicas de una serie temporal, haremos un rápido repaso a los métodos clásicos antes de explicar los basados en Aprendizaje Profundo.

Existe un gran número de modelos utilizados para modelizar y realizar predicciones en series temporales. Estos modelos tienen como característica general su **linealidad**, es decir, presentan dependencia lineal con errores pasados y/o con valores anteriores de la serie.

### Tipos de modelos clásicos

- **MA (Moving Average)**: modelos que consideran los errores pasados.
- **AR (Autoregressive)**: modelos que consideran valores anteriores de la serie.
- **ARMA**: combinación de AR y MA.  
  Son modelos **flexibles**, ya que el número de entradas/salidas se puede ajustar según el problema.

Los **parámetros**, principalmente el orden del modelo, se pueden estimar mediante la **autocorrelación** y la **correlación parcial** de la serie.

### Extensiones y variantes

- **ARIMA**: incorpora diferencias entre valores para eliminar tendencias constantes.
- **SARIMA**: añade componentes estacionales al modelo ARIMA.
- **ARMAX**: añade **variables exógenas** (externas a la serie).  
  Combinaciones comunes:
  - **ARIMAX**
  - **SARIMAX**

- **NARX**: versión **no lineal** de ARX.  
  Aunque más complejos de ajustar e interpretar, son más potentes en modelización.

- **ARCH (Autoregressive Conditional Heteroskedasticity)**:  
  Diseñado para series con cambios abruptos y no estacionarios, como las económicas.

- **GARCH (Generalized ARCH)**:  
  Extiende ARCH para capturar patrones más complejos de heterocedasticidad condicional.


## Redes Neuronales en Series Temporales: TDNN

Una forma directa de aplicar un modelo neuronal a problemas de series temporales es utilizar como **entradas**:

- Los valores actuales de la serie.
- Valores anteriores (retardos).
- Otras variables adicionales que se quieran considerar.

Esta estructura se conoce como **TDNN (Time Delay Neural Network)**.

### Esquema conceptual de una TDNN

La red TDNN está compuesta por capas ocultas que reciben entradas retardadas de la serie \( x \), junto con otras entradas relevantes \( e \). La salida puede representar una **predicción futura** de la serie, por ejemplo \( \hat{y}_{t+p} \), siendo \( p \) el horizonte de predicción.

```text
Entradas: x(t), x(t-1), ..., x(t-n), e(t)
           │
           ▼
    ┌─────────────┐
    │ Capa oculta 1 │
    └─────────────┘
           │
           ▼
    ┌─────────────┐
    │ Capa oculta 2 │
    └─────────────┘
           │
           ▼
      Predicción: ŷ(t+p)


## Redes Neuronales Recurrentes (RNN)

Las **Redes Neuronales Recurrentes** (RNN) son una clase de redes diseñadas para procesar datos secuenciales, como las series temporales. La característica principal de estas redes es que **mantienen una memoria** de valores anteriores al actual, permitiendo modelar dependencias temporales.

### ¿Cómo funcionan?

Una RNN tiene una estructura similar a una red densa:  
- Cada valor de la serie pasa por una neurona distinta.
- Cada neurona aplica un conjunto de pesos.

Sin embargo, **a diferencia de una red densa**, en una RNN:
- El resultado de cada neurona se utiliza también en la siguiente neurona.
- Es decir, **se transmite información desde los pasos anteriores a los siguientes**.

### Ejemplo de funcionamiento

Dada una serie temporal \( \{x_0, x_1, \dots, x_t\} \), donde \( x_i \) es el valor en la posición \( i \):

- El primer elemento \( x_0 \) pasa por la primera neurona y se transforma en una salida \( y_0 \) tras aplicar pesos y sesgo.
- Para el segundo elemento, la neurona calcula \( y_1 \) usando:
  - \( x_1 \): la entrada actual.
  - \( y_0 \): el resultado de la celda anterior.

Este patrón se repite para todos los pasos de la secuencia, haciendo que las neuronas **compartan información secuencialmente**.

> Figura 4.11: Representación de una RNN. A la izquierda, una vista "enrollada"; a la derecha, la versión "desplegada" que muestra el flujo de datos paso a paso.

### Representación matemática

El funcionamiento interno de una neurona en una RNN se puede expresar como:

```math
Y_t = f(W \cdot X_t + U \cdot Y_{t-1} + b)


Donde:

    W: pesos para la entrada actual XtXt​

    U: pesos para la salida anterior Yt−1Yt−1​

    b: sesgo

    f: función de activación (como tanh o ReLU)

Puntos clave sobre las RNN

    Memoria contextual
    La red aprende a mantener y transportar información útil a lo largo del tiempo para capturar el contexto temporal.

    Salida de la red
    El resultado final suele ser el estado de la última celda YfinalYfinal​, que se compara con el valor real para calcular la pérdida y retropropagar el error.

    Salidas intermedias
    En algunos casos, se pueden usar todas las salidas intermedias de la red:
    {Y0,Y1,…,Yt}{Y0​,Y1​,…,Yt​}, aunque esto es menos común.

## Preparación de datos para una RNN

Para usar correctamente una **Red Neuronal Recurrente (RNN)**, las entradas deben tener una estructura secuencial o depender del tiempo.

### Formato de entrada

Una entrada típica en una RNN tiene **3 dimensiones**:

(n, t, f)


Donde:
- `n`: número de muestras.
- `t`: número de pasos temporales (longitud de la serie).
- `f`: número de características por paso temporal.

> - Para series univariantes: `f = 1`  
> - Para series multivariantes: `f > 1`

La salida de la red tendrá la forma:

(n, f')


Donde `f'` puede representar, por ejemplo, el número de pasos futuros a predecir.

---

## Transformación supervisada mediante "enventanado"

Dado que queremos **predecir valores futuros** a partir de valores pasados, el problema se transforma en un problema de **aprendizaje supervisado** usando un proceso llamado **enventanado de datos**.

### ¿Qué es el enventanado?

Consiste en tomar ventanas deslizantes de la serie temporal para generar pares de entrada/salida.

### Procedimiento paso a paso

1. **Elegir un tamaño de ventana** \( w \): número de pasos del pasado que se usarán como entrada.
2. **Crear la primera ventana**:  
   Tomar los primeros \( w \) elementos de la serie:  
   \[
   \text{Entrada} = [x_0, x_1, ..., x_{w-1}]
   \]  
   La **etiqueta (output)** asociada será:  
   \[
   x_w
   \]
3. **Desplazar la ventana una posición** y repetir:  
   \[
   \text{Entrada} = [x_1, ..., x_w], \quad \text{Etiqueta} = x_{w+1}
   \]
4. **Repetir hasta el final de la serie**.  
   Para una serie temporal de longitud \( T \), se generarán:
   \[
   T - w - 1 \quad \text{ventanas}
   \]

> Este proceso convierte una única serie temporal en un conjunto de muestras supervisadas listas para entrenar la RNN.


<img src="figs/rnn.png" alt="Total de coches vendidos" width="60%">

De la misma manera que en el resto de los problemas vistos anteriormente, es conveniente dividir la totalidad de los datos de los que se dispone en conjuntos de entrenamiento, validación y test. Sin embargo, los datos temporales tienen la característica de que el orden importa, por lo que no se pueden dividir de forma arbitraria. Los datos temporales han de dividirse en conjuntos ordenados en 3
fragmentos de tiempo. El tamaño de cada uno de los fragmentos será equivalente al porcentaje de datos que se destinarán a entrenamiento, validación y test. Esta división ha de ser previa al proceso de enventanado descrito anteriormente, ya que, si el corte se hace con la serie temporal original va a producirse una transferencia de información entre los conjuntos de datos. Por ejemplo, se puede tener que datos de las ventanas finales del conjunto de entrenamiento también aparecerán en el conjunto de
validación y lo mismo ocurrirá con el conjunto de validación y de test. Destacar que estos fragmentos no hace falta que sigan ningún orden concreto. Incluso se puede intercalar el conjunto de test en el interior del conjunto de entrenamiento. 

<img src="figs/split.png" alt="Total de coches vendidos" width="60%">

## Backpropagation en redes neuronales

En una red neuronal tradicional (MLP o convolucional):

- La **información fluye de forma secuencial** entre las capas.
- No hay **realimentación** entre capas o neuronas.
- Durante la retropropagación, el flujo de información se invierte:  
  desde la **última capa** hacia la **primera capa**.

---

## Retropropagación en redes recurrentes

En una **Red Neuronal Recurrente (RNN)**:

- La información se transmite no solo entre capas, sino también **entre neuronas dentro de una misma capa**, a lo largo del tiempo.
- Esto genera una **mayor cantidad de operaciones** para calcular la salida.

El algoritmo de aprendizaje en RNN se llama:

### 🔄 Backpropagation Through Time (BTT)

Este algoritmo extiende la retropropagación tradicional para tener en cuenta las **realimentaciones** temporales entre neuronas.

---

### 🧱 Problemas del BTT

1. **Olvido de largo plazo**:
   - Si los pesos que transmiten la información entre celdas son pequeños, la información se **desvanece** al recorrer muchas celdas.
   - Esto impide que la red recuerde eventos **lejanos en el tiempo**.

2. **Desvanecimiento/explosión del gradiente**:
   - Debido al gran número de operaciones acumuladas, los **gradientes pueden desaparecer** (hacerse muy pequeños) o **explotar** (hacerse muy grandes).
   - Esto **dificulta el entrenamiento** de la red.

---

## Soluciones: GRU y LSTM

Para solventar estos problemas se han desarrollado variantes de RNN como:

- **GRU** (Gated Recurrent Unit)
- **LSTM** (Long Short-Term Memory)

Ambas:

- Introducen **mecanismos de control (puertas)** que regulan el paso y almacenamiento de información.
- Son capaces de **recordar información relevante a largo plazo**.
- **Mitigan el desvanecimiento del gradiente**, mejorando el proceso de aprendizaje.
