### Introducci√≥n a las series temporales

Procesar correctamente diferentes tipos de datos requiere de transformaciones matem√°ticas concretas
(por ejemplo, transformar una caracter√≠stica categ√≥rica en one-hot-encoding) o estructuras de redes especiales (por ejemplo, redes convolucionales para procesar im√°genes) para poder tener en cuenta aquellas caracter√≠sticas concretas que tienen esas estructuras de datos. De forma an√°loga, parece interesante pensar que un estudio acerca de qu√© son los datos de naturaleza secuencial puede llevar a proporcionar la intuici√≥n sobre la forma en que se deber√≠a estructurar una red que sea capaz de
extraer informaci√≥n de este tipo de datos. 

Aqu√≠ hay que partir de lo que se considera una serie temporal; cualquier dato que haya sido recogido en intervalos de tiempo constituye una serie temporal. Es un conjunto de observaciones donde la relaci√≥n de obtenci√≥n de cada punto importa y puede aportar mucha informaci√≥n del fen√≥meno
que se intenta resolver. Cambiar su orden cambiar√≠a el significado de los datos y, por tanto, ser√≠a una fuente de ruido para los modelos. Un ejemplo de serie temporal puede ser el ejemplo que se muestra a continuaci√≥n: 

Ejemplo de serie temporal, coches vendidos por mes en un concesionario, entre enero de
2018 y enero de 2020.

<img src="figs/sales.png" alt="Total de coches vendidos" width="60%">

En este caso, hay una variable dependiente del tiempo que va desde enero de 2018 hasta diciembre de 2020 con frecuencia mensual. Para cada mes, se tiene el n√∫mero de coches vendidos y hay, por tanto, un total de 36 valores en la serie temporal. 

El ejemplo es un caso de serie temporal univariante. Si hubiera m√∫ltiples variables
dependientes del tiempo (por ejemplo, las ventas de coches en los concesionarios de
la ciudad) se estar√≠a hablando de serie temporal multivariante.

<img src="figs/sales-multivariante.png" alt="Total de coches vendidos" width="60%">

El an√°lisis de series temporales tiene una enorme aplicabilidad en m√∫ltiples disciplinas cient√≠ficas:

- **Econom√≠a**: an√°lisis de precios y demandas.
- **Marketing**: seguimiento de ventas y evoluci√≥n de productos.
- **Medicina**: an√°lisis de biose√±ales (ECG, EEG, EOG) y datos cl√≠nicos como:
  - N√∫mero de pacientes en urgencias.
  - Demanda de especialistas.
  - Llamadas a servicios de emergencia (112).

- **Meteorolog√≠a/Climatolog√≠a**: an√°lisis y predicci√≥n de fen√≥menos clim√°ticos, especialmente relevantes por el cambio clim√°tico.
- **IoT (Internet of Things)**: an√°lisis de datos capturados por sensores en procesos, personas o dispositivos.

## Series Temporales y Datos Secuenciales

M√°s all√° de las series temporales cl√°sicas, existen datos secuenciales que tambi√©n pueden ser tratados con t√©cnicas similares:

- **Lenguaje natural (NLP)**:
  - Predicci√≥n de palabras.
  - Resumen y traducci√≥n de textos.
  - Generaci√≥n de im√°genes a partir de texto.

- **Sonido**:
  - Identificaci√≥n de g√©nero musical.
  - Comparaci√≥n entre canciones.
  - Transcripci√≥n de voz a texto.
  - Generaci√≥n de im√°genes desde sonido.

> Se recomienda consultar bibliograf√≠a especializada en NLP para un tratamiento m√°s profundo de estos temas.

## Preprocesamiento de Datos

El √©xito de un modelo de aprendizaje profundo depende en gran medida del procesamiento adecuado de los datos. Para ello, es esencial comprender propiedades clave de las series temporales como:

- **Tendencia**
- **Estacionalidad**
- **Estacionariedad**

Estas propiedades ser√°n introducidas en este cap√≠tulo para mejorar la preparaci√≥n de datos antes del modelado.

La tendencia: Es un comportamiento que muestra el desplazamiento lineal de los valores de la serie temporal sobre un gran periodo de tiempo. Dicho de otra forma, se observa una tendencia cuando hay un comportamiento lineal que puede tener una pendiente positiva o negativa dentro de la serie
temporal.

<img src="figs/tendencia.png" alt="Total de coches vendidos" width="40%">

La tendencia no tiene por qu√© ser constante en una serie temporal: puede cambiar de creciente a decreciente, o puede incluso cambiar su pendiente seg√∫n va avanzando el tiempo. Existe incluso la posibilidad de que no aparezca una tendencia clara en la serie temporal.

$$
X_t = \frac{1}{N} \sum_{k=0}^{N-1} X_{t-k}
$$

La media m√≥vil permite eliminar peque√±as oscilaciones obteniendo la tendencia de la serie temporal en cada punto. La serie temporal obtenida es menos sensible a las vibraciones de alta frecuencia, centr√°ndose en los comportamientos a largo plazo.

<img src="figs/media.png" alt="Total de coches vendidos" width="50%">

El c√°lculo de la media m√≥vil depende del par√°metro N; este par√°metro determina las frecuencias de las oscilaciones de alta frecuencia que son eliminadas/amortiguadas. Se puede demostrar que esta operaci√≥n de promediado act√∫a como un filtro pasa-baja, sistema que deja pasar las bajas frecuencias y elimina las altas. A mayor valor de N, m√°s datos se cogen para el c√°lculo de la media y una mayor cantidad de altas frecuencias son eliminadas. En la pr√°ctica, es interesante escoger un valor de N que permita eliminar el ruido a corto plazo, pero no tan grande como para obviar los movimientos de la tendencia que, precisamente, se quieren obtener con la media m√≥vil; aqu√≠ el conocimiento del experto en
el problema es fundamental.

<img src="figs/medias.png" alt="Total de coches vendidos" width="60%">

Estacionalidad. Es una caracter√≠stica de las series temporales en la que los datos experimentan cambios regulares y predecibles con una frecuencia constante. Esta frecuencia puede ser, por ejemplo, diaria, semanal o mensual.

Cualquier fluctuaci√≥n predecible de frecuencia constante que aparezca en una serie temporal se dice que es estacional. 

Aparece de forma natural en muchos procesos medidos. El consumo el√©ctrico en una casa presenta una frecuencia estacional diaria (cuando estamos durmiendo, no se consume electricidad, por ejemplo). Adem√°s, el consumo el√©ctrico crece en las √©pocas fr√≠as como oto√±o e invierno, por lo que se aprecia tambi√©n una estacionalidad de frecuencia anual. Otro ejemplo son las ventas de productos por internet

<img src="figs/estacionalidad.png" alt="Total de coches vendidos" width="60%">

En la figura (A), se puede observar que la gente tiende a comprar m√°s productos en las cercan√≠as del fin de semana: se puede apreciar gr√°ficamente la estacionalidad semanal. En la figura (B) se representa la misma cantidad que en la gr√°fica superior, pero en un intervalo temporal anterior. Este intervalo temporal coincidi√≥ con una campa√±a de marketing agresiva que populariz√≥ la tienda e hizo que las ventas crecieran mucho. Las dos series temporales presentan la misma estacionalidad, a pesar de que sus valores m√°ximos y m√≠nimos en distintos puntos sean tan distintos. 


Uno de los m√©todos utilizados com√∫nmente para cuantificar esta estacionalidad de forma matem√°tica es usar la operaci√≥n de diferenciaci√≥n. Consiste en obtener una nueva serie temporal a partir de la original calculando diferencias de valores en diferentes instantes de tiempo. La diferenciaci√≥n
de primer orden de una serie temporal ser√≠a la siguiente:

$$
X^1_t = X_t - X_{t-1}
$$


En este caso, la nueva serie temporal diferenciada tendr√≠a una entrada menos que la serie temporal original. La diferenciaci√≥n necesaria para eliminar la tendencia estacional es la diferenciaci√≥n estacional. Se calcula aplicando la diferencia entre la observaci√≥n y la observaci√≥n anterior en
la misma posici√≥n de la estaci√≥n. Por ejemplo, en el ejemplo descrito anteriormente, la diferencia estacional del d√≠a jueves 28/02 se calcular√≠a restando el valor original del jueves 28/02 con el valor del jueves anterior, 21/02, expresado matem√°ticamente:

$$
X^1_t = X_t - X_{t-p}
$$

Donde pes el periodo estacional, en el ejemplo descrito anteriormente,p = 7.

<img src="figs/desestacional.png" alt="Total de coches vendidos" width="60%">

Estacionariedad. Una serie temporal es estacionaria si su media y su desviaci√≥n est√°ndar se mantienen constantes en el tiempo. Gr√°ficamente, esto se puede apreciar cuando los valores de la serie oscilan alrededor de una media constante y la variabilidad con respecto a esa media
tambi√©n permanece constante en el tiempo. Las series que presenten una tendencia o una estacionalidad no son estacionarias, pero se pueden utilizar los m√©todos descritos anteriormente para intentar transformar una serie en estacionaria. Existe la posibilidad de que simplemente con estos
m√©todos no se pueda transformar la serie en estacionaria y haga falta
echar mano de otros m√©todos,(que sucede con las redes recurrentes aqu√≠??)

Una vez vistas las caracter√≠sticas b√°sicas de una serie temporal, haremos un r√°pido repaso a los m√©todos cl√°sicos antes de explicar los basados en Aprendizaje Profundo.

Existe un gran n√∫mero de modelos utilizados para modelizar y realizar predicciones en series temporales. Estos modelos tienen como caracter√≠stica general su **linealidad**, es decir, presentan dependencia lineal con errores pasados y/o con valores anteriores de la serie.

### Tipos de modelos cl√°sicos

- **MA (Moving Average)**: modelos que consideran los errores pasados.
- **AR (Autoregressive)**: modelos que consideran valores anteriores de la serie.
- **ARMA**: combinaci√≥n de AR y MA.  
  Son modelos **flexibles**, ya que el n√∫mero de entradas/salidas se puede ajustar seg√∫n el problema.

Los **par√°metros**, principalmente el orden del modelo, se pueden estimar mediante la **autocorrelaci√≥n** y la **correlaci√≥n parcial** de la serie.

### Extensiones y variantes

- **ARIMA**: incorpora diferencias entre valores para eliminar tendencias constantes.
- **SARIMA**: a√±ade componentes estacionales al modelo ARIMA.
- **ARMAX**: a√±ade **variables ex√≥genas** (externas a la serie).  
  Combinaciones comunes:
  - **ARIMAX**
  - **SARIMAX**

- **NARX**: versi√≥n **no lineal** de ARX.  
  Aunque m√°s complejos de ajustar e interpretar, son m√°s potentes en modelizaci√≥n.

- **ARCH (Autoregressive Conditional Heteroskedasticity)**:  
  Dise√±ado para series con cambios abruptos y no estacionarios, como las econ√≥micas.

- **GARCH (Generalized ARCH)**:  
  Extiende ARCH para capturar patrones m√°s complejos de heterocedasticidad condicional.


## Redes Neuronales en Series Temporales: TDNN

Una forma directa de aplicar un modelo neuronal a problemas de series temporales es utilizar como **entradas**:

- Los valores actuales de la serie.
- Valores anteriores (retardos).
- Otras variables adicionales que se quieran considerar.

Esta estructura se conoce como **TDNN (Time Delay Neural Network)**.

### Esquema conceptual de una TDNN

La red TDNN est√° compuesta por capas ocultas que reciben entradas retardadas de la serie \( x \), junto con otras entradas relevantes \( e \). La salida puede representar una **predicci√≥n futura** de la serie, por ejemplo \( \hat{y}_{t+p} \), siendo \( p \) el horizonte de predicci√≥n.

```text
Entradas: x(t), x(t-1), ..., x(t-n), e(t)
           ‚îÇ
           ‚ñº
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ Capa oculta 1 ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ
           ‚ñº
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ Capa oculta 2 ‚îÇ
    ‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
           ‚îÇ
           ‚ñº
      Predicci√≥n: ≈∑(t+p)


## Redes Neuronales Recurrentes (RNN)

Las **Redes Neuronales Recurrentes** (RNN) son una clase de redes dise√±adas para procesar datos secuenciales, como las series temporales. La caracter√≠stica principal de estas redes es que **mantienen una memoria** de valores anteriores al actual, permitiendo modelar dependencias temporales.

### ¬øC√≥mo funcionan?

Una RNN tiene una estructura similar a una red densa:  
- Cada valor de la serie pasa por una neurona distinta.
- Cada neurona aplica un conjunto de pesos.

Sin embargo, **a diferencia de una red densa**, en una RNN:
- El resultado de cada neurona se utiliza tambi√©n en la siguiente neurona.
- Es decir, **se transmite informaci√≥n desde los pasos anteriores a los siguientes**.

### Ejemplo de funcionamiento

Dada una serie temporal \( \{x_0, x_1, \dots, x_t\} \), donde \( x_i \) es el valor en la posici√≥n \( i \):

- El primer elemento \( x_0 \) pasa por la primera neurona y se transforma en una salida \( y_0 \) tras aplicar pesos y sesgo.
- Para el segundo elemento, la neurona calcula \( y_1 \) usando:
  - \( x_1 \): la entrada actual.
  - \( y_0 \): el resultado de la celda anterior.

Este patr√≥n se repite para todos los pasos de la secuencia, haciendo que las neuronas **compartan informaci√≥n secuencialmente**.

> Figura 4.11: Representaci√≥n de una RNN. A la izquierda, una vista "enrollada"; a la derecha, la versi√≥n "desplegada" que muestra el flujo de datos paso a paso.

### Representaci√≥n matem√°tica

El funcionamiento interno de una neurona en una RNN se puede expresar como:

```math
Y_t = f(W \cdot X_t + U \cdot Y_{t-1} + b)


Donde:

    W: pesos para la entrada actual XtXt‚Äã

    U: pesos para la salida anterior Yt‚àí1Yt‚àí1‚Äã

    b: sesgo

    f: funci√≥n de activaci√≥n (como tanh o ReLU)

Puntos clave sobre las RNN

    Memoria contextual
    La red aprende a mantener y transportar informaci√≥n √∫til a lo largo del tiempo para capturar el contexto temporal.

    Salida de la red
    El resultado final suele ser el estado de la √∫ltima celda YfinalYfinal‚Äã, que se compara con el valor real para calcular la p√©rdida y retropropagar el error.

    Salidas intermedias
    En algunos casos, se pueden usar todas las salidas intermedias de la red:
    {Y0,Y1,‚Ä¶,Yt}{Y0‚Äã,Y1‚Äã,‚Ä¶,Yt‚Äã}, aunque esto es menos com√∫n.

## Preparaci√≥n de datos para una RNN

Para usar correctamente una **Red Neuronal Recurrente (RNN)**, las entradas deben tener una estructura secuencial o depender del tiempo.

### Formato de entrada

Una entrada t√≠pica en una RNN tiene **3 dimensiones**:

(n, t, f)


Donde:
- `n`: n√∫mero de muestras.
- `t`: n√∫mero de pasos temporales (longitud de la serie).
- `f`: n√∫mero de caracter√≠sticas por paso temporal.

> - Para series univariantes: `f = 1`  
> - Para series multivariantes: `f > 1`

La salida de la red tendr√° la forma:

(n, f')


Donde `f'` puede representar, por ejemplo, el n√∫mero de pasos futuros a predecir.

---

## Transformaci√≥n supervisada mediante "enventanado"

Dado que queremos **predecir valores futuros** a partir de valores pasados, el problema se transforma en un problema de **aprendizaje supervisado** usando un proceso llamado **enventanado de datos**.

### ¬øQu√© es el enventanado?

Consiste en tomar ventanas deslizantes de la serie temporal para generar pares de entrada/salida.

### Procedimiento paso a paso

1. **Elegir un tama√±o de ventana** \( w \): n√∫mero de pasos del pasado que se usar√°n como entrada.
2. **Crear la primera ventana**:  
   Tomar los primeros \( w \) elementos de la serie:  
   \[
   \text{Entrada} = [x_0, x_1, ..., x_{w-1}]
   \]  
   La **etiqueta (output)** asociada ser√°:  
   \[
   x_w
   \]
3. **Desplazar la ventana una posici√≥n** y repetir:  
   \[
   \text{Entrada} = [x_1, ..., x_w], \quad \text{Etiqueta} = x_{w+1}
   \]
4. **Repetir hasta el final de la serie**.  
   Para una serie temporal de longitud \( T \), se generar√°n:
   \[
   T - w - 1 \quad \text{ventanas}
   \]

> Este proceso convierte una √∫nica serie temporal en un conjunto de muestras supervisadas listas para entrenar la RNN.


<img src="figs/rnn.png" alt="Total de coches vendidos" width="60%">

De la misma manera que en el resto de los problemas vistos anteriormente, es conveniente dividir la totalidad de los datos de los que se dispone en conjuntos de entrenamiento, validaci√≥n y test. Sin embargo, los datos temporales tienen la caracter√≠stica de que el orden importa, por lo que no se pueden dividir de forma arbitraria. Los datos temporales han de dividirse en conjuntos ordenados en 3
fragmentos de tiempo. El tama√±o de cada uno de los fragmentos ser√° equivalente al porcentaje de datos que se destinar√°n a entrenamiento, validaci√≥n y test. Esta divisi√≥n ha de ser previa al proceso de enventanado descrito anteriormente, ya que, si el corte se hace con la serie temporal original va a producirse una transferencia de informaci√≥n entre los conjuntos de datos. Por ejemplo, se puede tener que datos de las ventanas finales del conjunto de entrenamiento tambi√©n aparecer√°n en el conjunto de
validaci√≥n y lo mismo ocurrir√° con el conjunto de validaci√≥n y de test. Destacar que estos fragmentos no hace falta que sigan ning√∫n orden concreto. Incluso se puede intercalar el conjunto de test en el interior del conjunto de entrenamiento. 

<img src="figs/split.png" alt="Total de coches vendidos" width="60%">

## Backpropagation en redes neuronales

En una red neuronal tradicional (MLP o convolucional):

- La **informaci√≥n fluye de forma secuencial** entre las capas.
- No hay **realimentaci√≥n** entre capas o neuronas.
- Durante la retropropagaci√≥n, el flujo de informaci√≥n se invierte:  
  desde la **√∫ltima capa** hacia la **primera capa**.

---

## Retropropagaci√≥n en redes recurrentes

En una **Red Neuronal Recurrente (RNN)**:

- La informaci√≥n se transmite no solo entre capas, sino tambi√©n **entre neuronas dentro de una misma capa**, a lo largo del tiempo.
- Esto genera una **mayor cantidad de operaciones** para calcular la salida.

El algoritmo de aprendizaje en RNN se llama:

### üîÑ Backpropagation Through Time (BTT)

Este algoritmo extiende la retropropagaci√≥n tradicional para tener en cuenta las **realimentaciones** temporales entre neuronas.

---

### üß± Problemas del BTT

1. **Olvido de largo plazo**:
   - Si los pesos que transmiten la informaci√≥n entre celdas son peque√±os, la informaci√≥n se **desvanece** al recorrer muchas celdas.
   - Esto impide que la red recuerde eventos **lejanos en el tiempo**.

2. **Desvanecimiento/explosi√≥n del gradiente**:
   - Debido al gran n√∫mero de operaciones acumuladas, los **gradientes pueden desaparecer** (hacerse muy peque√±os) o **explotar** (hacerse muy grandes).
   - Esto **dificulta el entrenamiento** de la red.

---

## Soluciones: GRU y LSTM

Para solventar estos problemas se han desarrollado variantes de RNN como:

- **GRU** (Gated Recurrent Unit)
- **LSTM** (Long Short-Term Memory)

Ambas:

- Introducen **mecanismos de control (puertas)** que regulan el paso y almacenamiento de informaci√≥n.
- Son capaces de **recordar informaci√≥n relevante a largo plazo**.
- **Mitigan el desvanecimiento del gradiente**, mejorando el proceso de aprendizaje.
