<div><img style="float: right; width: 120px; vertical-align:middle" src="https://www.upm.es/sfs/Rectorado/Gabinete%20del%20Rector/Logos/EU_Informatica/ETSI%20SIST_INFORM_COLOR.png" alt="ETSISI logo" />


# Un poco de series temporales<a id="top"></a>

<i><small>Autor: Alberto Díaz Álvarez<br>Última actualización: 2023-03-14</small></i></div>
                                                  

***

## Introducción

Una serie temporal es una secuencia de observaciones obtenida a intervalos de tiempo regulares (e.g., décimas de segundo, días, años, etcétera).

Tradicionalmente, el análisis de series temporales (en esencia, comprender los aspectos sobre la naturaleza inherente de la serie) es el paso previo a una proyección de su futuro (una predicción, vaya). Estas predicciones tienen una enorme importancia en muchos negocios diferentes, y si es posible encontrar una relación entre las variables de entrada con la predicción se puede ser extremadamente competitivo en el área.

## Objetivos

En este _notebook_ se pretende dar nociones de cómo se trabaja con series temporales. Aunque es muy simple, al finalizar habremos aprendido a:

- Cargar series temporales en dataframes y a operar y visualizar sus datos
- Intentar descomponer una serie temporal en sus (supuestos) componentes
- Estimar lo previsible que puede llegar a ser una serie temporal usando el concepto de entropía

## Imports y configuración

A continuación importaremos las librerías que se usarán a lo largo del notebook. Entre las que ya hemos visto durante el curso, importamos además:

- `statsmodes.tsa.seasonal seasonal_decompose` para intentar descomponer series temporales en sus componentes básicas

In [2]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from statsmodels.tsa.seasonal import seasonal_decompose

Asímismo, configuramos algunos parámetros para adecuar la presentación gráfica.

In [3]:
%matplotlib inline
plt.style.use('ggplot')
plt.rcParams.update({'figure.figsize': (20, 6),'figure.dpi': 64})

***

## Carga de la serie temporal

Los _datasets_ de una serie temporal, como cualquier otro _dataset_, suelen almacenarse en bases de datos relacionales, no relacionales, hojas de cálculo o, muy comúnmente, en ficheros planos en formato tabular (e.g., archivos `.csv`). Incluyen al menos las columnas correspondientes al tiempo y al valor medido para ese tiempo.

Nosotros usaremos la función `read_csv` de pandas para cargar una serie temporal ya descargada para este notebook, concretamente las acciones de GameStop obtenido del [histórico que almacena el Nasdaq](https://www.nasdaq.com/es/market-activity/stocks/gme). El dataset concreto está localizado en el _path_ relativo `Datasets/GME-full-historical-data-20211001.csv`. Lo cargaremos con la columna `Fecha` como índice de tipo `Date`.

In [4]:
df = pd.read_csv('Datasets/GME-20211001.csv', index_col='Fecha', parse_dates=['Fecha'])
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Datasets/GME-20211001.csv'

En realidad el dataset cargado como tal no se denomina serie temporal. Su término correcto es el de **datos de panel** (o _panel data_ en inglés) y se refiere a un conjunto de datos relacionados pertenecientes a una misma dimensión temporal. Dicho de otro modo, varias series temporales con el mismo eje temporal de datos relacionados.

Nosotros vamos a centrarnos en la serie temporal relacionada con la columna `Cerrar/último`, lo que vienen a ser los valores de cierre de las acciones. Concretamente:

1. Vamos a crear una columna denominada `value` con los datos de cierre en como tipo de dato `float`.
2. Vamos a descartar el resto de columnas porque nos vamos a centrar en esa serie temporal en particular

In [None]:
df['value'] = df['Cerrar/último'].replace('[\$]', '', regex=True)
df['value'] = df['value'].astype('float')
values = df[['value']]
values.head()

## Visualización de la serie temporal

Ahora vamos a visualizar la serie temporal, donde el eje $X$ será la dimensión temporal (i.e. los días) y el eje $Y$ el valor de la acción en ese día en concreto.

In [None]:
values.plot.line();

En realidad las acciones de GameStop han sufrido un crecimiento repentino debido a razones que, si no conocéis, recomiendo buscar información sobre ellas. Como es una serie un poco grande, vamos a convertir la serie temporal en el intervalo de los años 2015 a 2016 (ambos incluidos) y a visualizarlo.

In [None]:
values = values.sort_index().loc['2015/01/01':'2017/01/01']
values.plot.line(y='value');

## Descomponiendo la serie temporal

Podemos realizar una descomposición clásica de una serie temporal usando la función `seasonal decompose` de la librería `statsmodel`. Esto lo que hace es considerar nuestra serie como una combinación (aditiva o multiplicativa) Se puede hacer una descomposición clásica de una serie temporal considerando la serie como una combinación aditiva o multiplicativa del nivel base, la tendencia, el índice estacional y el residuo.

In [None]:
dec_add = seasonal_decompose(values['value'], period=5, model='additive')
dec_add.plot().suptitle('Seasonal decompose: Additive')

dec_mul = seasonal_decompose(values['value'], period=5, model='multiplicative')
dec_mul.plot().suptitle('Seasonal decompose: Multiplicative');

En nuestro caso no falta ningún valor entre días, pero si así fuese, se podría especificar el parámetro `extrapolate_trend='freq'` para que extrapolase los valores faltantes.

Podemos acceder al _dataframe_ de las componentes de la serie a partir de concatenar las series concretas de la descomposición:

In [None]:
df_components = pd.concat([dec_add.seasonal, dec_add.trend, dec_add.resid, dec_add.observed], axis=1)
df_components.columns = ['seasonal', 'trend', 'residual', 'values']
df_components.iloc[20:25]

Se debería cumplir que el $values = seasonal + trend + residual$ para cada fila (con excepción de unas pocas primeras y últimas medidas). En este ejemplo concreto, la serie es algo aleatoria. Si probamos con otras series como, por ejemplo, las ventas en una tienda online, sí que obtendríamos una descomposición más "típica".

## 4. Estimando la "previsibilidad" de una serie temporal

Cuanto más regulares son los patrones de una serie temporal, más fácil será predecir sus valores futuros. Dos valores que podemos calcular para intentar estimar cómo de regulares o impredecibles son las fluctuaciones de la serie son las entropías _aproximada_ y _de muestra_:

* **[Entropía aproximada](https://en.wikipedia.org/wiki/Approximate_entropy)**: Cálculo que nos da un valor para la variabilidad de los valores de una serie. Cuanto mayor es la entropía aproximada, más aleatorias son las fluctuaciones de la serie, y por tanto menos previsible.
* **[Entropía de muestra](https://en.wikipedia.org/wiki/Sample_entropy)**: Similar a la entropía aproximada pero es más consistente (menos sensible al tamaño de la serie) en el cálculo.

Estos valores dan una intuición de la fluctuación del valor. Por ejemplo, supongamos que tenemos las dos secuencias de bits siguientes:

1. `01010101`
2. `00101101`

Con medidas de tendencia central y de dispersión (e.g., media, mediana, desviación típica), ambas secuencias arrojan los mismo resultados; es más, ambas secuencias dan el mismo valor de entropía, por lo que la información que puedo obtener de ambas es prácticamente la misma. Sin embargo, la primera serie es claramente regular, mientras que la segunda parece más aleatoria. Las entropías aproximada y de muestra explotan este comportamiento para arrojar un valor más bajo cuanto más regular es la secuencia.

Desgraciadamente, no es una medida que nos dé demasiada información salvo cuando la comparamos con otras series (esta serie es más _predecible_ que esta otra). Sin embargo, en este comportamiento es una herramienta que nos puede servir de bastante ayuda.

Vamos a implementar la función de entropía de muestra

In [None]:
def sample_entropy(L, m, r):
    # Source: https://en.wikipedia.org/wiki/Sample_entropy
    N = len(L)
    B = 0.0
    A = 0.0
    
    
    # Split time series and save all templates of length m
    xmi = np.array([L[i : i + m] for i in range(N - m)])
    xmj = np.array([L[i : i + m] for i in range(N - m + 1)])

    # Save all matches minus the self-match, compute B
    B = np.sum([np.sum(np.abs(xmii - xmj).max(axis=1) <= r) - 1 for xmii in xmi])

    # Similar for computing A
    m += 1
    xm = np.array([L[i : i + m] for i in range(N - m + 1)])

    A = np.sum([np.sum(np.abs(xmi - xm).max(axis=1) <= r) - 1 for xmi in xm])

    # Return SampEn
    return -np.log(A / B)

El valor de la entropía pertenece al intervalo $(0, \infty)$, y empíricamente se considera que los valores superiores a 0.25 son sinónimo de una baja "predictibilidad". Veamos cuál es la entropía de mustra de nuestra serie.

In [None]:
entropy = sample_entropy(L=values.value, m=2, r=0.2*np.std(values.value))
print(f'Sample entropy: {entropy}')

Un valor ligeramente bajo, por lo que parece ser que esta serie puede ser ligeramente predecible.

## Conclusiones

No vamos a profundizar más. Este notebook es más para entrar un poco en materia de series, trabajar un poco con pandas e identificar una manera de comparar la complejidad de dos series para entender si lo que vamos a predecir es, realmente, predecible.

***

<div><img style="float: right; width: 120px; vertical-align:top" src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" alt="Creative Commons by-nc-sa logo" />

[Volver al inicio](#top)

</div>