___
<img style="float: right; margin: 0px 0px 15px 15px;" src="https://editor.analyticsvidhya.com/uploads/56846f3ff4855a71201b102f92a733fd5a875.png" width="500px" height="100px" />


# <font color= #8A0829> Preparar datos de series de tiempo para el uso de redes neuronales.</font>

<Strong> Objetivos </Strong>
- Comprender cómo transformar datos de series de tiempo en un problema de machine learning supervisado.
- Aprender a tranformar datos en tensores que puedan ser usados luego para un entrenamiento de series de tiempo.
> Referencias: 
    > - Capítulo 6 de [Deep Learning for Time Series Forecasting: Predict the Future with MLPs, CNNs and LSTMs in Python](https://machinelearningmastery.com/deep-learning-for-time-series-forecasting/)
___

# Cómo transformar las series temporales en un problema de aprendizaje supervisado

La previsión de series temporales puede plantearse como un problema de aprendizaje supervisado. Este nuevo marco para sus datos de series temporales le permite acceder al conjunto de algoritmos estándar de aprendizaje automático lineal y no lineal para su problema. En esta lección, descubrirá cómo puede replantear su problema de series temporales como un problema de aprendizaje supervisado para el aprendizaje automático.

## 1. Aprendizaje automático supervisado

La mayor parte del aprendizaje automático práctico utiliza el aprendizaje supervisado. El aprendizaje supervisado es aquel en el que se tienen variables de entrada (X) y una variable de salida (y) y se utiliza un algoritmo para aprender la función de asignación de la entrada a la salida.
$$
Y = f(X)
$$
El objetivo es aproximarse a la función subyacente real tan bien que, cuando se tengan nuevos datos de entrada (X), se puedan predecir las variables de salida (y) para esos datos.

Se denomina aprendizaje supervisado porque el proceso de aprendizaje de un algoritmo a partir del conjunto de datos de entrenamiento puede considerarse como un profesor que supervisa el proceso de aprendizaje. Conocemos las respuestas correctas; el algoritmo realiza predicciones de forma iterativa a partir de los datos de entrenamiento y se corrige realizando actualizaciones. El aprendizaje se detiene cuando el algoritmo alcanza un nivel de rendimiento aceptable. Los problemas de aprendizaje supervisado pueden agruparse a su vez en problemas de regresión y clasificación.

- **Clasificación**: Un problema de clasificación es cuando la variable de salida es una categoría, como rojo y azul o enfermedad y no enfermedad.
- **Regresión**: Un problema de regresión es cuando la variable de salida es un valor real, como dólares o peso.

## 2. Ventana móvil

Los datos de **series temporales pueden plantearse como un aprendizaje supervisado**. Dada una secuencia de números para un conjunto de datos de series temporales, podemos reestructurar los datos para que parezcan un problema de aprendizaje supervisado. Para ello, podemos utilizar **los pasos temporales anteriores como variables de entrada** y utilizar el siguiente paso temporal como variable de salida. Concretemos esto con un ejemplo. Imaginemos que tenemos una serie temporal como la siguiente:

| time, | measure |
|:-----:|:-------:|
|   1,  | 100     |
|   2,  | 110     |
|   3,  | 108     |
|   4,  | 115     |
|   5,  | 120     |

Podemos reestructurar este conjunto de datos de series temporales como un problema de aprendizaje supervisado utilizando el valor del paso temporal anterior para predecir el valor del paso temporal siguiente. Reorganizando el conjunto de datos de series temporales de esta forma, los datos tendrían el siguiente aspecto:

|  X,  |  y  |
|:----:|:---:|
|  ?,  | 100 |
| 100, | 110 |
| 110, | 108 |
| 108, | 115 |
| 115, | 120 |
| 120, | ?   |

El uso de pasos temporales anteriores para predecir el paso temporal siguiente se denomina método de la ventana deslizante.
El número de pasos temporales anteriores se denomina anchura de la ventana o tamaño del desfase.

A partir de este sencillo ejemplo, podemos observar algunas cosas:
1. Podemos ver cómo esto puede funcionar para **convertir una serie temporal en un problema de aprendizaje supervisado de regresión o clasificación** para valores reales o valores etiquetados de series temporales.
2. El conjunto de datos se prepara de forma que pueda aplicarse cualquiera de los algoritmos de aprendizaje automático lineales y no lineales estándar, siempre que se mantenga el orden de las filas.
3. Podemos ver cómo la anchura de la ventana deslizante puede aumentarse para incluir más pasos temporales anteriores.
4. Podemos ver cómo el enfoque de la ventana deslizante puede utilizarse en una serie temporal que tiene más de un valor, o las llamadas **series temporales multivariantes**.

## 3. Ventana móvil con múltiples variables

Se trata de conjuntos de datos en los que se observan dos o más variables en cada momento.

El mejor momento para utilizar el aprendizaje automático en las series temporales es aquel en el que los métodos clásicos fallan. Esto puede ocurrir con series temporales univariantes complejas, y es más probable con series temporales multivariantes dada la complejidad adicional. A continuación se presenta otro ejemplo práctico para concretar el método de la ventana móvil para series temporales multivariantes. Supongamos que tenemos el siguiente conjunto de datos de series temporales multivariantes con dos observaciones en cada paso temporal. Supongamos también que sólo nos **interesa predecir la measure2**.

| time, | measure1, | measure2 |
|:-----:|-----------|----------|
|   1,  | 0.2,      | 88       |
|   2,  | 0.5,      | 89       |
|   3,  | 0.7,      | 87       |
|   4,  | 0.4,      | 88       |
|   5,  | 1.0,      | 90       |

Podemos replantear este conjunto de datos de series temporales como un problema de **aprendizaje supervisado** con un ancho de ventana de uno. Esto significa que utilizaremos los valores de los pasos temporales anteriores de la measure1 y la measure2. También dispondremos del valor del siguiente paso temporal de la medida1. A continuación, predeciremos el valor del siguiente paso temporal de la measure2. Esto nos dará 3 características de entrada y un valor de salida a predecir para cada patrón de entrenamiento.

|  X1, | X2, | X3,  | y  |
|:----:|-----|------|----|
|  ?,  | ?,  | 0.2, | 88 |
| 0.2, | 88, | 0.5, | 89 |
| 0.5, | 89, | 0.7, | 87 |
| 0.7, | 87, | 0.4, | 88 |
| 0.4, | 88, | 1.0, | 90 |
| 1.0, | 90, | ?,   | ?  |

Este ejemplo plantea la pregunta ¿Qué pasaría si quisiéramos predecir tanto la measure1 como la measure2 para el siguiente paso temporal con una ventana móvil de uno?

|  X1, | X2, | y1,  | y2 |
|:----:|-----|------|----|
|  ?,  | ?,  | 0.2, | 88 |
| 0.2, | 88, | 0.5, | 89 |
| 0.5, | 89, | 0.7, | 87 |
| 0.7, | 87, | 0.4, | 88 |
| 0.4, | 88, | 1.0, | 90 |
| 1.0, | 90, | ?,   | ?  |

## 4. Ventana Móvil con Varios Pasos

El número de pasos temporales que hay que prever es importante. Una vez más, es tradicional utilizar distintos nombres para el problema en función del número de pasos temporales que haya que pronosticar:  
- **Previsión de un paso**: Se trata de predecir el siguiente paso temporal (t+1).
- **Previsión en varios pasos**: Se trata de predecir dos o más pasos temporales futuros.

Considere el mismo ejemplo discutido anteriormente

| time, | measure |
|:-----:|:-------:|
|   1,  | 100     |
|   2,  | 110     |
|   3,  | 108     |
|   4,  | 115     |
|   5,  | 120     |

Podemos enmarcar esta serie temporal como un conjunto de datos de previsión en dos etapas para el aprendizaje supervisado con un ancho de ventana de uno, como sigue:

|  X1, | y1,  | y2  |
|:----:|------|-----|
|   ?  | 100, | 110 |
| 100, | 110, | 108 |
| 110, | 108, | 115 |
| 108, | 115, | 120 |
| 115, | 120, | ?   |
| 120, | ?,   | ?   |

Podemos ver que la primera fila y las dos últimas no pueden utilizarse para entrenar un modelo supervisado. También es un buen ejemplo para mostrar la sobrecarga de las variables de entrada. Específicamente, que un modelo supervisado sólo tiene X1 con el que trabajar para predecir tanto y1 como y2. **Se necesita una cuidadosa reflexión y experimentación en su problema para encontrar un ancho de ventana que resulte en un rendimiento aceptable del modelo.**

# Cómo preparar datos de series temporales para CNN y LSTM

Los datos de series temporales deben transformarse antes de poder utilizarse para ajustar un modelo de aprendizaje supervisado. En esta forma, los datos pueden utilizarse inmediatamente para ajustar un algoritmo de aprendizaje automático supervisado e incluso una red neuronal Perceptrón Multicapa. Para que los datos puedan ajustarse a una red neuronal convolucional (CNN) o a una red neuronal de memoria a corto plazo (LSTM), es necesaria otra transformación. En concreto, la estructura bidimensional de los datos de aprendizaje supervisado debe transformarse en una estructura tridimensional.

## 1. Series temporales a supervisadas

Los datos de series temporales requieren una preparación antes de poder utilizarlos para entrenar un modelo de aprendizaje supervisado, como una red neuronal LSTM. Por ejemplo, una serie temporal univariante se representa como un vector de observaciones:
$$
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
$$

Recuerde que todos los alogoritmos de aprendizaje supervizado necesitan que la información se suministre de la siguiente forma:

|       X,       |       y       |
|:--------------:|:-------------:|
| sample input,  | sample output |
| sample input,  | sample output |
| sample input,  | sample output |
|       ...      |               |

Una serie temporal debe transformarse en muestras con componentes de entrada y salida. **La transformación informa tanto de lo que aprenderá el modelo como de cómo se pretende utilizar el modelo en el futuro a la hora de hacer predicciones**. Por ejemplo, lo que se necesita para hacer una predicción (X) y la predicción que se realiza (y). Para un problema de series temporales univariantes en el que nos interesan las predicciones de un paso, se utilizan como entrada las observaciones de los pasos temporales anteriores, denominadas observaciones retardadas, y la **salida es la observación del paso temporal actual**. Por ejemplo, la serie univariante de 10 pasos anterior puede expresarse como un problema de aprendizaje supervisado <font color=red> con tres pasos temporales como entrada</font> y <font color=blue> un paso como salida </font>, de la siguiente manera:

|     X,     |  y  |
|:----------:|:---:|
| [1, 2, 3], | [4] |
| [2, 3, 4], | [5] |
| [3, 4, 5], | [6] |
|     ...    |     |

Creemos una función que a partir de una secuencia de valores cree las muestras $X$ y $y$.

In [None]:
# Convertir la siguiente serie de tiempo a su representación en tensores y explicar 
# el porque de esa representación
# [1,2,3,4,5,6,7,8,9]

In [None]:
#[[[1 6], [2 7], [3 8]],
# [2, 3, 4],
# [3, 4, 5]]

In [11]:
import numpy as np
timeseries = [i for i in range(1, 10)]

size = 3
X = []
y = []
for i in range(len(timeseries)):
    if i + size >= len(timeseries):
        break
    X.append(timeseries[i:i + size])
    y.append(timeseries[i + size])

X = np.array(X)
X, y, X.shape

(array([[1, 2, 3],
        [2, 3, 4],
        [3, 4, 5],
        [4, 5, 6],
        [5, 6, 7],
        [6, 7, 8]]),
 [4, 5, 6, 7, 8, 9],
 (6, 3))

In [14]:
# dividir una secuencia univariada en muestras
def split_sequence(sequence, n_steps):
    X, y = list(), list()
    for i in range(len(sequence)):
        # encontrar el final de este patrón
        end_ix = i + n_steps
        
        # comprobar si estamos más allá de la secuencia
        if end_ix > len(sequence)-1:
            break
        # reunir partes de entrada y salida del patrón
        seq_x, seq_y = sequence[i:end_ix], sequence[end_ix]
        X.append(seq_x)
        y.append(seq_y)
    return np.array(X), np.array(y)

In [12]:
import numpy as np
np.random.seed(522)

data = np.arange(1, 11)

data

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

In [15]:
X, y = split_sequence(data, 3)
print('X', X, 'y', y, sep='\n')

X
[[1 2 3]
 [2 3 4]
 [3 4 5]
 [4 5 6]
 [5 6 7]
 [6 7 8]
 [7 8 9]]
y
[ 4  5  6  7  8  9 10]


Cada columna representará una característica del modelo y podrá corresponder a una observación de retardo distinta. Cada fila representará una muestra y corresponderá a un nuevo ejemplo con componentes de entrada y salida.
- **Característica**: Una columna de un conjunto de datos, como una observación de retardo de un conjunto de datos de series temporales.
- **Muestra**: Una fila de un conjunto de datos, como una secuencia de entrada y salida de un conjunto de datos de series temporales.

| x1, | x2, | x3, | y |
|-----|-----|-----|---|
|  1, |  2, | 3,  | 4 |
|  2, |  3, | 4,  | 5 |
|  3, |  4, | 5,  | 6 |
| ... |     |     |   |

Los datos en esta forma pueden utilizarse directamente para entrenar una red neuronal simple, como un Perceptrón Multicapa. Los datos con la transformación dada estarán distribuidos como **muestras x características**.

## 2. Aspectos básicos de la preparación de datos 3D

Preparar datos de series temporales para CNNs y LSTMs requiere un paso adicional más allá de transformar los datos en un problema de aprendizaje supervisado. La capa de entrada de los modelos CNN y LSTM se especifica mediante el argumento `input_shape` en la primera capa oculta de la red.

La capa LSTM() y CNN() deben especificar la forma de los datos de entrada. **La entrada de cada capa CNN y LSTM debe ser tridimensional**. Las tres dimensiones de esta entrada son:  
- **Muestras**. Una secuencia es una muestra. Un lote se compone de una o más muestras.
- **Pasos de tiempo**. Un paso de tiempo es un punto de observación en la muestra. Una muestra se compone de varios pasos temporales.
- **Características**. Una característica es una observación en un paso de tiempo. Un paso de tiempo se compone de una o más características.

Esta estructura tridimensional esperada de los datos de entrada se resume a menudo utilizando la notación de forma de matriz de: `[muestras, pasos de tiempo, características]`. Recuerde que la forma bidimensional de un conjunto de datos con la que estamos familiarizados de la sección anterior tiene la forma de matriz de` [muestras, características]`. Esto significa que estamos añadiendo la nueva dimensión de pasos temporales. Excepto que, en los problemas de predicción de series temporales, nuestras características son observaciones en pasos temporales. Así que, <font color=red> **en realidad, estamos añadiendo la dimensión de las características, donde una serie temporal univariante sólo tiene una característica**. </font>

Cuando empecemos a implementar redes `LSTM` en tensorflow, hay que tener en cuenta que la primera capa de este tipo de redes define inicialmente el tamaño de la `capa oculta` y no la capa de entrada. Por ejemplo, si definimos lo siguiente red sin capa de entrada,
```
# Red sin capa de entrada
...
model = Sequential()
model.add(LSTM(32, input_shape=(3, 1))
model.add(Dense(1))
```
Esta es una red que espera 1 o más `muestras`, 3 `pasos de tiempo`, 1 `característica` y 32 se refiere al `número de unidades en la primera capa oculta`. El número de unidades de la primera capa no tiene nada que ver con el número de muestras, pasos temporales o características de los datos de entrada.

En nuestro ejemplo anterior, debemos de convertir nuestros datos una dimensión adicional para que podamos tener nuestros datos tridimensionales. Recordemos que nuestros datos tienen la siguiente caraterística: tenemos 7 `muestras`y 3 `pasos de tiempo por muestra` y como contamos con una serie temporal univariada contamos con 1 `característica`. Por lo que nuestros datos deben de tener la forma de `(7, 3, 1)`, el cuál lo podemos hacer con el comando de numpy `reshape()`. Observemos el ejemplo:

In [18]:
# Convertir la siguiente serie de tiempo a su representación en tensores y explicar 
# el porque de esa representación
# [1,2,3,4,5,6,7,8,9]

X.reshape(X.shape[0], X.shape[1], 1).shape

(7, 3, 1)

In [4]:
X

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5],
       [4, 5, 6],
       [5, 6, 7],
       [6, 7, 8],
       [7, 8, 9]])

In [7]:
X_tran = X.reshape((7, 3, 1))
X_tran

array([[[1],
        [2],
        [3]],

       [[2],
        [3],
        [4]],

       [[3],
        [4],
        [5]],

       [[4],
        [5],
        [6]],

       [[5],
        [6],
        [7]],

       [[6],
        [7],
        [8]],

       [[7],
        [8],
        [9]]])

In [8]:
# De forma genérica transformaríamos una matriz 2D a 3D usando lo siguiente 
# Matriz.reshape(#Filas, #Columnas, #Número de entradas)
X_tran = X.reshape(X.shape[0], X.shape[1], 1)
X_tran

array([[[1],
        [2],
        [3]],

       [[2],
        [3],
        [4]],

       [[3],
        [4],
        [5]],

       [[4],
        [5],
        [6]],

       [[5],
        [6],
        [7]],

       [[6],
        [7],
        [8]],

       [[7],
        [8],
        [9]]])

# Ejemplo de preparación de datos
Para nuestro ejemplo vamos a seguir los siguientes pasos:
1. Cargar los datos.
2. Quitar la columna de tiempo.
3. Particionar los datos en muestras.
4. Reacomodar secuencias en datos tridimensionales (tensores).

In [None]:
np.arange(10, n)

In [19]:
# 1. Vamos a generar unos datos ficticios

# Cantidad de muestras
n = 5000
timeseries = []
for i in range(n):
    timeseries.append([i + 1, (i + 1) * 10])\

timeseries = np.array(timeseries)
timeseries

array([[    1,    10],
       [    2,    20],
       [    3,    30],
       ...,
       [ 4998, 49980],
       [ 4999, 49990],
       [ 5000, 50000]])

In [20]:
# 2. Quitar la columna de tiempo
data = timeseries[:, 1]
data

array([   10,    20,    30, ..., 49980, 49990, 50000])

In [26]:
%%timeit
# 3.1 Paticionar los datos LSTM trabaja mejor con 200-400 pasos de tiempo
size_batch = 200

data_batch = [data[i:i + size_batch] for i in range(0, len(data), size_batch)]
data_batch

6.36 µs ± 232 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [23]:
len(data_batch)

25

In [27]:
%%timeit
# 3.2 El mismo resultado usando numpy (np.split)
data_batch_np = np.split(data, data.shape[0]/size_batch)
data_batch_np

44.4 µs ± 2.37 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [25]:
len(data_batch_np)

25

In [28]:
# 4. Reacomodar las secuencias
X = np.array(data_batch)
X

array([[   10,    20,    30, ...,  1980,  1990,  2000],
       [ 2010,  2020,  2030, ...,  3980,  3990,  4000],
       [ 4010,  4020,  4030, ...,  5980,  5990,  6000],
       ...,
       [44010, 44020, 44030, ..., 45980, 45990, 46000],
       [46010, 46020, 46030, ..., 47980, 47990, 48000],
       [48010, 48020, 48030, ..., 49980, 49990, 50000]])

In [29]:
X.shape

(25, 200)

In [31]:
# 5. Convertir a su representación tensorial 
X_ten = X.reshape(X.shape[0], X.shape[1], 1)
X_ten

array([[[   10],
        [   20],
        [   30],
        ...,
        [ 1980],
        [ 1990],
        [ 2000]],

       [[ 2010],
        [ 2020],
        [ 2030],
        ...,
        [ 3980],
        [ 3990],
        [ 4000]],

       [[ 4010],
        [ 4020],
        [ 4030],
        ...,
        [ 5980],
        [ 5990],
        [ 6000]],

       ...,

       [[44010],
        [44020],
        [44030],
        ...,
        [45980],
        [45990],
        [46000]],

       [[46010],
        [46020],
        [46030],
        ...,
        [47980],
        [47990],
        [48000]],

       [[48010],
        [48020],
        [48030],
        ...,
        [49980],
        [49990],
        [50000]]])

In [32]:
# Tamaño del tensor final
X_ten.shape

(25, 200, 1)