In [7]:
import numpy as np
import pandas as pd
import math
import datetime
import yfinance as yf
import matplotlib.pyplot as plt
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.callbacks import EarlyStopping
from tensorflow.keras.layers import (Dense, Dropout, Activation,
Flatten, MaxPooling2D,SimpleRNN)
from tensorflow.keras.layers import LSTM
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Aprendizaje profundo para modelado de series de tiempo
En Deep Learning destacan dos métodos por su capacidad de incluir períodos de tiempo más largos: “Recurrent Neural Network” (RNN) y “Long Short-Term Memory” (LSTM).

## Red neuronal recurrente
RNN, tiene al menos una conexión de retroalimentación para que la red pueda aprender secuencias. Se tiene los siguente formas:

1. Uno a uno, una salida y una entrada.
2. Uno a muchos, una entrada y varias salidas.
3. Muchos a uno, múltiples entradas para una salida.
4. Muchos a Muchos, múltiples salidas y entradas.

RNN tiene entradas tridimensionales:

- Tamaño de lote.- Denota el número de observaciones o el número de filas de un dato.
- Pasos de tiempo.- Son la cantidad de veces que se alimenta el modelo.
- Número de características.- El número 1 característica, es el número de columnas de cada muestra. 

In [4]:
# Definir el número de pasos para alimentar al modelo RNN. 
n_steps = 13

# Definir el número de característica como 1. 
n_features = 1

# Llamar a un modelo secuencial para ejecutar RNN. 
model = Sequential()

# Identificación del número de neuronas ocultas y función de activación, forma de entrada. 
model.add(SimpleRNN(512, activation='relu',
input_shape=(n_steps, n_features),
return_sequences=True))

# Poner una capa de abandono para evitar el sobreajuste. 
model.add(Dropout(0.2))

# Agregando una capa oculta más con 256 neuronas con función de activación relu. 
model.add(Dense(256, activation = 'relu'))

# Aplanando el modelo para transformar una matriz tridimensional en un vector. 
model.add(Flatten())

# Agregar una capa de salida con función de activación lineal. 
model.add(Dense(1, activation='linear'))

# Compilando el modelo RNN.
model.compile(optimizer='rmsprop', loss='mean_squared_error',metrics=['mse'])

# Escribir una función llamada función split_sequence para definir el período de retrospectiva.
def split_sequence(sequence, n_steps):
    X, y = [], []
    for i in range(len(sequence)):
        end_ix = i + n_steps
        if end_ix > len(sequence) - 1:
            break
        seq_x, seq_y = sequence[i:end_ix], sequence[end_ix]
        X.append(seq_x)
        y.append(seq_y)
    return np.array(X), np.array(y)

### Desventajas
- Problema de gradiente que desaparece y explosivo.
    La desaparición del gradiente es un problema común en el aprendizaje profundo y no está diseñado adecuadamente. El problema del gradiente de desaparición surge si el gradiente tiende a reducirse a medida que realizamos la retropropagación. Implica que las neuronas aprenden tan lentamente que la optimización se detiene. A diferencia del problema del gradiente que desaparece, el problema del gradiente explosivo se produce cuando pequeños cambios en la retropropagación dan como resultado grandes actualizaciones en los pesos durante el proceso de optimización.
- Entrenar un RNN es una tarea difícil ya que requiere una cantidad considerable de datos.
- RNN no puede procesar secuencias muy largas cuando se utiliza la función de activación `tanh`.

### Funciones de activación
Las funciones de activación son ecuaciones matemáticas que se utilizan para determinar la salida en la estructura de una red neuronal. La función de activación es una herramienta para introducir no linealidad en las capas ocultas de modo que podamos modelar los problemas no lineales. De las funciones de activación, las más famosas son las siguientes: 

#### Sigmoide 
Esta función de activación nos permite incorporar pequeñas cantidades de salida a medida que introducimos pequeños cambios en el modelo. Toma valores entre 0 y 1. La representación matemática del sigmoide es:
$$sigmoid(x) = \frac{1}{1+e^{-\sum_i w_ix_i - b}}.$$
donde $w$ es el peso, $x$ denota datos, $b$ representa el sesgo y el subíndice $i$ muestra las características. 

#### Tanh 
Si manejas números negativos, `tanh` es tu función de activación. A diferencia de la función sigmoidea, oscila entre -1 y 1. La fórmula tanh es:
$$\tanh(x) = \frac{sinh(x)}{\cosh(x)}$$

#### Lineal
El uso de la función de activación lineal nos permite construir una relación lineal entre variables independientes y dependientes. La función de activación lineal toma las entradas y las multiplica por los pesos y forma las salidas. proporcional a la entrada. Por lo tanto, es una función de activación conveniente para modelos de series temporales. La función de activación lineal toma la forma de:
$$f(x)=wx.$$

#### Lineal rectificado
La función de activación lineal rectificada, conocida como `ReLu`, puede tomar 0 si la entrada es cero o está por debajo de cero. Si la entrada es mayor que 0, aumenta en línea con $x$. Matemáticamente: 
$$ReLu(x) = max(0, x).$$

#### Softmax
Es ampliamente aplicable a problemas de clasificación como en `sigmoide` porque `softmax` convierte la entrada en una distribución probabilística proporcional al exponencial de los números de entrada:
$$softmax(x_i) = \dfrac{e ^{x_i}}{\sum_i e^{x_i}}$$

## Memoria a largo y corto plazo. LSTM
Se basa en la unidad recurrente cerrada (GRU). Se propone GRU para abordar el problema del gradiente de desaparición, que es un problema común en la estructira de la red neuronal y ocurre cuando la actualización del peso se vuelve demasiado pequeña para crear un cambio significativo en la red. GRU consta de dos puertas:

- Actualizar.
- Restablecer.

Cuando se detecta que una observación temprana es muy importante, no actualizamos el estado oculto. De manera similar, cuando las primeras observaciones no son significativas, se restablece el estado. 

Las RNN tiene la capacidad de conectar información pasada y presente, el problema radica cuando las dependencias a largo plazo entran en escena. Las dependencias a largo plazo significan que el modelo aprende de las primeras observaciones.

LSTM intenta atacar la debilidad de RNN. LSTM trabaja con puertas, lo que permiteolvidar datos irrelevantes: estos son:

- Forget gates, se creó para clasificar la información necesaria e innecesaria para que LSTM funcione de manera más eficiente que RNN, al hacerlo el valor de la función de activación sigmoide se vuelve cero si la información es irrelevante. Se formula cómo:

$$F_t = \sigma(X_tW_I+h_{t-1}W_f + b_f)$$
donde $\sigma$ es la función de activación, $h_{t−1}$ es el estado oculto anterior, $W_I$ y $W_h$ son pesos y, finalmente, $b_f$ es el parámetro de sesgo en la celda de olvido.

- Input gate, se alimenta del paso del tiempo actual, $X_t$, y del estado oculto del paso del tiempo anterior $t-1$. El objetivo del input gate, es determinar el alcance de la información que se debe agregar al estado a largo plazo:
$$I_t = \sigma(\X_tW_I+h_{t-1}W_h+b_I)$$

- Output gate, básicamente determina el alcance de la salida que debe leerse y funciona:
$$O_t = \sigma(X_tW_O+h_{t-1}W_O+b_I)$$

Las puertas no son los únicos componentes de LSTM. Los otros componentes son:

- Candidate memory All.- Determina en qué medida la información pasa al estado de la celda. De manera diferente, la función de activación en la celda candidata es `tanh` y toma la siguiente forma:
$$\overline{C}_t = \phi(X_tW_c+h_{t-1}W_c+b_c)$$
La celda de memoria permite a LSTM recordar u olvidar la información:
$$C_t = F_t\odot C + t-1+I_t\odot \overline{C}_t.$$
donde $\odot$ es el producto hadmard.
En esta red recurrente, el estado oculto es una herramienta para hacer circular información. La celda de memoria relaciona la puerta de salida con el estado oculto:
$$h_t = \phi(c_t)\odot O_t.$$

Intentemos predecir el precio de las acciones de Apple y Microsoft utilizando LSTM y veamos cómo funciona:

In [8]:
n_steps = 13
n_features = 1

# Llamar al modelo LSTM e identificar la cantidad de neuronas y características
model = Sequential()
model.add(LSTM(512, activation='relu',
input_shape=(n_steps, n_features),
return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256,activation='relu'))
model.add(Flatten())
model.add(Dense(1, activation='linear'))
model.compile(optimizer='rmsprop', loss='mean_squared_error', metrics=
['mse'])

history = model.fit(X_aapl, y_aapl,
epochs=400, batch_size=150, verbose=0,
validation_split = 0.10)

start = X_aapl[X_aapl.shape[0] - 13]
x_input = start
x_input = x_input.reshape((1, n_steps, n_features))

tempList_aapl = []
for i in range(len(diff_test_aapl)):
    x_input = x_input.reshape((1, n_steps, n_features))
    yhat = model.predict(x_input, verbose=0)
    x_input = np.append(x_input, yhat)
    x_input = x_input[1:]
    tempList_aapl.append(yhat)

NameError: name 'X_aapl' is not defined