<a href="https://colab.research.google.com/github/ednavivianasegura/ERAP_CursoPython/blob/main/Modulo3_RedesNeuronales/RNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Autores:** Edna Viviana Segura Alvarado - Hans Mauricio Carrillo Hernández

**Institución:** Universidad de la Rioja

**Fecha:** Junio/2025

**Redes neuronales recurrentes (RNN)**


Nota: basado en [RNN_C](https://www.datacamp.com/es/tutorial/tutorial-for-recurrent-neural-networks)


#Redes Neuronales Recurrentes (RNN)  

Las **Redes Neuronales Recurrentes (RNN)** son un tipo de red neuronal artificial diseñada para trabajar con datos secuenciales (como texto, series temporales o audio). A diferencia de las redes neuronales tradicionales, las RNN mantienen una **memoria interna** que les permite recordar información de pasos anteriores, lo que las hace ideales para:  

- Predicción de valores financieros.  
- Generación de texto (traducción, resúmenes).  
- Procesamiento de voz (ej.: Siri, Google Voice Search).  

#### Características clave:  
1. **Dependencia secuencial**: la salida en el paso `t` depende de las entradas anteriores (`t-1`, `t-2`, ...).  
2. **Compartición de parámetros**: usan los mismos pesos en todas las capas (eficiencia computacional).  
3. **Ajuste durante el entrenamiento**: los pesos y sesgos se optimizan mediante backpropagation a través del tiempo (BPTT).  

#### vs. Redes Feed-Forward:  
| **RNN** | **Feed-Forward** |  
|---------|------------------|  
| Memoria interna (estado oculto) | Sin memoria |  
| Salidas dependientes | Salidas independientes |  
| Ideal para secuencias | Ideal para datos estáticos |  


<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/1.png?raw=true" alt="1" width="50%" height="50%">  
</center>

## Funcionamiento de las Redes Neuronales Recurrentes (RNN)


Las RNN procesan información secuencial mediante bucles recurrentes, donde cada salida depende tanto de la entrada actual como de las anteriores. Este mecanismo les permite "recordar" patrones temporales, algo imposible en redes neuronales tradicionales.

**Arquitectura clave:**

<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/2.png?raw=true" alt="2" width="20%" height="5%">  
</center>

* Capa de entrada (X): recibe los datos (ej.: palabras, valores temporales).

* Capa oculta (A):

comparte los mismos parámetros (pesos y sesgos) en todos los pasos de tiempo.

Usa funciones de activación (como tanh o ReLU) para transformar los datos.

* Bucle recurrente: el estado oculto se retroalimenta, combinando información nueva con la pasada.

### Entrenamiento: Backpropagation Through Time (BPTT)

Diferencias con backpropagation tradicional:

* BPTT calcula gradientes a lo largo de la secuencia temporal, sumando errores en cada paso.

* Optimiza parámetros compartidos, lo que reduce la complejidad computacional.

### Tipos de RNN y sus aplicaciones

Gracias a su flexibilidad en longitudes de entrada/salida, las RNN destacan en tareas secuenciales:

## Tabla Comparativa: Tipos de RNN y sus Aplicaciones

| Tipo de RNN        | Estructura          | Ejemplo de Aplicación      | Caso de Uso Concreto               | Framework Implementación |
|--------------------|---------------------|---------------------------|------------------------------------|--------------------------|
| **Uno-a-Uno**      | `x → h → y`         | Clasificación de imágenes | MNIST/CIFAR-10                     | `torch.nn.RNN`           |
| **Uno-a-Muchos**   | `x → h → [y₁...yₙ]` | Generación de música      | Composición de melodías MIDI       | `tf.keras.SimpleRNN`     |
| **Muchos-a-Uno**   | `[x₁...xₙ] → h → y` | Análisis de sentimiento   | Clasificación de reseñas en Amazon | `nn.RNN` (PyTorch)       |
| **Muchos-a-Muchos**| `[x₁...xₙ] → h → [y₁...yₙ]` | Traducción automática | Seq2Seq (Inglés-Español)          | `tf.keras.LSTM`          |

<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/3.png?raw=true" alt="3" width="50%" height="50%">  
</center>

### Comparativa: Redes Neuronales Convolucionales (CNN) vs. Recurrentes (RNN)

**Redes Neuronales Convolucionales (CNN)**

<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/4.png?raw=true" alt="4" width="50%" height="50%">  
</center>

**Arquitectura típica:**


```
Conv2D → ReLU → MaxPooling → Flatten → Dense
```

**Aplicaciones principales:**


* Clasificación de imágenes (ej: MNIST, ImageNet)

* Procesamiento de video

* Detección de objetos

**Ventajas clave:**

* Captura patrones espaciales mediante filtros convolucionales

* Invariante a traslaciones en imágenes

* Eficiente para datos grid-like (píxeles)

**Redes Neuronales Recurrentes (RNN)**

**Arquitectura típica:**



```
RNNCell → Tanh → Dense
```

**Aplicaciones principales:**

* Procesamiento de lenguaje natural

* Análisis de series temporales

* Traducción automática


### Comparativa CNN vs RNN (Formato Notebook)



| Característica          | CNN                          | RNN                          |
|-------------------------|------------------------------|------------------------------|
| **Tipo de datos**       | Datos espaciales (imágenes)  | Datos secuenciales (texto/series) |
| **Arquitectura**        | Capas convolucionales        | Bucles recurrentes           |
| **Mecanismo**          | Filtros para patrones locales| Memoria de estados anteriores|
| **Backpropagation**    | Backprop estándar            | BPTT (Through Time)          |
| **Longitud E/S**       | Tamaño fijo                  | Longitud variable            |
| **Ejemplo típico**     | ResNet (clasificación)       | LSTM (traducción)            |
| **Ventaja clave**      | Invariante a traslaciones    | Modela dependencias temporales|
| **Limitación**         | Requiere mucho dato          | Problemas de gradiente       |


### Arquitecturas RNN Avanzadas
LSTM (Long Short-Term Memory)

<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/5.png?raw=true" alt="5" width="50%" height="50%">  
</center>

**Ventajas:**

* Memoria a largo plazo

* Evita problemas de gradiente

* GRU (Gated Recurrent Unit)

**Diferencias clave vs LSTM:**

* Menos parámetros

* Combina forget/input gates

* Similar rendimiento en muchos casos



# Arquitecturas Avanzadas para Modelado Secuencial

## Long Short-Term Memory (LSTM)

### Innovación clave:
Las LSTMs superan las limitaciones de las RNN tradicionales mediante un **mecanismo de puertas** que regula el flujo de información, resolviendo los problemas de:
- Desvanecimiento de gradientes
- Explosión de gradientes

**Componentes críticos:**

* Puerta Forget: decide qué información descartar

* Puerta Input: actualiza la memoria con datos relevantes

* Puerta Output: controla qué información pasa al siguiente paso

**Aplicaciones destacadas:**

* Traducción automática (ej: Google Translate)

* Generación de subtítulos automáticos

* Predicción de series temporales financieras


<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/6.png?raw=true" alt="6" width="50%" height="50%">  
</center>

## Gated Recurrent Unit (GRU)


<center>
 <img src="https://github.com/ednavivianasegura/AccesoImages/blob/main/RNN/7.png?raw=true" alt="7" width="50%" height="50%">  
</center>

### Evolución de las LSTM:

Las GRUs simplifican la arquitectura manteniendo la eficacia, mediante:

* 2 puertas fundamentales (vs 3 en LSTM)

* Menor costo computacional


| Característica       | LSTM                          | GRU                          |
|----------------------|-------------------------------|-------------------------------|
| **Puertas**          | 3 (Forget/Input/Output)       | 2 (Update/Reset)              |
| **Estado**           | Celda (Cₜ) + Oculto (hₜ)      | Solo estado oculto (hₜ)       |
| **Parámetros**       | ~30% más                       | Más eficiente                 |
| **Velocidad**        | Más lento                     | 20-30% más rápido             |
| **Precisión**        | Ideal para secuencias largas   | Comparable en secuencias medias |
| **Implementación**   | `keras.layers.LSTM()`          | `keras.layers.GRU()`           |


# Predicción de Precios de MasterCard usando Redes Neuronales Recurrentes

## Objetivo:

Desarrollar modelos predictivos para series temporales financieras utilizando arquitecturas LSTM y GRU, aplicadas al histórico de acciones de MasterCard (2006-2021).

### Dataset y Metodología

**Fuente de datos:**  
[Dataset de Kaggle](https://www.kaggle.com/datasets/kalilurrahman/mastercard-stock-data-latest-and-updated) con registros diarios desde 25/05/2006 hasta 11/10/2021



In [2]:
# @title Librerías


# ======================
# IMPORTACIÓN DE LIBRERÍAS
# ======================
# Procesamiento numérico y estructuras de datos
import numpy as np  # Operaciones matriciales y numéricas eficientes
import pandas as pd  # Manipulación de DataFrames y series temporales

# Visualización
import matplotlib.pyplot as plt  # Gráficos 2D y visualización de datos

# Preprocesamiento y evaluación
from sklearn.preprocessing import MinMaxScaler  # Normalización de datos [0,1]
from sklearn.metrics import mean_squared_error  # Métrica de error cuadrático medio

# Modelado con Keras
from tensorflow.keras.models import Sequential  # Modelo secuencial API
from tensorflow.keras.layers import (
    Dense,        # Capas totalmente conectadas
    LSTM,         # Long Short-Term Memory (para secuencias)
    Dropout,      # Regularización por desactivación aleatoria
    GRU,          # Gated Recurrent Unit (alternativa a LSTM)
    Bidirectional # LSTM bidireccional (contexto futuro+pasado)
)
from tensorflow.keras.optimizers import SGD  # Optimizador Descenso Gradiente Estocástico
from tensorflow.random import set_seed  # Control de aleatoriedad en TF

# Para acceder a los datos
import kagglehub
import os
import zipfile


# ======================
# CONFIGURACIÓN INICIAL
# ======================
"""
Establecimiento de semillas para reproducibilidad:
- TensorFlow/Keras (set_seed)
- NumPy (np.random.seed)
Valor 455 seleccionado arbitrariamente para consistencia
"""
set_seed(455)  # Semilla para generadores aleatorios de TensorFlow
np.random.seed(455)  # Semilla para NumPy y otras librerías basadas en él



Este código importa las bibliotecas necesarias para el análisis de datos y las tareas de manipulación. - numpy y pandas se utilizan para la manipulación y el análisis de datos. - matplotlib se utiliza para la visualización de datos. - MinMaxScaler y mean_squared_error se utilizan para el preprocesamiento y la evaluación de datos, respectivamente. - Las clases Sequential, Dense, LSTM, Dropout, GRU, Bidirectional y SGD pertenecen al módulo tensorflow.keras, que se utiliza para construir y entrenar modelos de aprendizaje profundo. - set_seed y np.random.seed se utilizan para establecer la semilla aleatoria con fines de reproducibilidad. En general, este código configura el entorno necesario para construir y entrenar modelos de aprendizaje profundo para el análisis de series temporales.

## Análisis inicial de datos

Imoportamos los datos, añadimos la columna Date como índice y en formato DataTime. Eliminamos dos variables que son irrelevantes en nuestro análisis.

In [20]:
# Download latest version
path = kagglehub.dataset_download("kalilurrahman/mastercard-stock-data-latest-and-updated")

print("Path to dataset files:", path)

print(os.listdir(path))

# Construir la ruta completa al archivo deseado
history_path = os.path.join(path, 'Mastercard_stock_history.csv')

# Cargar el dataset
dataset = pd.read_csv(history_path,index_col="Date", parse_dates=["Date"]
).drop(["Dividends", "Stock Splits"], axis=1)

display(dataset)




Path to dataset files: /kaggle/input/mastercard-stock-data-latest-and-updated
['Mastercard_stock_info.csv', 'Mastercard_stock_dividends.csv', 'Mastercard_stock_history.csv', 'Mastercard_stock_spilts.csv', 'Mastercard_stock_action.csv']


Unnamed: 0_level_0,Open,High,Low,Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2006-05-25 00:00:00-04:00,3.677800,4.202548,3.668674,4.197985,395343000
2006-05-26 00:00:00-04:00,4.225363,4.265517,4.025502,4.100336,103044000
2006-05-30 00:00:00-04:00,4.103990,4.104902,3.910517,4.015467,49898000
2006-05-31 00:00:00-04:00,4.047406,4.139579,4.047406,4.101250,30002000
2006-06-01 00:00:00-04:00,4.100334,4.389630,4.097596,4.335786,62344000
...,...,...,...,...,...
2025-03-12 00:00:00-04:00,530.510010,532.710022,519.260010,524.640015,2810800
2025-03-13 00:00:00-04:00,524.500000,528.530029,517.710022,519.830017,2375800
2025-03-14 00:00:00-04:00,522.599976,528.409973,520.950012,527.640015,2369500
2025-03-17 00:00:00-04:00,523.250000,533.479980,521.479980,531.989990,2544800


Este código lee un archivo CSV llamado "Mastercard_stock_history.csv" directamente desde kagglehub.
El resultado muestra los valores de Open, High, Low, Close y Volume de cada día del conjunto de datos, con la columna Date como índice.

La función .describe() sirve para analizar los datos iniciales.

Nos centraremos en la columna High, ya que vamos a utilizarla para entrenar el modelo.
También se pueden elegir las columnas Close u Open para una característica del modelo, pero High tiene más sentido, ya que  proporciona información de lo alto que subieron los valores de la acción en un día determinado.



In [21]:
print(dataset.describe())
print(dataset.isna().sum())

              Open         High          Low        Close        Volume
count  4733.000000  4733.000000  4733.000000  4733.000000  4.733000e+03
mean    157.218445   158.751430   155.650434   157.248719  1.062101e+07
std     151.827873   153.182400   150.433224   151.846666  1.632991e+07
min       3.677800     4.024589     3.668674     4.006337  6.411000e+05
25%      24.703870    25.007020    24.386382    24.721483  3.020000e+06
50%      87.602214    88.402167    86.976627    87.724739  4.742400e+06
75%     298.458871   302.054722   294.400031   298.368073  1.062100e+07
max     577.330017   582.229980   570.000000   576.309998  3.953430e+08
Open      0
High      0
Low       0
Close     0
Volume    0
dtype: int64


### Creamos los conjuntos de entrenamiento y prueba

In [30]:
# prompt: imprimir el tipo de la columna index

dataset.index.dtype

dtype('O')

In [25]:
tstart = 2016
tend = 2020

def train_test_plot(dataset, tstart, tend):
    dataset.loc[f"{tstart}":f"{tend}", "High"].plot(figsize=(16, 4), legend=True)
    dataset.loc[f"{tend+1}":, "High"].plot(figsize=(16, 4), legend=True)
    plt.legend([f"Train (Before {tend+1})", f"Test ({tend+1} and beyond)"])
    plt.title("MasterCard stock price")
    plt.show()

train_test_plot(dataset,tstart,tend)


TypeError: '<' not supported between instances of 'Timestamp' and 'str'