# Práctica RNN 
## Hugo Fole Abellás y José Romero Conde

------

En esta práctica deberás desarrollar un modelo que sea capaz de predecir el precio del dólar en euros con
6h de adelanto. Para ello, contarás con el fichero de datos UDC_EUR.json, disponible en el canal de Teams de
la asignatura.

La idea es hacer un modelo que te permita decidir cuándo comprar y cuándo vender dólares, para que puedas
operar de la siguiente manera:
 - Si el modelo predice que el dólar bajará: vendo un dólar ahora y lo compro más barato dentro de 6h. La diferencia entre el precio de venta y el de compra es mi ganancia.
 - Si el modelo predice que el dólar subirá: compro un dólar ahora y lo vendo más caro dentro de 6h. La diferencia entre el precio de compra y el de venta es mi ganancia.
 - Puedes suministrarle al modelo los datos de entrada que estimes para cada predicción, siempre
respetando que ninguno esté a menos de 6h del que intentas predecir.

Debes respetar las siguientes restricciones:

 - No se deben utilizar datos posteriores a 31/08/2022 23:59:59 para entrenamiento. Los datos desde
01/09/2022 00:00:00 en adelante se podrán utilizar como conjunto de test.
 - La predicción se deberá hacer a 6h vista, es decir, se deberá predecir el valor de salida 6 horas
después del dato más reciente que se le proporcione al modelo. Se deberán predecir dos valores distintos:
      - Valor de la variable "precio fin".
      - Valor binario que indicará si "precio fin"6h después será mayor o menor que en el dato más
reciente proporcionado a la entrada.

----

## _Librerías_

In [None]:
import pandas as pd # siguiendo la convención universal
from matplotlib import pyplot as plt
import numpy as np
from scipy import stats

## 1. Carga y examina los datos

### 1.1. Carga los datos con Pandas y haz un examen preliminar de los mismos. Descarta aquellos que sean erróneos.

In [None]:
if 'USD_EUR.json' in os.listdir():
    df = pd.read_json('USD_EUR.json') # usando df para seguir la convención

In [None]:
df.describe() # les echamos un ojo

Vemos en el resumen superior que hay un valor muy alto en `precio mas alto`, constrastamos esta creencia ploteando.

In [None]:
plt.plot(df[["precio mas alto"]]);

Filtramos (solo las columnas numéricas) los valores que estén alejados a más de 3 sigmas de la media. Y vemos el resultado en que el plot anterior ahora es más correcto. (De todas formas, el plot solo muestra de una columna y se filtra en todas menos dos.)

In [None]:
columnasFiltrar = ['precio inicio', 'precio mas alto', 'precio mas bajo', 'precio fin', 'volumen', 'volumen en cuotas', 'volumen en cuotas', 'numero de compras', 'volumen de dolares', 'volumen de euros']

df = df[(np.abs(stats.zscore(df[columnasFiltrar])) < 3).all(axis=1)]

In [None]:
plt.plot(df[["precio mas alto"]]);

### 1.2. Haz la partición entre conjunto de entrenamiento y conjunto de test.

In [None]:
instanteSeparacion = pd.to_datetime("31/08/2022 23:59:59", dayfirst=True)
dfEntrenamiento = df[df['timestamp inicial'] <= instanteSeparacion] 
dfTest = df[df['timestamp inicial'] > instanteSeparacion] 

----

## 2. Preprocesado

### 2.1. Representa las variables en un formato que facilite el aprendizaje. Para ello estandariza aquellas que lo necesiten y transforma las fechas a un formato adecuado.

### 2.2. Transforma los conjuntos de entrenamiento y test a NumPy.

### 2.3. Utiliza la función sliding_window del Lab11 para ventanear la serie temporal para obtener un lote de muchos pares (vector de entrada, etiqueta) para entrenamiento y otro lote para test:
- Haz que el tamaño de ventana sea configurable para poder probar varias alternativas.
- Revisa la continuidad temporal de la serie para que las ventanas representen siempre el mismo
periodo de tiempo. Descarta las ventanas incorrectas.

----

## 3. Elección del/los modelo/s. Prueba con ventanas de distinto tamaño, y ajusta a los datos de entrenamiento a modelos con arquitecturas de tipo

### 3.1 Totalmente conectado.

### 3.2 LSTM y GRU.

### 3.3. LSTM y GRU anidados. Se requieren al menos dos capas.

### 3.4. Transformer (No es necesario entrenarlo, sólo prepararlo para su uso).

## 4. Evaluación del rendimiento del/los modelo/s frente a baselines.

### 4.1. Compara el rendimiento de tus modelos frente entre sí y con dos baselines sencillas (diseñados baselines similares para el problema binario):
 - Un modelo que prediga siempre el último valor de entrada recibido (6h antes del dato
a predecir).
 - Un modelo que prediga la media de los valores de entrada recibidos.

### 4.2. Identifica sesgos en tu modelo. Para ello, analiza las distribuciones de entrenamiento y test y las predicciones/errores de entrenamiento/test. Si identificas algún problema, adapta tu pipeline para intentar solventarlo.

### 4.3. Busca dar respuesta a las preguntas, ¿por cuántos céntimos de dólar falla cada modelo? ¿Cuánto puedo esperar ganar con mi modelo durante el periodo de test, haciendo las operaciones de 1$?