# Pronóstico del precio de apertura de Bitcoin mediante redes neuronales

El objetivo de este producto integrador de aprendizaje es utilizar métodos de sistemas adaptativos (en este caso, un redes neuronales profundas) para pronóstico de series de tiempo. Este problema es muy común, considerando que existe una gran cantidad de escenarios donde los datos forman una secuencia temporal--es decir, se generan valores a lo largo del tiempo. Algunos de estos escenarios incluyen los perfiles de consumo de energía (cantidad consumida a lo largo de un mes, por ejemplo), las calificaciones de un alumno durante un semestre, los índices de contaminación a lo largo de un día y la bolsa de valores--entre otros.

El escenario que analizamos para este PIA consiste en el precio del *Bitcoin*, que es una de las cripto-monedas más conocidas y utilizadas de los últimos años. En este caso, nos enfocaremos en pronosticar el precio de apertura de esta moneda utilizando redes neuronales.

## Librerías

In [1]:
#LIBRERÍAS

from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error

#Ciencia de datos: Numpy, Pandas, Seaborn
import numpy as np
import scipy.stats as stats
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#Auxiliares
import sys

## Funciones auxiliares

Las dos funciones que estaremos usando como apoyo son *calcular_mse(...)* y *generar_ventanas(...)*. Mientras que la primera nos permite calcular el error cuadrático medio (MSE, por sus siglas en inglés) entre un conjunto de valores (y) y un conjunto de valores estimados (y_hat), la segunda nos permite generar un conjunto de datos a partir de una serie univariada.

In [2]:
def calcular_rmse(y, y_hat):
    return np.sqrt(mean_squared_error(y, y_hat))

Completa la función *generar_ventanas(...)*, que recibe la serie de datos original (*data_preproc*) y la convierte en un conjunto de datos a manera de tabla, donde $X$ representa las características, y $y$ las etiquetas. Para el caso de series univariadas, cada etiqueta $y_n$ representa el valor de apertura para el día $n$, y cada vector de características $X$ representa una serie (dada por *ventana*) de valores de apertura en los días previos. Por ejemplo, si $ventana=4$, entonces el primer renglón del conjunto de datos sería $X=(x_1, x_2, x_3, x_4)$ y $y=x_5$. Luego, el segundo renglón sería $X=(x_2 \ldots x_5)$ y $y=x_6$. Y así sucesivamente. 

In [3]:
def generar_ventanas(datos_preproc, ventana):
    #EJERCICIO 1 ---AQUÍ VA TU CÓDIGO---
    
    

    return X,y

## Lectura del conjunto de datos

Carga los datos en un dataframe de pandas y muestra las primeras líneas de este dataframe. *Tip:* Utiliza los métodos *read_csv(...)* y *head()* de esta librería. Recuerda que este ejercicio ya se hizo para las entregas anteriores.

In [7]:
#EJERCICIO 2 ---AQUÍ VA TU CÓDIGO---
df = pd.read_csv('bitcoin_diario_apertura.csv')
df.head()

Unnamed: 0,fecha,apertura
0,01/03/2022 00:00,43221.71
1,28/02/2022 00:00,37717.1
2,27/02/2022 00:00,39146.66
3,26/02/2022 00:00,39242.64
4,25/02/2022 00:00,38360.93


In [8]:
df_ap=df['apertura']
df_ap.head()

0    43221.71
1    37717.10
2    39146.66
3    39242.64
4    38360.93
Name: apertura, dtype: float64

## Pre-procesamiento

Convierte el dataframe con los precios de apertura (*df_ap*) en un array de numpy, y re-dimensiónalo con *.reshape(-1,1)*. Esto nos servirá para poder realizar operaciones sobre los datos de una manera más sencilla. 

In [None]:
#Conversión a array de numpy
#EJERCICIO 3---AQUÍ VA TU CÓDIGO---
#datos=...

#Ver las dimensiones del conjunto de datos
print("Dimensiones del conjunto de datos: ",datos.shape)

Estandariza el array previamente obtenido utilizando el *MinMaxScaler()*. Esta estandarización nos ayudará a tener acotados los valores del conjunto.

Muestra los 10 primeros renglones del conjunto de datos estandarizado.

In [None]:
#Estandarización min-max
#EJERCICIO 4 ---AQUÍ VA TU CÓDIGO---
#datos_estandarizados= ...

datos_estandarizados[:10]

## Generación de conjuntos de prueba y entrenamiento

Ahora genera, a partir de los datos estandarizados, los conjuntos **X** y **y**, donde el primero contiene los vectores de características y el segundo contiene las etiquetas. Posteriormente, divide cada uno de estos conjuntos en entrenamiento y prueba, de tal manera que termines con los conjuntos **X_train**, **y_train**, **X_test** y **y_test**.

Primero, vamos a definir los tamaños de cada conjunto. Considera 70% de los datos para entrenar y 30% para probar.

In [None]:
ventana=8 #Tomaremos los 8 valores previos

#Obtén el tamaño del conjunto de datos.
#EJERCICIO 5A---AQUÍ VA TU CÓDIGO---
#n=...

m=n-ventana

#Obtén el tamaño del conjunto de entrenamiento
#EJERCICIO 5A---AQUÍ VA TU CÓDIGO---
#tam_entrenamiento=...

tam_prueba=n-tam_entrenamiento-ventana

print("Vectores para entrenamiento:",tam_entrenamiento)
print("Vectores para prueba: ",tam_prueba)

Ahora, genera los conjuntos **X** y **y**, utilizando para ello la función *generar_ventanas(...)*

In [None]:
#Generamos vectores de características. Cada vector consiste en el precio x y los V precios anteriores, 
#donde V es el tamaño de la ventana
#En este caso, la etiqueta numérica sería el precio x

#EJERCICIO 5B---AQUÍ VA TU CÓDIGO---
#X,y= ...

In [None]:
X[:5]

In [None]:
y[:5]

Genera **X_train**, **X_test**, **y_train**, y **y_test** a partir de **X**, **y** y *tam_entrenamiento*. Considera que, para una serie univariada, el conjunto de entrenamiento consiste en los primeros $n$ valores (contiguos)---dados por *tam_entrenamiento*---, y el conjunto de prueba consiste en los valores restantes de la serie. *Tip:* Utiliza *slicing*.

In [None]:
#EJERCICIO 5C---AQUÍ VA TU CÓDIGO---
#X_train=...
#X_test=...
#y_train=...
#y_test=...

y_train=y_train.reshape(-1,1)
y_test=y_test.reshape(-1,1)

In [None]:
print("Dimensiones de X: ",X.shape)
print("Dimensiones de y: ",y.shape)
print("Dimensiones de X_train: ",X_train.shape)
print("Dimensiones de X_test: ",X_test.shape)
print("Dimensiones de y_train: ",y_train.shape)
print("Dimensiones de y_test: ",y_test.shape)

# Visualizaciones

## Datos originales

In [None]:
# Graficar precios de apertura
#EJERCICIO 6 ---AQUÍ VA TU CÓDIGO---

## Entrenamiento y prueba

In [None]:
#EJERCICIO 7 ---AQUÍ VA TU CÓDIGO---

#Entrenamiento: línea negra
#plt.plot(...)

#Prueba: línea roja
#plt.plot(...)

## Revisión

**¡¡Ejecuta las siguientes celdas de código!! DEBES TENER EN EL MISMO DIRECTORIO EL ARCHIVO testing_pia2.py**

In [None]:
import testing_pia2 as testing

values=[]
avalues=[]
lvalues=[]

try:
    values.append(len(df))
    values.append(len(df.columns))
except NameError:
    values.append(-1)
    values.append(-1)

try:
    values.append(tam_entrenamiento)
except NameError:
    values.append(-1)

try:
    values.append(X.shape)
except NameError:
    values.append(-1)

try:
    values.append(y.shape)
except NameError:
    values.append(-1)

try:
    values.append(X_train.shape)
except NameError:
    values.append(-1)

try:
    values.append(X_test.shape)
except NameError:
    values.append(-1)

try:
    values.append(y_train.shape)
except NameError:
    values.append(-1)
    
try:
    values.append(y_test.shape)
except NameError:
    values.append(-1)

try:
    avalues.append(datos[0,0])
    avalues.append(datos[-1,0])
except NameError:
    avalues.append(-1)
    avalues.append(-1)

try:
    avalues.append(datos_estandarizados[0,0])
    avalues.append(datos_estandarizados[-1,0])
except NameError:
    avalues.append(-1)
    avalues.append(-1)

testing.evaluate(values,avalues,lvalues)