## Importación de módulos 

In [1]:
# Librerías dedicadas al procesamiento de los datos
import numpy as np
import pandas as pd

# Librerías para la visualización de los datos
import matplotlib.pyplot as plt
import seaborn as sns

# Librerías personales
from Lectura_datos.Lectura_datos import lectura_inicial_datos

## Lectura de los datos del Bitcoin

Los datos escogidos en esta primera aproximación al problema de la predicción del precio del Bitcoin se encuentran en la siguiente dirección web: **https://www.kaggle.com/mczielinski/bitcoin-historical-data/activity**. El rango temporal de dichos datos comienza el 1 de Enero de 2012 y finaliza el 31 de Diciembre de 2020, con un intervalo de 1 minuto entre ellos. El peso de la base de datos es de 300 MB y contiene más de dos millones de registros. 

Las variables que componen la base de datos a explorar son las siguientes: 
* Tiempo del registro (en modo Unix-timestamp).
* Valor de apertura endolares(USD) del precio en el minuto registrado.
* Valor más alto del precioen el minuto registrado.
* Valor más bajo del precio en el minuto registrado. 
* Valor de cierre del precio en el minuto registrado.
* Volumen en el minutoregistrado del bitcoin.
* Volumen en el minuto registrado de la divisa (USD).
* Precio ponderado en dolares en ese minuto registrado. 

Las filas o registros sin ninguna operación o actividad están instanciadas con valores de tipo *NaN* en sus columnas (exceptuando la fecha). La falta de registros, o presencia de saltos, puede deberse a la ausencia de intercambios, a problemas con su API o a errores técnicos en la presentación o recopilación de datos.

In [2]:
raw_data_bitcoin = lectura_inicial_datos()

## 1. Análisis Exploratorio
El proceso de exploración de los datos se ha realizado para:
1. Comprender los datos disponibles.
2. Determinar la cantidad de valores nulos y sus posibles causas.
3. Encontrar correlaciones entre las variables.


### 1.1 Observaciones preliminares

In [3]:
raw_data_bitcoin.head()

Unnamed: 0_level_0,Open,High,Low,Close,Volume_(BTC),Volume_(Currency),Weighted_Price
Timestamp,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2011-12-31 08:52:00,4.39,4.39,4.39,4.39,0.455581,2.0,4.39
2011-12-31 08:53:00,,,,,,,
2011-12-31 08:54:00,,,,,,,
2011-12-31 08:55:00,,,,,,,
2011-12-31 08:56:00,,,,,,,


In [4]:
raw_data_bitcoin.shape

(4727777, 7)

* La base de datos escogida está compuesta por 8 columnas y 4727777 filas. 
* 'Weighted_Price' es la variable objetivo del dataset.
* Las variables 'Timestamp', 'Open', 'High', 'Low', 'Close', 'Volume_(BTC)' y 'Volume_(Currency)' serán utilizadas por los distintos modelos para obtener las predicciones deseadas.

In [5]:
raw_data_bitcoin.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 4727777 entries, 2011-12-31 08:52:00 to 2020-12-31 01:00:00
Data columns (total 7 columns):
 #   Column             Dtype  
---  ------             -----  
 0   Open               float64
 1   High               float64
 2   Low                float64
 3   Close              float64
 4   Volume_(BTC)       float64
 5   Volume_(Currency)  float64
 6   Weighted_Price     float64
dtypes: float64(7)
memory usage: 288.6 MB


**Variables numéricas**

In [6]:
# Lista de las variables numéricas del dataset
raw_data_bitcoin.select_dtypes(include=['number']).columns

Index(['Open', 'High', 'Low', 'Close', 'Volume_(BTC)', 'Volume_(Currency)',
       'Weighted_Price'],
      dtype='object')

Características generales de las variables númericas:

In [7]:
raw_data_bitcoin.select_dtypes(include=['number']).describe().round(decimals = 3)

Unnamed: 0,Open,High,Low,Close,Volume_(BTC),Volume_(Currency),Weighted_Price
count,3484305.0,3484305.0,3484305.0,3484305.0,3484305.0,3484305.0,3484305.0
mean,4570.658,4573.721,4567.413,4570.624,9.423,33156.91,4570.625
std,4775.105,4778.62,4771.352,4775.094,31.013,112910.7,4775.09
min,3.8,3.8,1.5,1.5,0.0,0.0,3.8
25%,432.19,432.43,432.0,432.2,0.392,414.794,432.175
50%,3085.01,3093.25,3078.01,3084.41,1.937,3305.199,3085.478
75%,8158.01,8162.85,8152.79,8157.31,7.3,21582.97,8157.964
max,28997.38,29010.32,28963.66,28997.38,5853.852,10445990.0,28985.886
