## Importación de módulos 

In [1]:
# Librerías dedicadas al procesamiento de los datos
import numpy as np
import pandas as pd

# Librerías para la visualización de los datos
import matplotlib.pyplot as plt
import seaborn as sns

# Librerías personales
from lectura_datos import lectura_inicial_datos

## Lectura de los datos del Bitcoin

Los datos escogidos en esta primera aproximación al problema de la predicción del precio del Bitcoin se encuentran en la siguiente dirección web: **https://www.kaggle.com/mczielinski/bitcoin-historical-data/activity**. El rango temporal de dichos datos comienza el 1 de Enero de 2012 y finaliza el 31 de Diciembre de 2020, con un intervalo de 1 minuto entre ellos. El peso de la base de datos es de 300 MB y contiene más de dos millones de registros. 

Las variables que componen la base de datos a explorar son las siguientes: 
* Tiempo del registro (en modo Unix-timestamp).
* Valor de apertura endolares(USD) del precio en el minuto registrado.
* Valor más alto del precioen el minuto registrado.
* Valor más bajo del precio en el minuto registrado. 
* Valor de cierre del precio en el minuto registrado.
* Volumen en el minutoregistrado del bitcoin.
* Volumen en el minuto registrado de la divisa (USD).
* Precio ponderado en dolares en ese minuto registrado. 

Las filas o registros sin ninguna operación o actividad están instanciadas con valores de tipo *NaN* en sus columnas (exceptuando la fecha). La falta de registros, o presencia de saltos, puede deberse a la ausencia de intercambios, a problemas con su API o a errores técnicos en la presentación o recopilación de datos.

In [2]:
raw_data_bitcoin = lectura_inicial_datos()

## 1. Análisis Exploratorio
El proceso de exploración de los datos se ha realizado para:
1. Comprender los datos disponibles.
2. Determinar la cantidad de valores nulos y sus posibles causas.
3. Encontrar correlaciones entre las variables.


### 1.1 Observaciones preliminares

In [8]:
raw_data_bitcoin.head()

Unnamed: 0,Timestamp,Open,High,Low,Close,Volume_(BTC),Volume_(Currency),Weighted_Price
0,2011-12-31 08:52:00,4.39,4.39,4.39,4.39,0.455581,2.0,4.39
1,2011-12-31 08:53:00,,,,,,,
2,2011-12-31 08:54:00,,,,,,,
3,2011-12-31 08:55:00,,,,,,,
4,2011-12-31 08:56:00,,,,,,,


In [9]:
raw_data_bitcoin.shape

(1048575, 8)

* La base de datos escogida está compuesta por 8 columnas y 1048575 filas. 
* 'Weighted_Price' es la variable objetivo del dataset.
* Las variables 'Timestamp', 'Open', 'High', 'Low', 'Close', 'Volume_(BTC)' y 'Volume_(Currency)' serán utilizadas por los distintos modelos para obtener las predicciones deseadas.

In [4]:
raw_data_bitcoin.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1048575 entries, 0 to 1048574
Data columns (total 8 columns):
 #   Column             Non-Null Count    Dtype         
---  ------             --------------    -----         
 0   Timestamp          1048575 non-null  datetime64[ns]
 1   Open               342169 non-null   float64       
 2   High               342169 non-null   float64       
 3   Low                342169 non-null   float64       
 4   Close              342169 non-null   float64       
 5   Volume_(BTC)       342169 non-null   float64       
 6   Volume_(Currency)  342169 non-null   float64       
 7   Weighted_Price     342169 non-null   float64       
dtypes: datetime64[ns](1), float64(7)
memory usage: 64.0 MB


**Variables numéricas**

In [10]:
# Lista de las variables numéricas del dataset
raw_data_bitcoin.select_dtypes(include=['number']).columns

Index(['Open', 'High', 'Low', 'Close', 'Volume_(BTC)', 'Volume_(Currency)',
       'Weighted_Price'],
      dtype='object')

Características generales de las variables númericas:

In [11]:
raw_data_bitcoin.select_dtypes(include=['number']).describe().round(decimals = 3)

Unnamed: 0,Open,High,Low,Close,Volume_(BTC),Volume_(Currency),Weighted_Price
count,342169.0,342169.0,342169.0,342169.0,342169.0,342169.0,342169.0
mean,229.456,229.802,229.065,229.44,16.275,4485.655,229.42
std,271.717,272.238,271.142,271.711,48.129,19512.654,271.665
min,3.8,3.8,3.8,3.8,0.0,0.0,3.8
25%,93.49,93.54,93.42,93.49,0.99,99.0,93.483
50%,121.11,121.18,121.0,121.09,3.026,328.039,121.103
75%,194.3,194.46,194.15,194.3,12.0,1782.326,194.3
max,1163.0,1163.0,1162.99,1163.0,2958.478,1543034.758,1163.0
