# Análise de dados de preços de Bitcoin

## Bibliotecas importadas

In [13]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('seaborn')

## Preparação dos dados

### Carregamento dos dados

In [2]:
btc_df = pd.read_csv('data/bitcoin_price.csv')

### Primeiros registros e dimensões dos dados

As primeiras cinco linhas do conjunto de dados são mostradas abaixo:

In [3]:
btc_df.head()

Unnamed: 0,symbol,time,open,close,high,low,volume
0,btcusd,1364688000000,92.5,93.033,93.74999,91.0,3083.079791
1,btcusd,1364774400000,93.25,103.999,105.9,92.49999,5224.401313
2,btcusd,1364860800000,104.0,118.229354,118.3867,99.0,8376.527478
3,btcusd,1364947200000,117.958261,134.7,146.88,101.51088,12996.245072
4,btcusd,1365033600000,134.71656,132.899,143.0,119.0,6981.668305


In [4]:
btc_df.shape

(2793, 7)

Como se verifica pelo resultado acima, o _dataframe_ possui 2793 registros de preços da criptomoeda _bitcoin_ ao alongo do tempo.

### Remoção de dados irrelevantes

A coluna `symbol` contém apenas um valor: "btcusd", o qual corresponde ao códifo de negociação dessa criptomoeda. 

In [5]:
btc_df['symbol'].unique()

array(['btcusd'], dtype=object)

Assim, essa coluna pode ser excluída sem perda de informação relevante à análise dos dados:

In [6]:
btc_df.drop('symbol', axis=1, inplace=True)

### Alteração do tipo dos dados

Quanto aos tipos de dados do _dataframe_ **btc_df**, por meio do método `info`, verificamos que a coluna `time` foi automaticamente tratada pelo pacote Pandas como de tipo inteiro (`int64`).

In [7]:
btc_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   time    2793 non-null   int64  
 1   open    2793 non-null   float64
 2   close   2793 non-null   float64
 3   high    2793 non-null   float64
 4   low     2793 non-null   float64
 5   volume  2793 non-null   float64
dtypes: float64(5), int64(1)
memory usage: 131.0 KB


Entretanto, para o propósito deste projeto é mais conveniente converter a coluna `time` para o tipo de dado `datetime`, como mostrado a seguir:

In [8]:
btc_df['time'] = pd.to_datetime(btc_df['time'], unit='ms')

Verifiquemos novamente os tipos de dados:

In [9]:
btc_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2793 entries, 0 to 2792
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   time    2793 non-null   datetime64[ns]
 1   open    2793 non-null   float64       
 2   close   2793 non-null   float64       
 3   high    2793 non-null   float64       
 4   low     2793 non-null   float64       
 5   volume  2793 non-null   float64       
dtypes: datetime64[ns](1), float64(5)
memory usage: 131.0 KB


Note-se que agora a coluna `time` mostra a data de cada um dos registros de maneira mais compreensível.

In [10]:
btc_df.head()

Unnamed: 0,time,open,close,high,low,volume
0,2013-03-31,92.5,93.033,93.74999,91.0,3083.079791
1,2013-04-01,93.25,103.999,105.9,92.49999,5224.401313
2,2013-04-02,104.0,118.229354,118.3867,99.0,8376.527478
3,2013-04-03,117.958261,134.7,146.88,101.51088,12996.245072
4,2013-04-04,134.71656,132.899,143.0,119.0,6981.668305


Para finalizar esta primeira etapa de preparação dos dados, definimos a coluna de tempo como o índice. Como se notará nas próximas seções, esse procedimento facilita a plotagem de gráficos dos dados:

In [11]:
btc_df.set_index('time', inplace=True)

In [12]:
btc_df.head()

Unnamed: 0_level_0,open,close,high,low,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2013-03-31,92.5,93.033,93.74999,91.0,3083.079791
2013-04-01,93.25,103.999,105.9,92.49999,5224.401313
2013-04-02,104.0,118.229354,118.3867,99.0,8376.527478
2013-04-03,117.958261,134.7,146.88,101.51088,12996.245072
2013-04-04,134.71656,132.899,143.0,119.0,6981.668305


## Transformação dos dados

A fim de obter o valor de mercado dos dados de _bitcoin_, efetua-se a multiplicação o volume (coluna `volume`) e os preços de fechamento (coluna `close`):

In [15]:
btc_df['market_cap'] = btc_df['volume'] * btc_df['close']

In [17]:
btc_df['market_cap'][:5]

time
2013-03-31    2.868282e+05
2013-04-01    5.433325e+05
2013-04-02    9.903514e+05
2013-04-03    1.750594e+06
2013-04-04    9.278567e+05
Name: market_cap, dtype: float64