# Đề tài: Exploratory Data Analysis of Cryptocurrency Historical Data

Sinh viên thực hiện:

- Lê Thanh Hiếu - 1712434

- Phạm Minh Thắng - 1712759

## Motivation

Song song với sự phát triển của công nghệ, thị trường tiền điện tử đang có những bước phát triển vô cùng mạnh mẽ. Bên cạnh đó, với tình hình dịch bệnh diễn biến phức tạp trên toàn cầu, các nhà đầu tư trên thế giới ngày càng thể hiện sự quan tâm vào tiềm năng to lớn của tiền điện tử.

Trong bối cảnh đó, đặc biệt với sự kiện đồng BTC đã chạm mốc 20000$ và ngày càng có chiều hướng gia tăng về giá trị, nhóm thực hiện đề tài phân tích và khám phá dữ liệu về một số loại tiền điện tử.

Thông qua phân tích dữ liệu, nhóm mong muốn có được sự hiểu biết cơ bản về các xu hướng và tạo cơ sở cho việc triển khai mô hình dự đoán. Mục tiêu là trả lời một số câu hỏi từ dữ liệu thu thập được như:
1. Đồng tiền nào có giá trị/giá trị thị trường lớn nhất?
2. Tương quan giá top 10 đồng tiền ảo
3. Xu hướng về khối lượng giao dịch cho top các đồng tiền ảo
4. Xem xét về thị phần phân chia giữa top 10 đồng tiền ảo hàng đầu
5. Tương quan giữa các thuộc tính với mỗi đòng tiền
6. Đồng tiền nào dễ biến động hơn và đồng nào ổn định hơn?
7. Biến động giá cả của các loại tiền ảo tương quan với nhau như thế nào?
8. Xu hướng theo mùa (seasonal trend) trong biến động giá trông như thế nào?
9. Dự đoán giá bitcoin trong tương lai. (Áp dụng học máy)



In [15]:
# import
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from itertools import product
from bokeh.plotting import figure, show, output_file
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.tsa.stattools import acf, pacf, adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.statespace.sarimax import SARIMAX
from fbprophet import Prophet
%matplotlib inline

from numpy.linalg import LinAlgError
import warnings
warnings.filterwarnings('ignore')

## Data Crawling

### Cài đặt các công cụ cần thiết

Cài đặt Selenium và Chromedriver phục vụ cho việc thu thập dữ liệu

In [16]:
!pip install selenium
!apt-get update # to update ubuntu to correctly run apt install
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

fish: Unknown command: pip
fish: 
pip install selenium
^
Reading package lists... Done
E: Could not open lock file /var/lib/apt/lists/lock - open (13: Permission denied)
E: Unable to lock directory /var/lib/apt/lists/
W: Problem unlinking the file /var/cache/apt/pkgcache.bin - RemoveCaches (13: Permission denied)
W: Problem unlinking the file /var/cache/apt/srcpkgcache.bin - RemoveCaches (13: Permission denied)
[1;31mE: [0mCould not open lock file /var/lib/dpkg/lock-frontend - open (13: Permission denied)[0m
[1;31mE: [0mUnable to acquire the dpkg frontend lock (/var/lib/dpkg/lock-frontend), are you root?[0m
cp: cannot stat '/usr/lib/chromium-browser/chromedriver': No such file or directory


In [17]:
import sys
sys.path.insert(0,'/usr/lib/chromium-browser/chromedriver')
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

In [18]:
driver = webdriver.Chrome('chromedriver',options=chrome_options)

WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home


### Thu thập dữ liệu

Toàn bộ dữ liệu được thu thập từ trang [Coinmarketcap](https://coinmarketcap.com). 

Về [Coinmarketcap](https://coinmarketcap.com), đây là trang web theo dõi giá tiền điện tử được tham khảo nhiều nhất trên thế giới, trong thời đại mà tiền điện tử ngày càng phát triển nhanh chóng. [Coinmarketcap](https://coinmarketcap.com) cung cấp thông tin chính xác, hiệu quả và trực quan về tiền điện tử cho người sử dụng.

Trang chủ của [Coinmarketcap](https://coinmarketcap.com) hiển thị danh sách các loại tiền điện tử hiện có trên thị trường, được sắp xếp theo giá trị vốn hoá thị trường. Nhóm tiến hành crawl dữ liệu danh sách các đồng tiền trước tiên.

Việc thu thập dữ liệu được thực hiện bằng cách parse HTML với thư viện Selenium (do trang web có sử dụng JavaScript với cơ chế lazy loading).

Các thông tin thu thập được từ danh sách bao gồm:

 - Tên đầy đủ của coin.
 - Ký hiệu của coin.
 - Giá trị của coin tại thời điểm thu thập dữ liệu.
 - Sự thay đổi giá so với 24 giờ/7 ngày trước.
 - Giá trị vốn hoá thị trường (USD).
 - Khối lượng giao dịch trong vòng 24h (theo USD và theo loại coin tương ứng).
 - Tổng lượng coin đang được lưu thông trên thị trường.
 - URL dẫn đến trang cung cấp thông tin chi tiết từng loại coin.


In [None]:
%%script false
home_url = "https://coinmarketcap.com"
driver.get(home_url)

In [None]:
%%script false
driver.find_element_by_class_name("hKnmWV").click()
driver.find_element_by_class_name("jvQpLZ").find_element_by_xpath("button[3]").click()
driver.find_element_by_class_name("cmc-cookie-policy-banner__close").click()
driver.find_element_by_tag_name("html").send_keys(Keys.END)

In [None]:
%%script false
coin_file = open("coin_list.csv", "w+")
coin_file.write("name\tsymbol\tprice\t24h\t7d\tmarket_cap\tvolume(usd)\tvolume(coin)\tcirculating_supply\turl\n")

In [None]:
%%script false
while True:
    print("Page:", driver.find_element_by_class_name("rc-pagination-item-active").get_attribute("title"))
    lines = driver.find_element_by_class_name("tableWrapper___3utdq").find_element_by_tag_name("tbody").find_elements_by_tag_name("tr")
    for line in lines:
        try:
            content = line.text.replace("\n", "\t")
            link = line.find_element_by_tag_name("a").get_attribute("href") + "historical-data/?start=20100101&end=20201215"
            coin_file.write(f"{content}\t{link}\n")
        except:
            pass

    next = driver.find_element_by_class_name("eEiCJF").find_element_by_class_name("rc-pagination-next")
    if "rc-pagination-disabled" not in next.get_attribute("class"):
        next.click()
        time.sleep(1)
    else:
        break

coin_file.close()

Sau khi đã có được danh sách các đồng tiền điện tử, nhóm tiến hành thu thập lịch sử thay đổi giá của các đồng tiền trên. Để thu thập lịch sử giá từng loại coin, nhóm sử dụng URL được thu thập trong danh sách các loại coin. Lịch sử được thu thập từ ngày đầu tiên coin có mặt trên thị trường đến ngày 16/12/2020.

In [None]:
coin_list = pd.read_csv("coin_list.csv", sep="\t")

In [None]:
coin_list.dropna(subset=["url"], inplace=True)
coin_list.drop_duplicates(subset=["name", "symbol"],inplace=True)
coin_list.index = coin_list.index.astype(int)

In [None]:
coin_list

In [None]:
%%script false
for i in range(len(coin_list)):
    coin = coin_list.iloc[i]
    symbol = coin["symbol"]
    f = open(f"data/{symbol}.csv", "w+")
    f.write("date\topen\thigh\tlow\tclose\tvolume\tmarket_cap\n")

    url = coin["url"]
    driver.get(url)

    time.sleep(10)

    try:
        data_table = driver.find_element_by_tag_name("tbody")
    except:
        continue

    content = data_table.text.split("\n")
    count = 0
    for value in content:
        f.write(value)
        count += 1
        if count < 7:
            f.write("\t")
        else:
            f.write("\n")
            count = 0
    f.close()
        

## Understanding the Data




Dưới đây là danh sách các loại coin được thu thập ở phần đầu tiên. Danh sách này được sắp xếp theo thứ tự giảm dần của giá trị vốn hoá

In [None]:
coin_list

In [None]:
top10 = coin_list.head(10)
print(top10.columns)

In [None]:
top10_symbol = top10['symbol']
top10['name']

In [None]:
top10_symbol

Vì đã thu thập dữ liệu thay đổi giá của từng loại coin, nhóm tiến hành trích xuất dữ liệu từng loại coin vào cùng một dataframe.

In [None]:
df = pd.DataFrame()
for symbol in coin_list.symbol.values:
    temp_df = pd.read_csv(f"data/{symbol}.csv", parse_dates=["date"], sep='\t', thousands=',')
    temp_df.insert(0,"symbol", symbol)
    df = pd.concat([df, temp_df])
df.reset_index(drop=True,inplace=True)

In [None]:
df

In [None]:
df.head()

In [None]:
df.describe()

### Features
Tập dữ liệu về giá của từng loại coin chứa các thuộc tính sau:
- **Date**: Ngày quan sát dữ liệu
- **Open**: Giá mở cửa của ngày được cho
- **High**: Giá cao nhất trong ngày được cho
- **Low**: Giá thấp nhất trong ngày được cho
- **Close**: Giá đóng cửa của ngày đựơc cho
- **Volume**: Khối lượng giao dịch trong ngày được cho
- **Market Cap**: Vốn hóa thị trường tính bằng USD

## Data Preprocessing

In [None]:
# summarize the number of unique values in each column
print(df.nunique())

In [None]:
df.shape

In [None]:
df.columns

## Exploratory Data Analysis

#### Giá trị thị trường

In [None]:
# Top 10 cryptocurrencies in 2020 Market Cap wise
ax = df.groupby(['symbol'])['market_cap'].first().sort_values(ascending=False).head(10).sort_values().plot(kind='barh', figsize=(10,5))
ax.set_xlabel("Market cap (in billion USD)")
plt.title("Top 10 Currencies by Market Cap")

In [None]:
# Top 10 cryptocurrencies in 2020 Market Cap wise
ax = df.groupby(['symbol'])['close'].first().sort_values(ascending=False).head(10).sort_values().plot(kind='barh', figsize=(10,5))
ax.set_xlabel("Price per 1 unit (in USD)")
plt.title("Top 10 Currencies by Price per 1 unit")

#### Tương quan giá top 10 đồng tiền ảo

In [None]:
top_10_currency_names = df.groupby(['symbol'])['market_cap'].first().sort_values(ascending=False).head(10).index
top_10_currency_names

In [None]:
data_top_10_currencies = df[df['symbol'].isin(top_10_currency_names)]
data_top_10_currencies

In [None]:
# dataframe where we will observe closing prices for each currency
close_df = df.groupby(['date', 'symbol'])['close'].last().unstack()
plt.figure(figsize=(14,8))
sns.heatmap(close_df[top_10_currency_names].corr(),vmin=0, vmax=1, cmap='coolwarm', annot=True);

#### Tương quan về giá trị thị trường top 10 đồng tiền ảo

In [None]:
# dataframe where we will observe market cap for each currency
market_df = df.groupby(['date', 'symbol'])['market_cap'].last().unstack()
plt.figure(figsize=(14,8))
sns.heatmap(market_df[top_10_currency_names].corr(),vmin=0, vmax=1, cmap='coolwarm', annot=True);

#### Xem xét về thị phần phân chia giữa top 10 đồng tiền ảo hàng đầu (treemap)

#### Giá trị (USD) trên 1 đơn vị theo thời gian

In [None]:
plt.rcParams["figure.figsize"] = (12,7)
ax = data_top_10_currencies.groupby(['date', 'symbol'])['close'].mean().unstack().plot();
ax.set_ylabel("Price per 1 unit (in USD)");
plt.title("Price per unit of currency"); 
plt.show()

#### Giá trị thị trường theo thời gian

In [None]:
# Market Capitalization
ax = data_top_10_currencies.groupby(['date', 'symbol'])['market_cap'].mean().unstack().plot();
ax.set_ylabel("Market Cap (in billion USD)");
plt.title("Market cap per Currency"); 

#### Khối lượng giao dịch theo thời gian

In [None]:
# Volume
ax = data_top_10_currencies.groupby(['date', 'symbol'])['volume'].mean().unstack().plot(figsize=(10,5));
ax.set_ylabel("Transaction Volume (in million)");
plt.title("Transaction Volume per Currency");

#### Giá trị thị trường trên tổng số đơn vị đang lưu hành

##### Khối lượng giao dịch trên tổng số đơn vị đang lưu hành

#### Biểu đồ nến (Candlestick chart) cho Bitcoin

In [None]:
def increase_decrease(open, close):
  if close > open:
    value = 'Increase'
  elif close < open:
    value = 'Decrease'
  else:
    value = 'Equal'
  return value

In [None]:
# def draw_candle_chart(df, symbol):
#   df.loc[df['symbol'] == symbol]
  
#   df["status"] = [increase_decrease(o, c) for o, c in zip(df.open, df.close)]
#   df["middle"] = (df.open + df.close)/2
#   df["height"] = abs(df.close-df.open)
#   pic = figure(x_axis_type='datetime', width=1000, height=300)
#   pic.title.text="Candle stick chart for " + symbol
#   print(df.columns)
#   hours_12=12*60*60*1000
#  # Increase
#   pic.rect(df.index[df.status=="Increase"],df.middle[df.status=="Increase"],
#   hours_12, df.height[df.status=="Increase"],fill_color="#CCFFFF",
#   line_color="black")
#   # Decrease
#   pic.rect(df.index[df.status=="Decrease"],df.middle[df.status=="Decrease"],
#   hours_12, df.height[df.status=="Decrease"],fill_color="#FF3333",
#   line_color="black")
#   pic.segment(df.index, df.high, df.index, df.low, color="Black")
#   output_file('bitcoin.html')
#   show(pic)

# draw_candle_chart(df, 'BTC')

In [None]:
import plotly.graph_objects as go
from datetime import datetime

In [None]:
def draw_candle_chart(df, symbol):
  df = df.loc[df['symbol'] == symbol]
  fig = go.Figure(data=[go.Candlestick(x=df['date'],
                  open=df['open'],
                  high=df['high'],
                  low=df['low'],
                  close=df['close'])])
  fig.update_layout(xaxis_rangeslider_visible=False)
  fig.show()

draw_candle_chart(df, 'BTC')

#### Biểu đồ nến:
- Thân nến được tô màu biểu trưng cho sự tăng giảm của giá, bóng nến là 2 que nhỏ nằm ở trên và dưới thân nến.
- Hai đỉnh thân nến tương ứng giá đóng cửa, mở cửa của phiên giao dịch. Với nến màu xanh: giá mở cửa ở dưới, giá đóng cửa ở trên và ngược lại.
- Đỉnh trên/dưới bóng nến tương ứng giá cao nhất/thấp nhất trong phiên giao dịch.

##### Ý nghĩa cơ bản:
- Thân nến càng dài chứng tỏ sức mua/bán càng mạnh. Thân nến dài cho thấy chênh lệch lớn giữa giá mở cửa và đóng cửa. Điều này chứng tỏ phe mua đang áp đảo phe bán nếu nến xanh hoặc phe bán đang gây áp lực mạnh nếu nến đỏ.
- Thân nến ngắn cho thấy thị trường đang chững lại, cả 2 phe đều đang lưỡng lự chưa quyết định.
- Bóng nến dài chứng tỏ thị trường đang có sự cạnh tranh giữa 2 phe. Cả 2 phe đều mua bán mạnh khiến giá tăng giảm liên tục. Cần quan tâm đến đỉnh của bóng nến (giá cao nhất/thấp nhất) để đánh giá các mức cản (ngưỡng hỗ trợ, ngưỡng kháng cự).





### Phân tích sâu hơn về Bitcoin

Bitcoin đang được xem như biểu tượng của tiền điện tử, khi mà sự quan tâm về lĩnh vực này được đặt chủ yếu lên Bitcoin. Nhắc đến tiền điện tử thì không thể không nhắc đến Bitcoin. Vì vậy nhóm sẽ tiến hành phân tích tập trung vào đồng Bitcoin trên thị trường.

Việc phân tích và dự đoán giá của đồng Bitcoin được thực hiện trên giá đóng cửa của Bitcoin theo từng ngày.

In [None]:
btc_df = df[(df["symbol"] == "BTC")]
btc_df.set_index("date", inplace=True)
btc_df.sort_index(inplace=True)
btc_df

Dữ liệu về sự thay đổi giá đồng BTC là dữ liệu time-series.

#### Biểu đồ giá BTC

In [None]:
btc_df[["close"]].plot(title="BTC close prices from 2013 to 2020", ylabel="USD")

#### Kiểm tra tính dừng của dữ liệu

Dữ liệu time-series có tính dừng có ý nghĩa trong việc dự đoán dữ liệu, giúp cho việc mô hình hoá dữ liệu dễ dàng thu được kết quả chính xác hơn. Để kiểm tra tính dừng của dữ liệu, ta sử dụng phương pháp kiểm định Dickey-Fuller và phân rã dữ liệu.

Việc phân rã được thực hiện bằng cách phân rã dữ liệu giá thành các thành phần con:
 - Trend: thành phần này chỉ ra xu hướng tổng quan của dữ liệu theo thời gian: lên hoặc xuống, tăng hoặc giảm
 - Seasonality: thành phần chỉ ra các xu hướng theo mùa vị, chỉ ra các pattern theo tháng, theo quý
 - Error: thành phần nhiễu còn lại sau khi trích xuất hết các thành phần ở trên, nó chỉ ra sự bất thường của các điểm dữ liệu

Sử dụng Addictive Time-Series để phân rã: Value = Base Level + Trend + Seasonality + Error

In [None]:
def decompose(df):
    # Additive Decomposition
    result_add = seasonal_decompose(df, model='additive', extrapolate_trend='freq')

    # Plot
    plt.rcParams.update({'figure.figsize': (8,8)})
    result_add.plot().suptitle('Additive Decompose', fontsize=12)
    plt.show()

Sử dụng DF Test sẽ cho chúng ta biết được giá trị P-value của dữ liệu. Nếu P-value nhỏ hơn 0.05, ta có thể xem như dữ liệu có tính dừng.

In [None]:
def ADFTest(series):
    adf = adfuller(series)
    print("P-value: {}".format(adf[1]))

Trước tiên ta tiến hành kiểm tra với dữ liệu ban đầu.

In [None]:
decompose(btc_df.close)
ADFTest(btc_df.close)

In [None]:
btc_month_df = btc_df.resample('M').mean()

decompose(btc_month_df.close)
ADFTest(btc_month_df.close)

Ta có thể dễ dàng nhận thấy độ lỗi trước 2017 dao động tương đối ổn định, cho đến gần cuối năm 2017, khi mà xảy ra hiện tượng bong bóng tiền ảo, khiến cho giá trị thay đổi có tính bất thường cao.

Với giá trị P-value như trên, ta có thể dễ dàng nhận thấy dữ liệu không có tính dừng. Việc này sẽ khó khăn cho việc mô hình hoá dữ liệu.

Bên cạnh đó, ta có thể thấy khoảng cuối năm 2017 có sự bất thuờng lớn ở dữ liệu. Điều này tương đối rõ ràng khi mà giai đoạn đó là giai đoạn bong bóng tiền điện tử diễn ra với sự đạt đỉnh kỉ lục của giá trị đồng BTC (so với thời điểm trước đó).

Ta thử biến đổi dữ liệu để dữ liệu trở nên dễ dàng hơn cho việc dự đoán.

#### Biến đổi dữ liệu

##### Differencing

In [None]:
plt.rcParams.update({'figure.figsize':(13,10), 'figure.dpi':120})
fig, axes = plt.subplots(2, 2)

# Original Series
axes[0, 0].plot(btc_df.close); axes[0, 0].set_title('Original Series')
plot_acf(btc_df.close, ax=axes[0, 1], lags=50)

# 1st Differencing
axes[1, 0].plot(btc_df.close.diff()); axes[1, 0].set_title('1st Order Differencing')
plot_acf(btc_df.close.diff().dropna(), ax=axes[1, 1],lags=50)

plt.show()

In [None]:
print("On 1st order differencing, ", end="")
ADFTest(btc_df.close.diff().dropna())

P-value thu được nhỏ hơn 0.05, nghĩa là ta đã thu được dữ liệu có tính dừng.

Dựng biểu đồ ACF và PACF ta được:

In [None]:
fig, axes = plt.subplots(1,2,figsize=(12,3), dpi= 100)
plot_acf(btc_df.close.diff().dropna(), lags=50,ax=axes[0])
plot_pacf(btc_df.close.diff().dropna(), lags=50, ax=axes[1])

##### Biến đổi hàm log và differencing

In [None]:
btc_log_df = pd.DataFrame(np.log(btc_df.close))
btc_log_diff_df = btc_log_df.diff().dropna()

In [None]:
print("On log series, ", end="")
ADFTest(btc_log_df.close)
print("On 1st order differencing with log series, ", end="")
ADFTest(btc_log_diff_df.close)

P-value thu được nhỏ hơn 0.05, như vậy ta đã có thể xem như dữ liệu có tính dừng.

In [None]:
plt.rcParams.update({'figure.figsize':(13,10), 'figure.dpi':120})
fig, axes = plt.subplots(2, 2)

# Original Series
axes[0, 0].plot(btc_log_df.close); axes[0, 0].set_title('Log Series')
plot_acf(btc_log_df.close, ax=axes[0, 1], lags=50)

# 1st Differencing
axes[1, 0].plot(btc_log_diff_df.close.diff()); axes[1, 0].set_title('1st Order Differencing')
plot_acf(btc_log_diff_df.close, ax=axes[1, 1],lags=50)

plt.show()

Ta lần lượt vẽ biểu đồ ACF và PACF với hai Differencing Series

In [None]:
fig, axes = plt.subplots(1,2,figsize=(13,4), dpi= 100)
fig.suptitle("1st Order Differencing on Original Series")
plot_acf(btc_df.close.diff().diff().dropna(), lags=50,ax=axes[0])
plot_pacf(btc_df.close.diff().diff().dropna(), lags=50, ax=axes[1])
plt.show()

In [None]:
fig, axes = plt.subplots(1,2,figsize=(13,4), dpi= 100)
fig.suptitle("1st Order Differencing on Log Series")
plot_acf(btc_log_df.close.diff().diff().dropna(), lags=50,ax=axes[0])
plot_pacf(btc_log_df.close.diff().diff().dropna(), lags=50, ax=axes[1])
plt.show()

Có thể thấy tại `lag=5` và `lag=10` xuất hiện một số tương quan nhất định.

## Áp dụng học máy

Nhóm lựa chọn mô hình baseline là ARIMA và độ đo dùng để đánh giá sẽ là RMSE và MAPE.

### ARIMA

ARIMA là viết tắt của cụm từ Autoregressive Intergrated Moving Average. Mô hình sẽ biểu diễn phương trình hồi qui tuyến tính đa biến (multiple linear regression) của các biến đầu vào.

### Lựa chọn tham số cho mô hình ARIMA

In [None]:
a = [range(5), range(2), range(5)]
params = list(product(*a))

results = []   
min_aic = float('inf')
best_param = []

# checking different set of params for best fit
for param in params:
    try:
        model = SARIMAX(btc_log_df.close, order=param).fit(disp=-1)
    except LinAlgError:
        print('Rejected Parameters:', param)
        continue
    except ValueError:
        print('Rejected Parameters:', param)
        continue
    if(min_aic > model.aic):
        min_aic = model.aic
        best_param = param
        best_model = model
        
    results.append([param, model.aic])

print(best_param,min_aic)
print(results)

### Huấn luyện và đánh giá mô hình

Tập dữ liệu đánh giá bao gồm giá đồng BTC 90 ngày cuối cùng, và tập dữ liệu huấn luyện bao gồm phần còn lại.

In [None]:
days = 90

train = btc_log_df.close.iloc[:-days]
test = btc_log_df.close.iloc[-days:]

#### Huấn luyện mô hình

In [None]:
model = SARIMAX(train, 
                order=best_param,
                freq='D',
                enforce_stationarity=False, 
                enforce_invertibility=False)
fitted = model.fit(disp=-1)

In [None]:
fitted.summary()

In [None]:
fitted.plot_diagnostics(figsize=(15,8))
plt.show()

#### Kiểm tra với dữ liệu tập test

Vì trước đó nhóm thực hiện huấn luyện với dữ liệu log của giá đồng tiền, nên phần này nhóm tiến hành chuyển ngược dữ liệu dạng log về dữ liệu giá như ban đầu.

In [None]:
# Values to test against the test set
fc   = fitted.get_forecast(len(test))
conf = fc.conf_int()

# Transforming the values back to normal
fc_series    = np.exp(pd.Series(fc.predicted_mean, index=test.index))
lower_series = np.exp(pd.Series(conf.iloc[:, 0], index=test.index))
upper_series = np.exp(pd.Series(conf.iloc[:, 1], index=test.index))

train_origin = np.exp(train)
test_origin  = np.exp(test)

# Values to test against the train set, see how the model fits
predictions = fitted.get_prediction(start=pd.to_datetime('2014'), dynamic=False)
pred        = np.exp(predictions.predicted_mean)

# Confidence interval for the training set
conf_int   = np.exp(predictions.conf_int())
low_conf   = np.exp(pd.Series(conf_int.iloc[:,0], index=train.index))
upper_conf = np.exp(pd.Series(conf_int.iloc[:,1], index=train.index))

Biểu đồ dự đoán giá BTC

In [None]:
plt.rcParams.update({'figure.figsize': (14, 8)})

# Plotting the training set, test set,forecast, and confidence interval.
plt.plot(train_origin, label='train')
plt.plot(test_origin, label='actual')
plt.plot(fc_series, label='forecast')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.15)

# Plotting against the training data
pred.plot(label='Fit to Training', color='w')
plt.fill_between(conf_int.index, conf_int.iloc[:,0], conf_int.iloc[:,1], color='g',alpha=.5)

plt.title('Fit to Train Data and \nForecasting vs Actual Test Values')
plt.legend()
plt.show()

Phóng to giai đoạn năm 2020

In [None]:
plt.rcParams.update({'figure.figsize': (14, 8)})

# Plotting the training set, test set,forecast, and confidence interval.
plt.plot(train_origin, label='train')
plt.plot(test_origin, label='actual')
plt.plot(fc_series, label='forecast')
plt.fill_between(lower_series.index, lower_series, upper_series, color='k', alpha=.15)

# Plotting against the training data
pred.plot(label='Fit to Training', color='w')
plt.fill_between(conf_int.index, conf_int.iloc[:,0], conf_int.iloc[:,1], color='g',alpha=.5)

plt.xlim(['2020-01', '2021-01'])

plt.title('Fit to Train Data and \nForecasting vs Actual Test Values')
plt.legend()
plt.show()

#### Đánh giá độ lỗi

Nhóm đánh giá độ lỗi của mô hình bằng RMSE

In [None]:
# Calculating our errors
rmse = np.sqrt(((pred - train_origin) ** 2).mean())

print("RMSE: ", rmse)

Ngoài ARIMA, nhóm cũng tiến hành thử nghiệm với mô hình Facebook Prophet và tiến hành so sánh nhằm chọn ra mô hình tốt hơn.

### Facebook Prophet

Facebook Prophet là mô hình dùng trong việc phân tích và dự đoán dữ liệu time-series dựa trên mô hình Addictive. Facebook Prophet có khả năng xử lý dữ liệu nhiễu và ngoại lai

#### Chuẩn bị dữ liệu

Vì FB Prophet cần dữ liệu theo đúng format yêu cầu, ta tiến hành tiền xử lý.

In [None]:
prophet_df = pd.DataFrame(btc_df["close"])
prophet_df.reset_index(inplace=True)
prophet_df.columns = ["ds", "y"]
prophet_df

#### Huấn luyện và đánh giá mô hình

In [None]:
prophet = Prophet(interval_width=0.95)
prophet.fit(prophet_df)

In [None]:
future = prophet.make_future_dataframe(periods=15, freq='D')
future.tail()

In [None]:
forecast = prophet.predict(future)
forecast.tail()

In [None]:
forecast.yhat[:-15]
btc_df.close

#### Đánh giá độ lỗi của mô hình

In [None]:
# Calculating our errors
rmse = np.sqrt(((forecast.yhat.values[:-15] - btc_df.close.values) ** 2).mean())

print("RMSE: ", rmse)

### Sử dụng mô hình để dự đoán giá BTC trong tương lai

Với kết quả thu được ở trên, nhóm quyết định lựa chọn mô hình ARIMA với tham số (4,1,4).

Sau khi chọn lựa được mô hình, nhóm muốn tiến hành thử việc dự đoán giá trị BTC trong 15 ngày cuối cùng của năm 2020. Trong trường hợp này, mô hình sẽ được huấn luyện với toàn bộ tập dữ liệu.

In [None]:
model = SARIMAX(btc_log_df, 
                order=best_param,
                freq='D',
                enforce_stationarity=False, 
                enforce_invertibility=False)
fitted = model.fit(disp=-1)

Sau khi huấn luyện xong, nhóm sẽ cho mô hình dự đoán giá BTC trong vòng 15 ngày.

In [None]:
# Getting the forecast of future values
future = fitted.get_forecast(steps=15)

# Transforming values back
future_price = np.exp(future.predicted_mean)

# Confidence interval for forecasted values
future_conf = np.exp(future.conf_int())

In [None]:
ax = np.exp(btc_log_df.close).plot(label='Actual', figsize=(16,8))

# Plottting the forecast
future_price.plot(ax=ax, label='Future Price')

# Shading in the confidence interval
ax.fill_between(future_conf.index,
                future_conf.iloc[:, 0],
                future_conf.iloc[:, 1], color='k', alpha=.25)

ax.set_xlabel('Date')
ax.set_ylabel('USD')
ax.set_xlim(['2020-10', '2021-01'])

plt.title('Forecast BTC prices in 17/12 - 31/12/2020')
plt.legend()
plt.show()

Mô hình dự đoán đồng tiền BTC sẽ tăng nhẹ về giá trị trong những ngày cuối cùng của năm 2020, trong khi trên thực tế nó đang tăng phi mã và đã cán mốc 28000 USD. Nhìn chung thì mô hình dự đoán đúng việc đồng BTC sẽ tiếp tục phát triển, tuy nhiên giá trị cụ thể chỉ mang tính tham khảo và chúng ta không nên sử dụng kết quả này để tiến hành đầu tư.

## Kết luận

Từ kết quả thu được, nhóm rút ra kết luận:
 - Số lượng đồng tiền ảo trên thị trường ngày càng tăng theo thời gian, chứng tỏ sự phát triển ngày càng lớn của thị truờng tiền điện tử.
 - Đồng Bitcoin (BTC) vẫn đang là đồng tiền phổ biến nhất, có giá trị và vốn hoá thị trường dẫn đầu so với các đồng tiền còn lại.
 - Đồng BTC nói riêng, thị trường tiền điện tử nói chung vẫn đang có xu hướng tiếp tục phát triển mạnh mẽ. (với sự phát triển của công nghệ và ảnh hưởng của dịch bệnh đang diễn ra trên khắp thế giới.