<img style="float: right;" src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1555400601684.png">

## 比特币价格预测及绘图

---

<i class="fa fa-exclamation-circle" aria-hidden="true"> 以下内容仅保留挑战参考答案代码部分，完整挑战请到原课程页面查看。</i>

---

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：使用 Pandas 加载数据集 CSV 文件，并预览前 `5` 行数据。

In [None]:
import pandas as pd

### 代码开始 ### (≈ 2 行代码)
df = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1081/challenge-2-bitcoin.csv', header=0)
df.head()
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：分离出仅包含 `btc_market_price`，`btc_total_bitcoins`，`btc_transaction_fees` 列的 DataFrame，并定义为变量 `data`。

In [None]:
### 代码开始 ### (≈ 1 行代码)
data = df[['btc_market_price','btc_total_bitcoins', 'btc_transaction_fees']]
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：分别绘制 `data` 数据集 3 列数据的线形图，并以横向子图排列。

In [None]:
from matplotlib import pyplot as plt
%matplotlib inline

fig, axes = plt.subplots(1, 3, figsize=(16, 5))

### 代码开始 ### (≈ 9 行代码)
axes[0].plot(data['btc_market_price'], 'green')
axes[0].set_xlabel('time')
axes[0].set_ylabel('btc_market_price')

axes[1].plot(data['btc_total_bitcoins'], 'blue')
axes[1].set_xlabel('time')
axes[1].set_ylabel('btc_total_bitcoins')

axes[2].plot(data['btc_transaction_fees'], 'brown')
axes[2].set_xlabel('time')
axes[2].set_ylabel('btc_transaction_fees')
### 代码结束 ###

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：划分 `data` 数据集，使得训练集占 `70%`，而测试集占 `30%`。

In [None]:
def split_dataset():
    """
    参数:
    无

    返回:
    X_train, y_train, X_test, y_test -- 训练集特征、训练集目标、测试集特征、测试集目标
    """
    
    ### 代码开始 ### (≈ 6 行代码)
    train_data = data[:int(len(data)*0.7)]
    test_data = data[int(len(data)*0.7):]
    
    X_train = train_data[['btc_total_bitcoins', 'btc_transaction_fees']]
    y_train = train_data[['btc_market_price']]
    
    X_test = test_data[['btc_total_bitcoins', 'btc_transaction_fees']]
    y_test = test_data[['btc_market_price']]
    ### 代码结束 ###
    
    return X_train, y_train, X_test, y_test

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：构建 3 次多项式回归预测模型

In [None]:
def poly3():
    
    """
    参数:
    无

    返回:
    mae -- 预测结果的 MAE 评价指标
    """
    
    ### 代码开始 ### (≈ 7 行代码)
    poly_features = PolynomialFeatures(degree=3, include_bias=False)
    poly_X_train = poly_features.fit_transform(X_train)
    poly_X_test = poly_features.fit_transform(X_test)

    model = LinearRegression()
    model.fit(poly_X_train, y_train)
    pre_y = model.predict(poly_X_test)
    
    mae = mean_absolute_error(y_test, pre_y.flatten())
    ### 代码结束 ###
    
    return mae

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：计算 `1,2,...,10` 次多项式回归预测结果的 `MSE` 评价指标

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

def poly_plot(N):
 
    """
    参数:
    N -- 标量, 多项式次数

    返回:
    mse -- N 次多项式预测结果的 MSE 评价指标列表
    """
    
    m = 1
    mse = []
    
    ### 代码开始 ### (≈ 6 行代码)
    while m <= N:
        model = make_pipeline(PolynomialFeatures(m, include_bias=False), LinearRegression())
        model.fit(X_train, y_train)
        pre_y = model.predict(X_test)
        mse.append(mean_squared_error(y_test, pre_y.flatten()))
        m = m + 1
    
    ### 代码结束 ###
    
    return mse

<font color='red'><i class="fa fa-check-square" aria-hidden="true"> 挑战</i></font>：将 `MSE` 评价指标绘制成线型图

In [None]:
mse = poly_plot(10)

### 代码开始 ### (≈ 2 行代码)
plt.plot([i for i in range(1, 11)], mse, 'r')
plt.scatter([i for i in range(1, 11)], mse)
### 代码结束 ###

### 解法二 ###
plt.plot(mse, marker='-o')

plt.title("MSE")
plt.xlabel("N")
plt.ylabel("MSE")

---

<img src="https://doc.shiyanlou.com/document-uid214893labid7506timestamp1545810029884.png">