# 楼 + 机器学习实战

# 挑战：比特币价格预测挑战

---

** 以下内容仅保留挑战代码部分，挑战全文请到原课程查看。**

---

**挑战：使用 Pandas 加载数据集 CSV 文件，并预览前 `5` 行数据。**

In [None]:
import pandas as pd

### 代码开始 ### (≈ 2 行代码)
df = pd.read_csv('challenge-2-bitcoin.csv', header=0)
df.head()
### 代码结束 ###

---

**挑战：分离出仅包含 `btc_market_price`，`btc_total_bitcoins`，`btc_transaction_fees` 列的 DataFrame，并定义为变量 `data`。**

In [None]:
"""从原数据集中分离出需要的数据集（DataFrame）
"""

### 代码开始 ### (≈ 1 行代码)
data = df[['btc_market_price','btc_total_bitcoins', 'btc_transaction_fees']]
### 代码结束 ###

---

**挑战：分别绘制 `data` 数据集 3 列数据的线形图，并以横向子图排列。**

In [None]:
"""绘制数据图像
"""

%matplotlib inline
from matplotlib import pyplot as plt

fig, axes = plt.subplots(1, 3, figsize=(16,5))


### 代码开始 ### (≈ 9 行代码)
fig, axes = plt.subplots(1, 3, figsize=(16,5))

axes[0].plot(data['btc_market_price'], 'green')
axes[0].set_xlabel('time')
axes[0].set_ylabel('btc_market_price')

axes[1].plot(data['btc_total_bitcoins'], 'blue')
axes[1].set_xlabel('time')
axes[1].set_ylabel('btc_total_bitcoins')

axes[2].plot(data['btc_transaction_fees'], 'brown')
axes[2].set_xlabel('time')
axes[2].set_ylabel('btc_transaction_fees')
### 代码结束 ###

---

**挑战：划分 `data` 数据集，使得训练集占 `70%`，而测试集占 `30%`。**

In [None]:
"""划分数据集函数
"""

def split_dataset():
    """
    参数:
    无

    返回:
    train_x, train_y, test_x, test_y -- 训练集特征、训练集目标、测试集特征、测试集目标
    """
    
    ### 代码开始 ### (≈ 6 行代码)
    train_data = data[:int(len(data)*0.7)]
    test_data = data[int(len(data)*0.7):]
    
    train_x = train_data[['btc_total_bitcoins', 'btc_transaction_fees']]
    train_y = train_data[['btc_market_price']]
    
    test_x = test_data[['btc_total_bitcoins', 'btc_transaction_fees']]
    test_y = test_data[['btc_market_price']]
    ### 代码结束 ###
    
    return train_x, train_y, test_x, test_y

---

**挑战：构建 3 次多项式回归预测模型。**

In [None]:
"""3 次多项式回归预测模型
"""

def poly3():
    
    """
    参数:
    无

    返回:
    mae -- 预测结果的 MAE 评价指标
    """
    
    ### 代码开始 ### (≈ 7 行代码)
    poly_features = PolynomialFeatures(degree=3, include_bias=False)
    poly_train_x = poly_features.fit_transform(train_x)
    poly_test_x = poly_features.fit_transform(test_x)

    model = LinearRegression()
    model.fit(poly_train_x, train_y)
    pre_y = model.predict(poly_test_x)
    
    mae = mean_absolute_error(test_y, pre_y.flatten())
    ### 代码结束 ###
    
    return mae

---

**挑战：计算 `1,2,...,10` 次多项式回归预测结果的 `MSE` 评价指标。**

In [None]:
"""N 次多项式回归预测模型
"""

from sklearn.pipeline import make_pipeline
from sklearn.metrics import mean_squared_error

def poly_plot(N):
 
    """
    参数:
    N -- 标量, 多项式次数

    返回:
    mse -- N 次多项式预测结果的 MSE 评价指标列表
    """
    
    m = 1
    mse = []
    
    ### 代码开始 ### (≈ 6 行代码)
    while m <= N:
        model = make_pipeline(PolynomialFeatures(m, include_bias=False), LinearRegression())
        model.fit(train_x, train_y)
        pre_y = model.predict(test_x)
        mse.append(mean_squared_error(test_y, pre_y.flatten()))
        m = m + 1
    
    ### 代码结束 ###
    
    return mse

---

**挑战：将 `MSE` 评价指标绘制成线型图。**

In [None]:
mse = poly_plot(10)

### 代码开始 ### (≈ 2 行代码)
plt.plot([i for i in range(1, 11)], mse, 'r')
plt.scatter([i for i in range(1, 11)], mse)
### 代码结束 ###

### 解法二 ###
plt.plot(mse, marker='-o')


plt.title("MSE")
plt.xlabel("N")
plt.ylabel("MSE")

---

<div style="color: #999;font-size: 12px;font-style: italic;">*本课程内容，由作者授权实验楼发布，未经允许，禁止转载、下载及非法传播。</div>