### 股票预测项目
本项目的目的是通过股票的历史行情价格来预测未来某只股票的涨跌。 问题本身其实就是二分类问题。数据是通过```tushare```库来获取到的，在压缩包里已经给出了一只股票的数据。本作业的目的是：
1. 根据已经给定的数据，构造出样本数据。在样本数据的构造过程我们需要使用特征工程，这个特征工程其实就是技术指标的提取。 
2. 提取完技术指标之后，做一些简单的数据处理
3. 构造训练数据和测试数据
4. 利用随机森立学习二分类器

本项目的重点是技术指标的提取，但为了方便大家，这些指标已经写好，建议可以去看一下每一个技术指标是如何定义的。

预估项目完成时间： 2小时

In [1]:
# 导入相应的函数库
import pandas as pd
import datetime
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score
import matplotlib.pyplot as plt

# 技术指标的提取函数
from technical_indicators import *

In [2]:
# 导入股票数据，下面的股票数据是通过tushare库来获得的
stock = pd.read_csv("600519.csv")
stock.head()

Unnamed: 0,date,open,high,close,low,volume,price_change,p_change,ma5,ma10,ma20,v_ma5,v_ma10,v_ma20
0,2019-09-12,1066.0,1109.98,1099.0,1066.0,41211.33,29.48,2.76,1114.276,1126.115,1108.345,40942.17,37385.21,37563.02
1,2019-09-11,1119.22,1119.97,1069.52,1068.0,81716.54,-54.33,-4.83,1123.276,1127.525,1105.64,39286.08,36197.12,36864.33
2,2019-09-10,1134.3,1135.0,1123.85,1120.01,26227.07,-12.67,-1.11,1134.374,1130.584,1104.33,29662.81,32726.43,34849.05
3,2019-09-09,1145.0,1148.0,1136.52,1135.0,29379.34,-5.97,-0.52,1137.604,1129.099,1099.035,30314.42,35320.15,35054.18
4,2019-09-06,1144.5,1146.15,1142.49,1131.0,26176.59,-1.51,-0.13,1138.052,1125.742,1093.141,30085.41,37232.0,37660.16


### 1. 对于股票数据提取技术指标
直接调用给定的技术指标库来获得这些数据， 但建议大家可以简单看一下这些指标是如何被计算出来的。 虽然没必要一定要掌握，但大致的计算逻辑可以学习一下的。 如果对某一种指标感兴趣，想深入理解建议在百度上搜索 ： “技术指标” + “指标名字”来获得相关的参考资料，比如搜索 “技术指标” + 'rate of change"， 有大量的资料可以参考的。

> ```TODO1```: 提取技术指标

In [3]:
# TODO: 提取各类技术指标， 你可以把所有的技术指标全部调用一遍，也可以选择几个来尝试。 或者感兴趣的话，可以把其他的技术指标也加进来。 
#       每个技术指标的参数是不一样的，但基本也就1-2个参数，最常用的参数是天数（函数里用n来表示）， 有些技术指标需要传入两个参数（比如MACD，
#       一个是针对于fast_line, 一个是针对于slow_line, 需要分别定义天数）。 由于每个指标都有参数，所以针对于同一类指标其实可以提取很多不同的特征的！

# 例子： stock = average_directional_movement_index(stock, 12, 26) #  提取技术指标并存放在新的dataframe中
#      stock = moving_average(stock, 5)
#      stock = moving_average(stock, 15)

stock = moving_average(stock, 5)
stock = exponential_moving_average(stock, 5)
#stock = momentum(stock,5)
stock = rate_of_change(stock,5)
stock = average_true_range(stock,5)
stock = bollinger_bands(stock,5)
stock = stochastic_oscillator_k(stock)
stock = stochastic_oscillator_d(stock,5)
#stock = macd(stock,5) # macd(df, n_fast, n_slow):
#stock = ease_of_movement(stock,5)
stock = standard_deviation(stock,5)


In [4]:
stock.iloc[:,:12].head() # 分段显示1

Unnamed: 0,date,open,high,close,low,volume,price_change,p_change,ma5,ma10,ma20,v_ma5
0,2019-09-12,1066.0,1109.98,1099.0,1066.0,41211.33,29.48,2.76,1114.276,1126.115,1108.345,40942.17
1,2019-09-11,1119.22,1119.97,1069.52,1068.0,81716.54,-54.33,-4.83,1123.276,1127.525,1105.64,39286.08
2,2019-09-10,1134.3,1135.0,1123.85,1120.01,26227.07,-12.67,-1.11,1134.374,1130.584,1104.33,29662.81
3,2019-09-09,1145.0,1148.0,1136.52,1135.0,29379.34,-5.97,-0.52,1137.604,1129.099,1099.035,30314.42
4,2019-09-06,1144.5,1146.15,1142.49,1131.0,26176.59,-1.51,-0.13,1138.052,1125.742,1093.141,30085.41


In [5]:
stock.iloc[:,12:].head()#f分段显示2

Unnamed: 0,v_ma10,v_ma20,MA_5,EMA_5,ROC_5,ATR_5,BollingerB_5,Bollinger%b_5,SO%k,SO%d_5,STD_5
0,37385.21,37563.02,,,,,,,0.750341,,
1,36197.12,36864.33,,,,,,,0.029248,,
2,32726.43,34849.05,,,,,,,0.256171,,
3,35320.15,35054.18,,,,,,,0.116923,,
4,37232.0,37660.16,1114.276,1126.184123,0.039572,29.079668,0.107976,0.734501,0.758416,0.425,30.078824


### 2. 数据处理，以及训练样本和测试样本的提取
通过上面的环节我们已经提取好了所需要的技术指标。 接下来的环节是通过这批数据来构造训练数据和测试数据了。 具体构造用于监督学习的数据的方法在本章的视频课程里已经提过，可以按照此方法来做。 
注：数据中存在着NAN， 稍微思考一下为什么会出现这些NAN？ 为了去理解这些NAN的源头，需要看一下pandas里的rolling().mean()是如何工作的。 在我们项目中，我们是通过历史一段时间的数据来预测未来的涨跌的，所以一定不能使用未来数据来预测未来，只能用历史数据来预测未来。 

> ```TODO2```： 做必要的数据预处理，并构建好样本数据。这里我们要预测的标签是第二天的涨跌。如果第二天的```close```价格 >  第一天的```close```价格，我们可以认为这个样本为正样本（1）， 如果价格小于第一天的```close```价格，就认为这个样本为负样本（0）。 构建完训练样本之后，在把样本通过```train_test_split```来划分为训练集和测试集。

> rolling()函数，类似滑窗的效果
> DataFrame.rolling(window,   
>                  min_periods=None,   
                  freq=None,   
                  center=False,   
                  win_type=None,   
                  on=None,   
                  axis=0)  
                  
             

In [10]:
# TODO 2   完成样本数据的构造，并随机分成训练和测试数据
stock = stock.dropna() # labels=['date'],axis=1  # 丢弃NaN 

X = stock.drop(labels=['date'],axis=1)
y = pd.Series(stock['close'].diff())
def onehot(s):
    if s>0:
        s=1
    else:
        s=0
    return s
y = y.apply(lambda s:onehot(s))

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=123)
print (X_train.shape, y_train.shape, X_test.shape, y_test.shape)

(487, 22) (487,) (122, 22) (122,)


因为股票数据是一个典型的时间序列数据（考虑LSTM），所以尽量不要用随机切分。因为随机切分很可能导致你的训练集里面含有未来函数，即X里存在Y，进而导致准确率极其的高。使用train_test_split()随机划分可能欠缺考虑。

### 3. 利用随机森林训练模型
模型训练部分跟之前没有太大区别，试着通过交叉验证来训练一下，然后看看结果如何。 
> ```TODO3```：训练模型 

Reference：  
[scikit-learn随机森林调参小结](https://www.cnblogs.com/pinard/p/6160412.html) 

In [16]:
# TODO: 训练随机森林模型，请尝试不同的参数，最后在测试集上输出最好的参数
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# 随机森林
rf = RandomForestClassifier(criterion='entropy',\
                           max_features='auto',
                           max_depth=None,  #定义树的深度,可以用来防止过拟合
                           min_samples_split=50,#定义至少多少个样本的情况下才继续分叉
                            #min_weight_fraction_leaf=0.02#定义叶子节点最少需要包含多少个样本(百分比)，防止过拟合
                           )
# n_estimators=100,\
# auto = sqrt

parameters = {'n_estimators':range(100,1001,100)}

# 通过GridSearchCV来搜索最好的参数 

grid = GridSearchCV(rf,parameters, scoring='roc_auc',cv=5,verbose=2) # scoring='f1'
grid.fit(X_train,y_train)
# 输出最好的参数以及对应的准确率
#print(grid.cv_results_) # 指在某一次网格搜索的时候，使用交叉验证得到的各个折的验证分数的均值和标准差。
print("Best score is:%.2f"%grid.best_score_, "Best n_estimators:",grid.best_params_)# 几次结果300,900,800
best_n = grid.best_params_['n_estimators']
# Best score is:0.88 Best n_estimators: {'n_estimators': 600}

Fitting 5 folds for each of 10 candidates, totalling 50 fits
[CV] n_estimators=100 ................................................
[CV] ................................. n_estimators=100, total=   0.2s
[CV] n_estimators=100 ................................................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.2s remaining:    0.0s


[CV] ................................. n_estimators=100, total=   0.1s
[CV] n_estimators=100 ................................................
[CV] ................................. n_estimators=100, total=   0.1s
[CV] n_estimators=100 ................................................
[CV] ................................. n_estimators=100, total=   0.1s
[CV] n_estimators=100 ................................................
[CV] ................................. n_estimators=100, total=   0.2s
[CV] n_estimators=200 ................................................
[CV] ................................. n_estimators=200, total=   0.3s
[CV] n_estimators=200 ................................................
[CV] ................................. n_estimators=200, total=   0.2s
[CV] n_estimators=200 ................................................
[CV] ................................. n_estimators=200, total=   0.3s
[CV] n_estimators=200 ................................................
[CV] .

[Parallel(n_jobs=1)]: Done  50 out of  50 | elapsed:   36.7s finished


Best score is:0.88 Best n_estimators: {'n_estimators': 600}


In [23]:
param_test2 = {'max_depth':range(3,14,2), 'min_samples_split':range(50,201,20)}
grid2 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= best_n, 
                                  min_samples_leaf=20,max_features='sqrt' ,oob_score=True, random_state=10),
   param_grid = param_test2, scoring='roc_auc',iid=False, cv=5,verbose=2)

grid2.fit(X_train,y_train)

print("Best score is:%.2f"%grid2.best_score_, "Best parameters:",grid2.best_params_)
# Best score is:0.86 Best parameters: {'max_depth': 7, 'min_samples_split': 50}

Fitting 5 folds for each of 48 candidates, totalling 240 fits
[CV] max_depth=3, min_samples_split=50 ...............................


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


[CV] ................ max_depth=3, min_samples_split=50, total=   0.5s
[CV] max_depth=3, min_samples_split=50 ...............................


[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.5s remaining:    0.0s


[CV] ................ max_depth=3, min_samples_split=50, total=   0.5s
[CV] max_depth=3, min_samples_split=50 ...............................
[CV] ................ max_depth=3, min_samples_split=50, total=   0.4s
[CV] max_depth=3, min_samples_split=50 ...............................
[CV] ................ max_depth=3, min_samples_split=50, total=   0.5s
[CV] max_depth=3, min_samples_split=50 ...............................
[CV] ................ max_depth=3, min_samples_split=50, total=   0.7s
[CV] max_depth=3, min_samples_split=70 ...............................
[CV] ................ max_depth=3, min_samples_split=70, total=   0.5s
[CV] max_depth=3, min_samples_split=70 ...............................
[CV] ................ max_depth=3, min_samples_split=70, total=   0.7s
[CV] max_depth=3, min_samples_split=70 ...............................
[CV] ................ max_depth=3, min_samples_split=70, total=   0.5s
[CV] max_depth=3, min_samples_split=70 ...............................
[CV] .

[CV] ............... max_depth=5, min_samples_split=110, total=   0.5s
[CV] max_depth=5, min_samples_split=130 ..............................
[CV] ............... max_depth=5, min_samples_split=130, total=   0.6s
[CV] max_depth=5, min_samples_split=130 ..............................
[CV] ............... max_depth=5, min_samples_split=130, total=   0.4s
[CV] max_depth=5, min_samples_split=130 ..............................
[CV] ............... max_depth=5, min_samples_split=130, total=   0.5s
[CV] max_depth=5, min_samples_split=130 ..............................
[CV] ............... max_depth=5, min_samples_split=130, total=   0.5s
[CV] max_depth=5, min_samples_split=130 ..............................
[CV] ............... max_depth=5, min_samples_split=130, total=   0.4s
[CV] max_depth=5, min_samples_split=150 ..............................
[CV] ............... max_depth=5, min_samples_split=150, total=   0.5s
[CV] max_depth=5, min_samples_split=150 ..............................
[CV] .

[CV] ............... max_depth=7, min_samples_split=190, total=   0.4s
[CV] max_depth=7, min_samples_split=190 ..............................
[CV] ............... max_depth=7, min_samples_split=190, total=   0.4s
[CV] max_depth=7, min_samples_split=190 ..............................
[CV] ............... max_depth=7, min_samples_split=190, total=   0.5s
[CV] max_depth=9, min_samples_split=50 ...............................
[CV] ................ max_depth=9, min_samples_split=50, total=   0.4s
[CV] max_depth=9, min_samples_split=50 ...............................
[CV] ................ max_depth=9, min_samples_split=50, total=   0.6s
[CV] max_depth=9, min_samples_split=50 ...............................
[CV] ................ max_depth=9, min_samples_split=50, total=   0.5s
[CV] max_depth=9, min_samples_split=50 ...............................
[CV] ................ max_depth=9, min_samples_split=50, total=   0.6s
[CV] max_depth=9, min_samples_split=50 ...............................
[CV] .

[CV] .............. max_depth=11, min_samples_split=110, total=   0.5s
[CV] max_depth=11, min_samples_split=110 .............................
[CV] .............. max_depth=11, min_samples_split=110, total=   0.4s
[CV] max_depth=11, min_samples_split=110 .............................
[CV] .............. max_depth=11, min_samples_split=110, total=   0.5s
[CV] max_depth=11, min_samples_split=110 .............................
[CV] .............. max_depth=11, min_samples_split=110, total=   0.4s
[CV] max_depth=11, min_samples_split=110 .............................
[CV] .............. max_depth=11, min_samples_split=110, total=   0.5s
[CV] max_depth=11, min_samples_split=130 .............................
[CV] .............. max_depth=11, min_samples_split=130, total=   0.4s
[CV] max_depth=11, min_samples_split=130 .............................
[CV] .............. max_depth=11, min_samples_split=130, total=   0.5s
[CV] max_depth=11, min_samples_split=130 .............................
[CV] .

[CV] .............. max_depth=13, min_samples_split=170, total=   0.4s
[CV] max_depth=13, min_samples_split=170 .............................
[CV] .............. max_depth=13, min_samples_split=170, total=   0.4s
[CV] max_depth=13, min_samples_split=190 .............................
[CV] .............. max_depth=13, min_samples_split=190, total=   0.4s
[CV] max_depth=13, min_samples_split=190 .............................
[CV] .............. max_depth=13, min_samples_split=190, total=   0.4s
[CV] max_depth=13, min_samples_split=190 .............................
[CV] .............. max_depth=13, min_samples_split=190, total=   0.5s
[CV] max_depth=13, min_samples_split=190 .............................
[CV] .............. max_depth=13, min_samples_split=190, total=   0.4s
[CV] max_depth=13, min_samples_split=190 .............................
[CV] .............. max_depth=13, min_samples_split=190, total=   0.5s


[Parallel(n_jobs=1)]: Done 240 out of 240 | elapsed:  1.9min finished


Best score is:0.86 Best parameters: {'max_depth': 7, 'min_samples_split': 50}


In [24]:
best_max_depth = grid2.best_params_['max_depth']
best_min_samples_split = grid2.best_params_['min_samples_split']

对于内部节点再划分所需最小样本数min_samples_split，我们暂时不能一起定下来，因为这个还和决策树其他的参数存在关联。下面我们再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参。

---
上面param_test2中得到的最佳min_samples_split并不能被使用，那为什么在param_test2中还需要调这个参数？
1. 这里有多个参数待定，很难找到全局最优的参数组合。所以使用了启发式的方法，先固定一部分，优化另一部分。然后再反过来，固定之前优化的另一部分，优化之前固定的部分。
这是一个特征工程的经验之谈，没有特别严谨的理论基础。你完全可以使用其他的方法，或者说你觉得这样不好，那么在param_test2不固定min_samples_split。

2. 这个是做聚类的工程的经验之谈，你试一试A个特征聚类，然后基于A个特征，线性组合多出B组特征，A+B组特征一起聚类，比较和A组特征聚类的效果即可。

In [25]:
# 下面我们再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参。

param_test3 = {'min_samples_split':range(80,150,20), 'min_samples_leaf':range(10,60,10)}
grid3 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= best_n, max_depth=best_max_depth,
                                  max_features='sqrt' ,oob_score=True, random_state=10),
   param_grid = param_test3, scoring='roc_auc',iid=False, cv=5)

grid3.fit(X_train,y_train)

print("Best score is:%.2f"%grid3.best_score_, "Best parameters:",grid3.best_params_)
best_min_samples_split = grid3.best_params_['min_samples_split']
best_min_samples_leaf = grid3.best_params_['min_samples_leaf']
# Best score is:0.85 Best parameters: {'min_samples_leaf': 10, 'min_samples_split': 80}

Best score is:0.85 Best parameters: {'min_samples_leaf': 10, 'min_samples_split': 80}


In [35]:
# 最后我们再对最大特征数max_features做调参:
# features =22
param_test4 = {'max_features':range(9,23,2)}
grid4 = GridSearchCV(estimator = RandomForestClassifier(n_estimators= best_n, max_depth= best_max_depth, min_samples_split=best_min_samples_split,
                                  min_samples_leaf=best_min_samples_leaf ,oob_score=True, random_state=10),
   param_grid = param_test4, scoring='roc_auc',iid=False, cv=5)

grid4.fit(X_train,y_train)

print("Best score is:%.2f"%grid4.best_score_, "Best parameters:",grid4.best_params_)
best_max_features = grid4.best_params_['max_features']
# Best score is:0.89 Best parameters: {'max_features': 17}

Best score is:0.91 Best parameters: {'max_features': 17}


In [37]:
rf2 = RandomForestClassifier(n_estimators= best_n, max_depth=best_max_depth, min_samples_split=best_min_samples_split,
                                  min_samples_leaf=best_min_samples_leaf,max_features=best_max_features ,oob_score=True, random_state=10)

rf2.fit(X_train,y_train)
print(rf2.oob_score_)

0.8275154004106776


In [38]:
from sklearn.metrics import f1_score

# TODO: 在测试数据上预测，并打印在测试集上的结果
predictions = rf2.predict(X_test)
print('f1_score:',f1_score(y_test,predictions,average='binary'))
print('f1_score:',f1_score(y_test,predictions,average='weighted'))
print(classification_report(y_test, predictions))

f1_score: 0.7142857142857142
f1_score: 0.739833936555248
              precision    recall  f1-score   support

           0       0.83      0.69      0.76        72
           1       0.65      0.80      0.71        50

    accuracy                           0.74       122
   macro avg       0.74      0.75      0.74       122
weighted avg       0.76      0.74      0.74       122



> ```TODO4```: 问答题：得出来的结果怎么样？ 是否满足预期？ 你觉得有什么方式可以提升模型的准确率？ 

问答题回复：结果一般，没有达到预期。
1. 在这个项目中实际的样本数据其实是偏少的，可以增加样本数量。
2. 因为股票数据是一个典型的时间序列数据（考虑LSTM），所以尽量不要用随机切分。因为随机切分很可能导致训练集里面含有未来函数，即X里存在Y，进而导致准确率极其的高。使用train_test_split()随机划分可能欠缺考虑。

拓展阅读： 从本项目中可以看到这里的核心其实就是一个一个指标，而且每一个指标都是通过大量的经验来构造出来的。 但有些复杂度的指标确实也比较难想出来。问题：有没有可能让计算机学出有用的指标呢？ 比如计算机可以学出这样的指标 = (close- open) * volum - close * close - open   虽然这个指标有点看不懂，但有可能是有效的，有没有可能让AI做这件事情？？？ 如果对这些感兴趣，可以参考一下下方链接：   
[AI之遗传算法在量化投资的应用](https://www.baidu.com/link?url=WmpaRS35js8T8gAUzaF6_rvdepe0OqpgmeU0fTxhXzMZnKCUXIECQeUFB6VTpFjg&wd=&eqid=b04a03b600117ba2000000035d88bea9)