In [1]:
# 基本パッケージ（numpy,Pandas,matplotlib）
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 線形サポートベクターマシーン
from sklearn.svm import LinearSVC
# ランダムフォレスト
from sklearn.ensemble import RandomForestClassifier
# train_test_split（データを分割出してくれる）
from sklearn.model_selection import train_test_split
# accuracy_score（正解率を測れる）
from sklearn.metrics import accuracy_score
# グリッドサーチ（ハイパーパラメータを自動的に最適化してくれる）
from sklearn.model_selection import GridSearchCV
# 正規化
from sklearn.preprocessing import MinMaxScaler
# 特徴量選択用
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import mutual_info_classif
from sklearn.feature_selection import SelectFromModel
from sklearn.feature_selection import RFE

  from numpy.core.umath_tests import inner1d


In [2]:
# 表示関連
# DataFrameの列数設定
pd.set_option('display.max_columns', 100)

In [3]:
# 株価データの読み込み
stock_data = pd.read_csv("stock_Price_Prediction.csv", encoding="shift-jis")

# 読み込みデータの表示
stock_data.head()

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD,answer
0,-0.004444,0.0,0.004525,-0.514297,0.010801,0.000376,0.010485,0.009128,-0.001198,0.010974,0.010101,0.008957,0.01061,-0.001687,0.00102,0.001701,0.000368,0.007299,0.0,0.000586,0.0,0.003831,-0.000415,0.0,-0.003257,0.002004,0.000282,0.000276,-0.000675,0.0,1.0
1,-0.00625,0.024889,-0.003604,2.643314,0.0187,0.0,-0.002711,-0.001877,0.003238,-0.001622,-0.003846,-0.001268,-0.000656,0.00169,-0.000849,0.009338,0.0,-0.007246,0.0,0.0,0.003663,0.0,-0.000831,-0.008893,-0.006536,0.003609,0.0,0.0,-0.002027,0.0,1.0
2,0.026954,0.004337,0.028933,0.208818,0.000874,-0.000751,-0.00068,0.001624,0.000837,0.002,-0.001544,0.00127,0.006566,-0.004639,-0.004931,0.010934,-0.000735,0.0,-0.000622,-0.001171,-0.00365,-0.003817,0.001941,-0.000997,0.003289,-0.003367,-0.000844,-0.000827,-0.001354,0.0,0.0
3,0.0,-0.011226,-0.002636,-0.317789,-0.003493,-0.006011,-0.007273,-0.007085,-0.009078,-0.008855,-0.00464,-0.007609,-0.007175,-0.006779,-0.002734,-0.015807,-0.006025,0.0,-0.006219,-0.005862,-0.007326,-0.003831,-0.005674,0.000998,-0.003279,-0.006665,-0.005915,-0.005795,-0.006102,-0.005236,1.0
4,-0.004374,0.001747,-0.003524,-0.435145,-0.002629,-0.005669,-0.006324,-0.005416,-0.001929,-0.005914,-0.003885,-0.005112,-0.005913,-0.008105,-0.015936,0.007608,-0.005663,0.007299,-0.005632,-0.005307,-0.00369,-0.007692,-0.001253,-0.012961,-0.003289,-0.005992,-0.005667,-0.006106,-0.002729,-0.007895,0.0


In [4]:
# DataFrameをNumPy配列へ変換
# 正解ラベルの変換
answers = stock_data.answer.values

# 説明変数の変換
stock_data.drop(columns=['answer'], inplace=True)
explanatory_variable = stock_data.values

In [5]:
# データの正規化        
ms = MinMaxScaler()
ms.fit(explanatory_variable)
explanatory_variable = ms.transform(explanatory_variable)

In [6]:
# データの分割（データの80%を訓練用に、20％をテスト用に分割する）
X_train, X_test, y_train, y_test = train_test_split(explanatory_variable, answers, test_size=0.2, random_state=1,shuffle = False)

In [7]:
# グリッドサーチするパラメータを設定
parameters = {'C':[0.01,0.1,1,10,100],'loss':['hinge', 'squared_hinge']}
# グリッドサーチを実行
lsvc =  LinearSVC(random_state=1)
grid_search = GridSearchCV(lsvc, param_grid=parameters, cv=5)
grid_search = grid_search.fit(X_train , y_train)

# グリッドサーチ結果(最適パラメータ)を取得
GS_C, GS_loss = grid_search.best_params_.values()
print ("最適パラメータ：{}".format(grid_search.best_params_))

最適パラメータ：{'C': 0.01, 'loss': 'hinge'}


In [8]:
# 最適パラメーターを指定して学習
clf = LinearSVC(loss=GS_loss, C=GS_C, random_state=1)
clf.fit(X_train , y_train)

LinearSVC(C=0.01, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='hinge', max_iter=1000, multi_class='ovr',
     penalty='l2', random_state=1, tol=0.0001, verbose=0)

In [9]:
# 学習後のモデルによるテスト
# トレーニングデータを用いた予測
y_train_pred = clf.predict(X_train)
# テストデータを用いた予測
y_val_pred = clf.predict(X_test)

In [10]:
# 正解率の計算
train_score = accuracy_score(y_train, y_train_pred)
test_score = accuracy_score(y_test, y_val_pred)
# 正解率を表示
print("トレーニングデータに対する正解率：" + str(train_score * 100) + "%")
print("テストデータに対する正解率：" + str(test_score * 100) + "%")

トレーニングデータに対する正解率：51.667186039264564%
テストデータに対する正解率：51.18306351183064%


In [11]:
# モデルベース特徴量選択による特徴量選択
# estimatorとしてRandomForestClassifierを使用。重要度がmedian（中央値）以上のものを選択
selector_SFM = SelectFromModel(RandomForestClassifier(n_estimators=100, random_state=1), threshold="median")
selector_SFM.fit(X_train , y_train)

# 各特徴量を選択したか否かのmaskを取得し、列名とマージ
mask_SFM = selector_SFM.get_support()
stock_columns = stock_data.columns.values
result_SFM = pd.DataFrame(mask_SFM ,stock_columns,columns=['Result_SFM'])

# 結果の表示
result_SFM.T

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD
Result_SFM,True,False,False,True,True,False,True,True,True,True,True,False,True,True,True,True,False,False,False,False,False,False,True,True,False,False,False,False,True,False


In [12]:
# RFEによる特徴量選択
# estimatorとしてRandomForestClassifierを使用。上位15個の特徴量を抽出する
selector_RFE = RFE(RandomForestClassifier(n_estimators=100, random_state=1), n_features_to_select=15)
selector_RFE.fit(X_train , y_train)

# 各特徴量を選択したか否かのmaskを取得
mask_RFE = selector_RFE.get_support()
result_RFE = pd.DataFrame(mask_RFE,stock_columns,columns=['Result_RFE'])

# 結果の表示
result_RFE.T

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD
Result_RFE,True,True,False,True,True,False,True,False,True,True,True,False,False,True,True,True,False,False,False,False,False,False,True,True,False,True,False,False,True,False


In [13]:
# 単変量統計による特徴量選択
# 上位15個の特徴量を取得する。（評価関数 = f_classif）
selector_SKB_F = SelectKBest(k=15)
selector_SKB_F.fit(X_train , y_train)

# 各特徴量を選択したか否かのmaskを取得
mask_SKB_F = selector_SKB_F.get_support() 
result_SKB_F = pd.DataFrame(mask_SKB_F,stock_columns,columns=['Result_SKB_F'])

# 結果の表示
result_SKB_F.T

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD
Result_SKB_F,False,False,False,False,False,True,False,True,True,True,False,True,False,False,False,True,True,False,True,True,True,False,True,False,True,False,True,True,True,False


In [14]:
# 単変量統計による特徴量選択
# 上位15個の特徴量を取得する。（評価関数 = mutual_info_classif）
selector_SKB_M = SelectKBest(score_func = mutual_info_classif, k=15)
selector_SKB_M.fit(X_train , y_train)

# 各特徴量を選択したか否かのmaskを取得
mask_SKB_M = selector_SKB_M.get_support() 
result_SKB_M = pd.DataFrame(mask_SKB_M,stock_columns,columns=['Result_SKB_M'])

# 結果の表示
result_SKB_M.T

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD
Result_SKB_M,False,False,True,False,False,True,False,True,True,True,True,False,False,False,True,True,True,False,False,False,False,True,True,False,True,True,False,True,True,False


In [15]:
# マージして結果を比較
merge_Data = pd.concat([result_SFM, result_RFE, result_SKB_F,result_SKB_M], axis=1)
merge_Data.T

Unnamed: 0,Open,High,Low,Volume,Adj Close,USD,GBP,EUR,CAD,CHF,SEK,DKK,NOK,AUD,NZD,ZAR,BHD,IDR(100),CNY,HKD,INR,PHP,SGD,KRW(100),THB,KWD,SAR,AED,MXN,TWD
Result_SFM,True,False,False,True,True,False,True,True,True,True,True,False,True,True,True,True,False,False,False,False,False,False,True,True,False,False,False,False,True,False
Result_RFE,True,True,False,True,True,False,True,False,True,True,True,False,False,True,True,True,False,False,False,False,False,False,True,True,False,True,False,False,True,False
Result_SKB_F,False,False,False,False,False,True,False,True,True,True,False,True,False,False,False,True,True,False,True,True,True,False,True,False,True,False,True,True,True,False
Result_SKB_M,False,False,True,False,False,True,False,True,True,True,True,False,False,False,True,True,True,False,False,False,False,True,True,False,True,True,False,True,True,False


In [16]:
# 選択された特徴量による学習：モデルベース特徴量選択
# 選択された特徴量のみにデータを変換
X_train_SFM = selector_SFM.transform(X_train)
X_test_SFM = selector_SFM.transform(X_test)

# 学習
clf.fit(X_train_SFM, y_train)

# 正解率の算出
y_train_pred_SFM = clf.predict(X_train_SFM)
y_val_pred_SFM = clf.predict(X_test_SFM)
train_score = accuracy_score(y_train, y_train_pred_SFM)
test_score = accuracy_score(y_test, y_val_pred_SFM)

print("モデルベース特徴量選択：トレーニングデータに対する正解率：" + str(train_score * 100) + "%")
print("モデルベース特徴量選択：テストデータに対する正解率：" + str(test_score * 100) + "%") 

モデルベース特徴量選択：トレーニングデータに対する正解率：51.667186039264564%
モデルベース特徴量選択：テストデータに対する正解率：51.18306351183064%


In [17]:
# 選択された特徴量による学習：RFEによる特徴量選択
# 選択された特徴量のみにデータを変換
X_train_RFE = selector_RFE.transform(X_train)
X_test_RFE = selector_RFE.transform(X_test)

# 学習
clf.fit(X_train_RFE, y_train)

# 正解率の算出
y_train_pred_RFE = clf.predict(X_train_RFE)
y_val_pred_RFE = clf.predict(X_test_RFE)
train_score = accuracy_score(y_train, y_train_pred_RFE)
test_score = accuracy_score(y_test, y_val_pred_RFE)

print("RFEによる特徴量選択：トレーニングデータに対する正解率：" + str(train_score * 100) + "%")
print("RFEによる特徴量選択：テストデータに対する正解率：" + str(test_score * 100) + "%")

RFEによる特徴量選択：トレーニングデータに対する正解率：51.667186039264564%
RFEによる特徴量選択：テストデータに対する正解率：51.18306351183064%


In [18]:
# 選択された特徴量による学習：単変量統計による特徴量選択（評価関数 = f_classif）
# 選択された特徴量のみにデータを変換
X_train_SKB_F = selector_SKB_F.transform(X_train)
X_test_SKB_F = selector_SKB_F.transform(X_test)

# 学習
clf.fit(X_train_SKB_F, y_train)

# 正解率の算出
y_train_pred_SKB_F = clf.predict(X_train_SKB_F)
y_val_pred_SKB_F = clf.predict(X_test_SKB_F)
train_score = accuracy_score(y_train, y_train_pred_SKB_F)
test_score = accuracy_score(y_test, y_val_pred_SKB_F)

print("単変量統計による特徴量選択(評価関数 = f_classif)：トレーニングデータに対する正解率：" + str(train_score * 100) + "%")
print("単変量統計による特徴量選択(評価関数 = f_classif)：テストデータに対する正解率：" + str(test_score * 100) + "%")

単変量統計による特徴量選択(評価関数 = f_classif)：トレーニングデータに対する正解率：51.667186039264564%
単変量統計による特徴量選択(評価関数 = f_classif)：テストデータに対する正解率：51.18306351183064%


In [19]:
# 選択された特徴量による学習：単変量統計による特徴量選択（評価関数 = mutual_info_classif）
# 選択された特徴量のみにデータを変換
X_train_SKB_M = selector_SKB_M.transform(X_train)
X_test_SKB_M = selector_SKB_M.transform(X_test)

# 学習
clf.fit(X_train_SKB_M, y_train)

# 正解率の算出
y_train_pred_SKB_M = clf.predict(X_train_SKB_M)
y_val_pred_SKB_M = clf.predict(X_test_SKB_M)
train_score = accuracy_score(y_train, y_train_pred_SKB_M)
test_score = accuracy_score(y_test, y_val_pred_SKB_M)

print("単変量統計による特徴量選択(評価関数 = mutual_info_classif)：トレーニングデータに対する正解率：" + str(train_score * 100) + "%")
print("単変量統計による特徴量選択(評価関数 = mutual_info_classif)：テストデータに対する正解率：" + str(test_score * 100) + "%")

単変量統計による特徴量選択(評価関数 = mutual_info_classif)：トレーニングデータに対する正解率：51.667186039264564%
単変量統計による特徴量選択(評価関数 = mutual_info_classif)：テストデータに対する正解率：51.18306351183064%
