# 階層化された交差検証

マイオペで行われている交差検証（Shuffle & Split）を階層化した評価手法「Stratified Shuffle Split」を実行してみます。

交差検証に使用するtraining／testの両データをシャッフルして分割するのは一緒なのですが、Stratified Shuffle Splitの場合、シャッフリングがクラス毎に行われるため、交差検証の精度が多少上がるかと存じます。

http://scikit-learn.org/0.17/modules/generated/sklearn.cross_validation.StratifiedShuffleSplit.html#sklearn.cross_validation.StratifiedShuffleSplit

こちらを参考にしました。

http://scikit-learn.org/0.17/modules/cross_validation.html#cross-validation

~~~~
 3.1.2.11. See also
 
 StratifiedShuffleSplit is a variation of ShuffleSplit, which returns stratified splits, i.e which creates splits by preserving the same percentage for each target class as in the complete set.
~~~~

## (1) テストデータ／環境準備

In [1]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s\nsys.path=%s' % (prototype_dir, learning_dir, sys.path))

prototype_dir=/Users/makmorit/GitHub/donusagi-bot/learning/prototype
learning_dir=/Users/makmorit/GitHub/donusagi-bot/learning
sys.path=['', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python35.zip', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/plat-darwin', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/lib-dynload', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/IPython/extensions', '/Users/makmorit/.ipython', '/Users/makmorit/GitHub/donusagi-bot/learning']


## (2) クレンジング後のデータセットをロードし、学習実行

In [2]:
import numpy as np

X = np.load('training_set_from_csv_X.npy')
X

array([[ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       ..., 
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.]])

In [3]:
y = np.load('training_set_from_csv_y.npy')
y

array([3397, 3398, 3399, ..., 4665, 4667, 4671])

### ロジスティック回帰モデルを作成

グリッドサーチは時間がかかるので省略しています。

In [4]:
from sklearn.linear_model import LogisticRegression

estimator = LogisticRegression(C=200)
estimator.fit(X, y)

LogisticRegression(C=200, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [5]:
estimator

LogisticRegression(C=200, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

## (3) 学習結果を評価

現状との比較のため、既存のAccuracyによるクロスバリデーションを使用します。

In [6]:
'''
    マイオペで使用している Evaluator クラスから
    該当するコードを抜き出して実行しています。
'''
self_threshold = 0.5 # <---- しきい値を５０％としておきます。

def self_accuracy_score(estimator, X, y):
    y_pred = estimator.predict(X)
    probabilities = estimator.predict_proba(X)
    max_probabilities = np.max(probabilities, axis=1)

    # 予測結果と実際を比較
    bools = y == y_pred
    # しきい値を超えているもののみをTrueにする
    bools = bools == (max_probabilities > self_threshold)
    # 正当率を算出
    score = np.sum(bools) / np.size(bools, axis=0)
    return score

### (3-1) 階層化されていないバージョン（現状のマイオペで採用されている方法）でテスト

In [7]:
'''
    マイオペで使用している Evaluator クラスから
    該当するコードを抜き出して実行しています。
'''
from sklearn.cross_validation import ShuffleSplit
from sklearn.cross_validation import cross_val_score

cv_1 = ShuffleSplit(X.shape[0], n_iter=1, test_size=0.25, random_state=0)
cv_1



ShuffleSplit(17357, n_iter=1, test_size=0.25, random_state=0)

In [8]:
accuracy_1 = np.mean(cross_val_score(estimator, X, y, cv=cv_1, scoring=self_accuracy_score))
accuracy_1

0.98317972350230409

### (3-2) 階層化されたバージョンでテスト

In [9]:
'''
    マイオペで使用している Evaluator クラスから
    該当するコードを抜き出して実行しています。
'''
from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.cross_validation import cross_val_score

cv_2 = StratifiedShuffleSplit(y, n_iter=1, test_size=0.25, random_state=0)
cv_2

StratifiedShuffleSplit(labels=[3397 3398 3399 ..., 4665 4667 4671], n_iter=1, test_size=0.25, random_state=0)

In [10]:
accuracy_2 = np.mean(cross_val_score(estimator, X, y, cv=cv_2, scoring=self_accuracy_score))
accuracy_2

0.98640552995391706