# 回帰モデルで使用される指標

回帰モデルで使用される指標（＝評価ルール）を適用して、スコアを求めて見ます。

基本的には、データに対するモデルの「当てはまり具合」を示す指標とのことです。

こちらを参考にしました。

http://scikit-learn.org/0.17/modules/model_evaluation.html

## (1) テストデータ／環境準備

In [1]:
'''
    プロトタイピング用のパスと、Botライブラリーパスを取得／設定します
'''
import sys
import os

prototype_dir = os.path.join(os.getcwd(), '..')
prototype_dir = os.path.abspath(prototype_dir)

learning_dir = os.path.join(prototype_dir, '..')
learning_dir = os.path.abspath(learning_dir)
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

print('prototype_dir=%s\nlearning_dir=%s\nsys.path=%s' % (prototype_dir, learning_dir, sys.path))

prototype_dir=/Users/makmorit/GitHub/donusagi-bot/learning/prototype
learning_dir=/Users/makmorit/GitHub/donusagi-bot/learning
sys.path=['', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python35.zip', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/plat-darwin', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/lib-dynload', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages', '/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-packages/IPython/extensions', '/Users/makmorit/.ipython', '/Users/makmorit/GitHub/donusagi-bot/learning']


## (2) クレンジング後のデータセットをロードし、学習実行

In [2]:
import numpy as np

X = np.load('training_set_from_csv_X.npy')
X

array([[ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       ..., 
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.],
       [ 0.,  0.,  0., ...,  0.,  0.,  0.]])

In [3]:
y = np.load('training_set_from_csv_y.npy')
y

array([3397, 3398, 3399, ..., 4665, 4667, 4671])

### ロジスティック回帰モデルを作成

グリッドサーチは時間がかかるので省略しています。

In [4]:
from sklearn.linear_model import LogisticRegression

estimator = LogisticRegression(C=200)
estimator.fit(X, y)

LogisticRegression(C=200, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [5]:
estimator

LogisticRegression(C=200, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

## (3) 学習結果を評価

回帰モデルで使用される指標（＝評価ルール）を適用して、スコアを求めて見ます。

今回は比較的よく使用される「決定係数」（r2_score）を試して見ました。

### (3-1) r2_score（非階層化バージョン）

予測精度ではなく、データに対するモデルの当てはまりの良さを表すため、Accuracy よりは厳し目の評価といった印象をうけます。

詳細につきましては下記の Wikipedia 記述が参考になります。

https://ja.wikipedia.org/wiki/決定係数

In [6]:
from sklearn.cross_validation import ShuffleSplit
from sklearn.cross_validation import cross_val_score

cv_1 = ShuffleSplit(X.shape[0], n_iter=1, test_size=0.25, random_state=0)
cv_1



ShuffleSplit(17357, n_iter=1, test_size=0.25, random_state=0)

In [7]:
accuracy_1 = np.mean(cross_val_score(estimator, X, y, cv=cv_1, scoring='r2'))
accuracy_1

0.96884440061028076

### (3-2) r2_score（階層化バージョン）

評価がクラスごとに（厳密に）行われるので、非階層化バージョンよりは評価が高いです。

それでも、やはりAccuracyよりは評価が厳しいかと存じます。

In [8]:
from sklearn.cross_validation import StratifiedShuffleSplit
from sklearn.cross_validation import cross_val_score

cv_2 = StratifiedShuffleSplit(y, n_iter=1, test_size=0.25, random_state=0)
cv_2

StratifiedShuffleSplit(labels=[3397 3398 3399 ..., 4665 4667 4671], n_iter=1, test_size=0.25, random_state=0)

In [9]:
accuracy_2 = np.mean(cross_val_score(estimator, X, y, cv=cv_2, scoring='r2'))
accuracy_2

0.97593242857449247