# Estimator を自分で実装して GridSearch

https://qiita.com/_takoika/items/89a7e42dd0dc964d0e29

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn import datasets, model_selection

# from sklearn.multiclass import OneVsRestClassifier
from sklearn.svm import SVC
from sklearn.grid_search import GridSearchCV
from sklearn.metrics import accuracy_score

from sklearn.base import BaseEstimator, ClassifierMixin
from sklearn.cross_validation import cross_val_score

import seaborn as sns



### データを用意

In [18]:
iris = datasets.load_iris()
iris_data  = pd.DataFrame(iris.data, columns=iris.feature_names)
iris_data.columns = [c.replace(' (cm)', '').replace(' ', '_') for c in iris_data.columns]

iris_label = pd.Series(data=iris.target)
# 今回は2クラスに変更
X = iris_data[iris_label != 2]
y = iris_label[iris_label != 2]

# # validation set は GridSearchCV が自動で作成してくれるため，
# # training set と test set の分割のみを実行すればよい
# data_train, data_test, \
#     label_train, label_test = model_selection.train_test_split(iris_data, 
#                                                                iris_label, 
#                                                                test_size = 0.2,
#                                                                random_state = 0)

# # 分析用
# data_with_label = pd.concat([X, y], axis=1)
# data_with_label.rename(columns={0: 'label'}, inplace=True)

# sns.pairplot(data_with_label, hue='label')

#dwl_grouped = data_with_label.groupby('label')
#for name, dwl in dwl_grouped:
#    dwl.plot.

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]


### BaseEstimator を継承

http://scikit-learn.org/stable/modules/generated/sklearn.base.BaseEstimator.html#sklearn.base.BaseEstimator


- 自前のestimatorクラスはsklearn.base.BaseEstimatorを継承してつくる
- cross_validationするためにはfit,scoreメソッドが必要
- grid_searchするためには，さらにget_params,set_paramsメソッドが必要
- ClassifierMixinまたはRegressorMixinを定義すると自分で実装したpredictを使ってスコアを計算する，scoreメソッドが使える．


In [11]:
class MyEstimator(BaseEstimator, ClassifierMixin):
    def __init__(self, **err_ths):
        self.err_ths = err_ths

    # 今回はしきい値による分類なので学習の必要なし
    def fit(self, x, y):
        return self

    # 'or' の結果を返すように修正
    def predict(self, x):
        tmp = []
        if len(self.err_ths) == 0:
            return pd.Series([0] * len(x)) # 条件がないときはすべて正常としてみなす
        for key, th in self.err_ths.items():
            tmp.append(x[key] >= th)
        df_predict = pd.concat(tmp, axis=1).any(axis=1)
        return (df_predict * 1) # True/False を 1/0 に変更

    # predict の結果と正解とを比較してスコアを返す
    def score(self, x, y):
        return accuracy_score(self.predict(x), y)
    
    #  deep: If True, will return the parameters for this estimator and
    #        contained subobjects that are estimators. <- 今回は関係ない？
    def get_params(self, deep=True):
        return self.err_ths

    def set_params(self, **parameters):
        #print(parameters)
        for parameter, value in parameters.items():
            #setattr(self, parameter, value)
            self.err_ths[parameter] = value
                        
        return self
    
my_est = MyEstimator(**{'petal_length': 3.2})
my_est.set_params(**{'petal_length': 3.1})
my_est.get_params()

#my_est = MyEstimator()
#my_est.predict(X)
my_est.score(X, y)
#cross_val_score(my_est,X,y,cv=3)
#print(X, y)
# my_est.score(data_test, label_test)
# my_est.fit(data_train, label_test)


0.98999999999999999

### SVM でクロスバリデーション ＆ グリッドサーチ

In [14]:

# 探索するパラメータを設定
param_grid = {'sepal_length': np.arange(4.0, 8.0, 0.5).tolist(), 
              'sepal_width' : np.arange(0.0, 5.0, 0.5).tolist(),
              'petal_length': np.arange(2.0, 5.0, 0.5).tolist(),
              'petal_width' : np.arange(0.0, 3.0, 0.5).tolist()
             }

my_est = MyEstimator()
grid_search = GridSearchCV(my_est, param_grid, cv=2, n_jobs=1, scoring="accuracy")

# fit 関数を呼ぶことで交差検証とグリッドサーチがどちらも実行される
grid_search.fit(X, y)

print('Best parameters: {}'.format(grid_search.best_params_))
print('Best cross-validation: {}'.format(grid_search.best_score_))

# 通常の機械学習では、train でパラメータ学習、val でハイパーパラメータ探索、test で検証
# しかし今回は、train でしきい値探索、val で検証とする

# テストデータで検証
#print('Test set score: {}'.format(grid_search.score(data_test, label_test)))


Best parameters: {'petal_length': 2.0, 'petal_width': 1.0, 'sepal_length': 6.0, 'sepal_width': 4.5}
Best cross-validation: 1.0


In [19]:
# from mlxtend.plotting import plot_decision_regions

# plot_decision_regions(X.values, y.values, clf=my_est, legend=2)
