In [None]:
# plt.show()で可視化されない人はこのセルを実行してください。
%matplotlib inline

# 総合添削問題

教師あり学習（分類）の総合添削問題はこれまでの手法の特性とハイパーパラメーターのチューニングの重要性、そしてハイパーパラメーターのサーチ方法を理解しているかを問う問題となっています。  
使用するデータセットは手書きの数字の画像であり、判別しにくい数字もあることからパラメーターサーチや手法選択がより重要になります。

#### 問題

- 手書きの数字の認識・分類をするための学習器をより高い精度で作成したいと思います。
- 与えられるデータに対して手法を選び、ハイパーパラメーターを調整して学習能力の高い学習器を作ってください。
- また、一番評価の高い手法の名前と、調整したパラメーターとその値を出力してください。
----
- 評価基準は問題文の条件を満たしている状態で、以下の事項を考慮して総合的に評価いたします。
    - 評価値の高さ
    - パラメーターの調整方法
    - プログラムの実行時間
- また、プログラムの実行時間は3分以内とします。

In [None]:
%%time
# 必要なモジュールがあれば追記してください
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
import scipy.stats
from sklearn.metrics import f1_score

data = load_digits()
train_X, test_X, train_y, test_y = train_test_split(
    data.data, data.target, random_state=42)

# 以下にコードを記述してください
#m{"SVM", "決定木", "ランダムフォレスト","k-NN"}
models = [SVC(), DecisionTreeClassifier(), RandomForestClassifier(),KNeighborsClassifier()]
params = [{"C": [0.01, 0.1, 1.0, 10, 100],
        "kernel": ["linear", "poly", "rbf", "sigmoid"],
        "decision_function_shape": ["ovr", "ovo"],
        "random_state": scipy.stats.randint(0, 100)},
        {"max_depth": [i for i in range(1, 20)],
        "random_state": [i for i in range(100)]},
        {"n_estimators": [i for i in range(1, 10)],
        "max_depth": [i for i in range(1, 20)],
        "random_state": [i for i in range(100)]},
        {"n_neighbors": [i for i in range(1, 20)]}
       ]

max_score = 0
best_param = None

#ランダムサーチでパラメーターサーチ
for model, param in zip(models, params):
    clf = RandomizedSearchCV(model, param)
    clf.fit(train_X, train_y)
    pred_y = clf.predict(test_X)
    score = f1_score(test_y, pred_y, average="micro")
    if max_score < score:
        max_score = score
        best_param = clf.best_params_
        best_model = model.__class__.__name__

print("学習モデル:{},\nパラメーター:{}".format(best_model, best_param))
# 最も成績のいいスコアを出力してください。
print("最も良いスコアは{}".format(max_score))

#### ヒント

- プログラムの実行時間を計測するにはプログラムの先頭に`%%time`と記述してください。
    - jupyter notebook上でのみ実行できるおまじないです。Pythonのプログラムでは実行できないので注意してください。
- モデルの手法の名前をプログラムで取得するには`model_name = model.__class__.__name__`とします。
- グリッドサーチ、ランダムサーチの結果得られるパラメーターセットを取得するには`best_params = clf.best_params_`とします。
- 最高評価を得たモデルが複数ある場合、そのうちの一つだけ出力すれば良いです。
- 採点時、モデルの評価にはF値という値を用います。
    - F値はprecision(精度)とrecall(再現率)という二つの評価値の調和平均です。  
    $$
    \begin{align}
    & \frac{2 ( precision \times recall )}{precision + recall}
    \end{align}
    $$
    - プログラムを作る際には`model.score(test_X, test_y)`で構いませんが、  
    自身で評価を確認したい場合はモデルに教師データを学習させたのち以下のようにします。
    ```python
    from sklearn.metrics import f1_score
    # モデルにデータを予測させる
    pred_y = clf.predict(testX)
    
    # モデルのF値を計算する
    score = f1_score(test_y, pred_y, average="micro")
    ```
- 今回のデータセットに関する情報は<a href='http://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits' target='_blank'>UCI Machine Learning Repository(英語版サイト)</a>を参照してください。
- 講座でいくつかのパラメーターを手法ごとに紹介しましたが、他にも調整可能なパラメーターが存在します。  
<a href='http://scikit-learn.org/stable/modules/classes.html' target='_blank'>scikit-learnのドキュメント(英語版サイト)</a>を参照してください。  
また、パラメーターに関してわからないことがあればチューターまでご質問ください。

####  解答例

In [None]:
# 必要なモジュールがあれば追記してください
import scipy.stats
from sklearn.datasets import load_digits
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

data = load_digits()
train_X, test_X, train_y, test_y = train_test_split(
    data.data, data.target, random_state=42)

# 以下にコードを記述してください
# グリッドサーチ用にモデルとパラメーターセットをまとめた辞書を用意
# 辞書のkeyにはオブジェクトのインスタンスを指定することができます
model_param_set_grid = {
    LogisticRegression(): {
        "C": [10 ** i for i in range(-5, 5)],
        "random_state": [42]
    },
    LinearSVC(): {
        "C": [10 ** i for i in range(-5, 5)],
        "multi_class": ["ovr", "crammer_singer"],
        "random_state": [42]
    },
    SVC(): {
        "kernel": ["linear", "poly", "rbf", "sigmoid"],
        "C": [10 ** i for i in range(-5, 5)],
        "decision_function_shape": ["ovr", "ovo"],
        "random_state": [42]
    },
    DecisionTreeClassifier(): {
        "max_depth": [i for i in range(1, 20)],
    },
    RandomForestClassifier(): {
        "n_estimators": [i for i in range(10, 20)],
        "max_depth": [i for i in range(1, 10)],
    },
    KNeighborsClassifier(): {
        "n_neighbors": [i for i in range(1, 10)]
    }
}

# ランダムサーチ用にモデルとパラメーターセットをまとめた辞書を用意
model_param_set_random = {
    LogisticRegression(): {
        "C": scipy.stats.uniform(0.00001, 1000),
        "random_state": scipy.stats.randint(0, 100)
    },
    LinearSVC(): {
        "C": scipy.stats.uniform(0.00001, 1000),
        "multi_class": ["ovr", "crammer_singer"],
        "random_state": scipy.stats.randint(0, 100)
    },
    SVC(): {
        "kernel": ["linear", "poly", "rbf", "sigmoid"],
        "C": scipy.stats.uniform(0.00001, 1000),
        "decision_function_shape": ["ovr", "ovo"],
        "random_state": scipy.stats.randint(0, 100)
    },
    DecisionTreeClassifier(): {
        "max_depth": scipy.stats.randint(1, 20),
    },
    RandomForestClassifier(): {
        "n_estimators": scipy.stats.randint(10, 100),
        "max_depth": scipy.stats.randint(1, 20),
    },
    KNeighborsClassifier(): {
        "n_neighbors": scipy.stats.randint(1, 20)
    }
}

# スコア比較用に変数を用意
max_score = 0
best_model = None
best_param = None

# グリッドサーチでパラメーターサーチ
for model, param in model_param_set_grid.items():
    clf = GridSearchCV(model, param)
    clf.fit(train_X, train_y)
    pred_y = clf.predict(test_X)
    score = f1_score(test_y, pred_y, average="micro")
    # 最高評価更新時にモデルやパラメーターも更新
    if max_score < score:
        max_score = score
        best_model = model.__class__.__name__
        best_param = clf.best_params_

# ランダムサーチでパラメーターサーチ
for model, param in model_param_set_random.items():
    clf = RandomizedSearchCV(model, param)
    clf.fit(train_X, train_y)
    pred_y = clf.predict(test_X)
    score = f1_score(test_y, pred_y, average="micro")
    # 最高評価更新時にモデルやパラメーターも更新
    if max_score < score:
        max_score = score
        best_model = model.__class__.__name__
        best_param = clf.best_params_
        
print("学習モデル:{},\nパラメーター:{}".format(best_model, best_param))
# 最も成績のいいスコアを出力してください。
print("ベストスコア:",max_score)

添削課題の提出は以下のアドレスから提出いただきますようお願いします。<br>

https://goo.gl/forms/fW7CAspZMwHuWuqk2<br><br>
以下のアドレスからアンケートにご協力頂きたく存じます。<br>
ご回答のほど、よろしくお願いいたします。

https://goo.gl/forms/WHjJQYeodIndRvyz2