# 実践演習3-5

Scikit learn の DecisionTreeClassifier を用いて決定木を作成します。

## 準備

必要なライブラリ等を読み込みます。

In [0]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score
from IPython.display import Image
from sklearn.tree import export_graphviz
import pydotplus

## データの読み込み

[sklearn.datasets](http://scikit-learn.org/stable/datasets/)パッケージには5種類の[Toy dataset](http://scikit-learn.org/stable/datasets/index.html#toy-datasets)(boston, iris, diabetes, disits, linnerud)や乱数でデータを生成するモジュールなどが含まれています。irisデータはload_irisメソッドを使って読み込みます。

In [0]:
iris = load_iris()

ここで、変数irisは学習データのオブジェクトで、data(特徴ベクトル)、target（教師ベクトル）、DESCR（説明）などの属性を持ちます。

## 学習

識別器として[DecisionTreeClassifier](http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)を用います。DecisionTreeClassifierは[CART](http://scikit-learn.org/stable/modules/tree.html#tree-algorithms-id3-c4-5-c5-0-and-cart)（数値出力を行う二分決定木）の実装です。  

### scikit-learnにおける学習の基本的な手順

* 識別器クラスのインスタンスを作成
* 特徴ベクトルと教師ベクトルを引数としてfitメソッドを実行
* 識別したい特徴ベクトルを引数としてpredictメソッドを実行

ここでは、交差確認法で評価を行うので、識別器の作成までを行います。

In [0]:
clf = DecisionTreeClassifier()
clf

まず、全学習データを用いて、デフォルトパラメータでどのような木ができるか確認してみましょう。

In [0]:
clf.fit(iris.data, iris.target)
dot_data = export_graphviz(clf, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png(), width=600) 

### 評価

交差確認法を実行するには、cross_val_scoreメソッドを、識別器、パターン行列、正解ベクトル、交差数を引数として与えて呼び出します。戻り値は交差数を要素数とする1次元ndarrayなので、平均や標準偏差を求めるメソッドを呼び出せば、集計が簡単に行えます。

In [0]:
scores = cross_val_score(clf, iris.data, iris.target, cv=10)
print("{0:4.2f} +/- {1:4.2f} %".format(scores.mean() * 100, scores.std() * 100))

## 学習パラメータの変更

学習パラメータは、識別器のコンストラクタ引数として与えます。ここでは、深さ(max_depth)を制限して単純化してみます。

In [0]:
clf2 = DecisionTreeClassifier(max_depth=2)
clf2.fit(iris.data, iris.target)
dot_data = export_graphviz(clf2, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png(), width=600) 

In [0]:
scores = cross_val_score(clf2, iris.data, iris.target, cv=10)
print("{0:4.2f} +/- {1:4.2f} %".format(scores.mean() * 100, scores.std() * 100))

次は葉の要素数の最小値(min_samples_leaf)を増やしてみます。

In [0]:
clf3 = DecisionTreeClassifier(min_samples_leaf=3)
clf3.fit(iris.data, iris.target)
dot_data = export_graphviz(clf3, out_file=None, 
                         feature_names=iris.feature_names,  
                         class_names=iris.target_names,  
                         filled=True, rounded=True,  
                         special_characters=True)  
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png(), width=600) 

In [0]:
scores = cross_val_score(clf3, iris.data, iris.target, cv=10)
print("{0:4.2f} +/- {1:4.2f} %".format(scores.mean() * 100, scores.std() * 100))