# 決定木(Decision Tree)

## 決定木とは

- IF文の連続で結果を予測するモデル
- 精度は低いが、結果に対する説明力(理由の理解しやすさ)が高い
- Random ForestやDecision Jungleなどの樹木系アルゴリズムのベース
- 元のデータを根(root)・分類の最終点を葉(leaf)・根から葉に至る途中を枝(branch)と呼ぶ

## 使用例

### データ準備

scikit-learnに用意されているデータを使用する。

In [None]:
import numpy as np
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
X, y = iris.data, iris.target

data = np.concatenate([X, y[:, np.newaxis]], axis=1)
columns = iris.feature_names + ['target']
df = pd.DataFrame(data=data, columns=columns)
df.tail()

### 学習

In [None]:
from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier()
clf.fit(X, y)

### 結果の可視化

In [None]:
from sklearn import tree
import pydotplus 
from IPython.display import Image

dot_data = tree.export_graphviz(
    clf, out_file=None, feature_names=iris.feature_names,
    class_names=iris.target_names, filled=True, rounded=True,
    special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

## 特徴

決定木は仕組み自体は単純だが、十分な深さがあれば全ての学習サンプルを完璧に分類できる高バリアンスなモデル。そのため、深さに制限を設けて枝刈り(剪定)し、過学習を防ぐ。

## 仕組み

得られる情報(情報利得 = information gain)が最大となる特徴・条件でデータを分割していく。得られる情報が最大となるというのは、分割された枝葉の不純度(impurity)が最も低くなること。

情報利得は、親ノードの不純度と子ノードの不純度の差で定義される。つまり目的関数は以下のように定義される。( $D_p,\ D_j$ はそれぞれ親ノード・子ノード $j$ のデータセット、$I(D)$ はデータセット $D$ の不純度を表す関数、$N_p,\ N_j$ はそれぞれ親ノード・子ノード $j$ のサンプル数、$m$ は分割する子ノードの数)

情報利得 $\begin{eqnarray}
    =\ I(D_p)-\sum_{j=1}^m\frac{N_j}{N_p}I(D_j)\nonumber
\end{eqnarray}$

決定木で不純度を表す関数 $I$ に使われる代表的なものにエントロピーとジニ不純度があるが、どちらも結果に大きな違いはない。エントロピーについては[別の項](entropy.ipynb)で説明。