# 決定木

## 参考資料

* https://www.kaggle.com/code/antonoof/decisiontree-numpy-simple-code
* https://qiita.com/3000manJPY/items/ef7495960f472ec14377
* https://zenn.dev/mi_01_24fu/articles/regression-tree#%E5%90%84%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3%E3%81%A7sse%E3%82%92%E7%AE%97%E5%87%BA%E3%81%97%E3%81%9F%E7%B5%90%E6%9E%9C%E3%80%81%E6%9C%80%E5%B0%8Fsse%E3%81%8C%E5%88%86%E3%81%8B%E3%81%A3%E3%81%9F%E3%80%81%E3%81%98%E3%82%83%E3%81%82%E3%81%A9%E3%81%86%E3%81%99%E3%82%8B%E3%81%AE%EF%BC%9F

## 理論

決定木とは分類や数値予測(回帰)を行う教師あり機械学習手法の一つ。
分類木と回帰木をまとめて決定木と呼ぶ。 <br><br>
分類木 : 与えられた特徴量に基づき、対象データがどのカテゴリに属するか判断するモデル <br>
ex) メールを「スパム」「非スパム」に分類する。 <br><br>
回帰木 : 連続的な値の予測に特化したモデル <br>
ex) 過去の地球温暖化のデータを利用して将来の気温上昇を予測する。

分岐させる時の閾値は人間が決めるのではなく、自動で最適化する。
そのとき、データの持つ特徴の中で集められたデータを一番よく分割する特徴とその閾値の組を選ぶことが肝になる。
この組を選び出すのによく使われているのが「エントロピー」と「ジニ不純度」である。

### エントロピー

定義

$$ H = - \sum_{i = 1}^n p_i \log p_i $$

$ p_i $はクラス$ i $に属する確率(割合)を表すので、$ p_i = \dfrac{n_i}{N} $と書くことができる。 <br>
$ \log $の底はなんでも良いが、クラス数$ n $にしておくと、エントロピーの最大値が$ 1 $となる。

エントロピーはデータの不純度が大きいほど大きくなり、データの不純度が小さいほど小さくなる。 <br>
したがってデータの不純度度合いをエントロピーを用いて数値化できる。

では、どのようにしてデータの分割の良し悪しを判断するのだろうか。 <br>
そこで利得(gain)をエントロピーを用いる。

$$ \Delta H(t) = H(t_B) - \sum_{i = 1}^b w_i H_i(t_{Ai}) $$

$ b $ : 分岐(ブランチ)の数 <br>
$ t_B $ : 分岐前のデータ　<br>
$ t_A $ : 分岐後のデータ <br>
$ w_i $ : 重み(分岐前に対するデータの量の割合)

$$ \text{(分岐前のエントロピー)} - \sum \text{重み} \times \text{(分岐後のエントロピー)} $$

分岐した時にうまく不純度が小さくなっていれば、右辺の分岐後のエントロピーが小さくなり、利得が大きくなる。 <br>
つまり、この式の計算結果が最大となるような特徴と閾値の組が不純度を最小にする組であるとわかる。 <br>
この分割指標を用いて決定木を構築していくアルゴリズムがC4.5である。

### ジニ不純度

定義

$$ G = 1 - \sum_{i = 1}^n p_i^2 $$

ジニ不純度もエントロピーと同様、データの不純度が大きいほど値が大きくなり、データが不純度が小さいほど値が小さくなる。<br>
また、不純度が最も低ければジニ不純度の値は$ 0 $、不純度が大きくなるとジニ不純度の値が$ 1 $に近づく。(最大でも$ 1 - \dfrac{1}{n}$なので$ 1 $は取りえない)

エントロピーと同様に利得を計算することで、データの分割の良し悪しを判断する。

$$ \Delta G = G(t_B) - w_L G(t_L) - w_R G(t_R) $$

$ t_B $ : 分岐前のノード <br>
$ t_L, t_R $ : 分岐後の左(右)ノード

不純度がうまく分岐によって低くなると、利得は大きくなる。 <br>
よって、ジニ不純度の場合も値を最大にする特徴と閾値の組が、最も不純度を抑える組である。

この分割指標を用いて決定木を構築していくアルゴリズムがCARTである。

## 実装

In [1]:
import numpy as np
import pandas as pd