<a href="https://colab.research.google.com/github/yasyamauchi/education/blob/main/decision_tree_BME2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 決定木 (けっていぎ，decision tree)  
  
  2024新版  
[Google Machine Learning: 上級コース: デシジョンフォレスト](https://developers.google.com/machine-learning/decision-forests/practice?hl=ja)より  

YDF（Yggdrasil）を使用する．

In [None]:
!pip install ydf -U

In [None]:
import ydf
import numpy as np
import pandas as pd

## データの読み込み  
  
  この例では"Palmer Penguins"データセットを使用する．  
### データの中身  
3種類のペンギン(合計344羽)  
* チンストラップ(Chinstrap)
* ジェンツー(Gentoo)
* アデリー(Adelie)  
  
の，次のデータを使用する．  
* 生息地 (island)
* くちばしの長さ (bill_length)
* くちばしの上下幅 (bill_depth)
* 羽の長さ (flipper_length)
* 体重 (body_mass)
* 性別 (sex)
* 誕生年？ (year)  
  
最初の3羽のデータを表示する．

In [None]:
path = "https://storage.googleapis.com/download.tensorflow.org/data/palmer_penguins/penguins.csv"
dataset = pd.read_csv(path)
label = "species"

# Display the first 3 examples.
dataset.head(3)

## 訓練データと検証データに分ける  
  
344のデータの約1割を検証データに，残りを訓練データに分ける．ランダムに分けるので実行するたびに結果は異なる．

In [None]:
# Use the ~20% of the examples as the testing set
# and the remaining ~80% of the examples as the training set.
np.random.seed(1)
is_test = np.random.rand(len(dataset)) < 0.2

train_dataset = dataset[~is_test]
test_dataset = dataset[is_test]

print("Training examples: ", len(train_dataset))
# >> Training examples: 272

print("Testing examples: ", len(test_dataset))
# >> Testing examples: 72

## モデルの学習  
  
デフォルト値で行う．学習はすぐ終わる．

In [None]:
model = ydf.CartLearner(label=label).train(train_dataset)

## モデルの評価
  
  まず決定木を表示する．見方は次の通り．  
* 左から右に見る
* 赤(0)がアデリー，青(1)がジェンツー，緑(2)がチンストラップ
* 分類された結果が棒グラフで表示されており，その上に条件が示されている．例えば最初の**flipper_length_mm >= 207.500**は**「羽の長さが207.5mm以上かどうか」**を意味する．Yesが上でNoが下．
* マウスを用いると，詳細な数字が表示される．

In [None]:
model.plot_tree()

精度を計算する．訓練データ93%・検証データで92％程度となる．実際の精度は実行するたびにわずかに異なる(理由は考えること)．

In [None]:
train_evaluation = model.evaluate(train_dataset)
print("train accuracy:", train_evaluation.accuracy)
# >> train accuracy:  0.9338

test_evaluation = model.evaluate(test_dataset)
print("test accuracy:", test_evaluation.accuracy)
# >> test accuracy:  0.9167

木の深さを最大2とする

In [None]:
model = ydf.CartLearner(label=label, max_depth=2).train(train_dataset)
print(model.evaluate(test_dataset).accuracy)
# >> 0.97222

In [None]:
model.plot_tree()

ランダムフォレスト法【後述】を適用する  
精度はかなり改善するはず

In [None]:
model = ydf.RandomForestLearner(label=label).train(train_dataset)
model.plot_tree()
print("Test accuracy: ", model.evaluate(test_dataset).accuracy)
# >> Test accuracy: 0.986111

In [None]:
model.plot_tree()