# **決定木**

# **STEP0：事前準備**

**コード13-1 ライブラリとモジュールをインポート**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# **STEP1: データの用意**

**コード13-2 乳がんデータの読み込み**

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)

**コード13-3 学習データと検証データに分割**

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(bc.data,
                                                  bc.target,
                                                  test_size=0.3,
                                                  random_state=0)

# **STEP2: 学習モデルの選択**

**コード13-4 学習モデルに決定木を選択**

In [None]:
from sklearn.tree import DecisionTreeClassifier
model_tree_c = DecisionTreeClassifier(criterion='gini',
                                      random_state=0)

# **STEP3: データを入れて学習させる**

**コード13-5 学習用データで学習させる**

In [None]:
model_tree_c.fit(x_train, y_train)

# **STEP4: 決定木の図示**

**コード13-6 決定木を図示する**

In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(25,15))
plot_tree(model_tree_c,
              feature_names=bc.feature_names,
              class_names=bc.target_names,
              filled=True)
plt.show()

**コード13-7 bcのfeature_namesの内容確認**

In [None]:
bc.feature_names

In [None]:
bc.feature_names.shape

In [None]:
type(bc.feature_names)

**コード13-8 bcのtarget_namesの内容確認**

In [None]:
bc.target_names

In [None]:
bc.target_names.shape

In [None]:
type(bc.target_names)

# **STEP5: 予測を行う**

**コード13-9 検証データを用いて予測する**

In [None]:
print(model_tree_c.predict(x_test))
print(np.array(y_test))

**コード13-10 混同行列の出力**

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, model_tree_c.predict(x_test), labels = [1,0])

# **STEP6: モデルの評価**

**コード13-11 正解率の出力**

In [None]:
print(model_tree_c.score(x_test,y_test))
print(model_tree_c.score(x_train, y_train))

**コード13-12 検証用データでAUCを算出**

In [None]:
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, model_tree_c.predict_proba(x_test)[:,1])

**コード13-13 ROC曲線の描出**

In [None]:
from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_predictions(y_test,
    model_tree_c.predict_proba(x_test)[:,1])
plt.axis('square')
plt.show()

# **剪定したモデルの作成**

# **STEP2: 学習モデルの選択**

**コード13-14 剪定した学習モデルの選択**

In [None]:
model_tree_p = DecisionTreeClassifier(criterion='gini',
                                      max_depth=3,
                                      random_state=0)

# **STEP3: データを入れて学習させる**

**コード13-15 学習用データで学習させる**

In [None]:
model_tree_p.fit(x_train, y_train)

**コード13-16 剪定モデルの図示**

In [None]:
plt.figure(figsize=(25,15))
plot_tree(model_tree_p,
              feature_names=bc.feature_names,
              class_names=bc.target_names,
              filled=True)
plt.show()

# **STEP5: 予測を行う**

**コード13-17 剪定モデルの混同行列の出力**

In [None]:
confusion_matrix(y_test, model_tree_p.predict(x_test), labels=[1,0])

# **STEP6: モデルの評価**

**コード13-18 剪定モデルの正解率出力**

In [None]:
print(model_tree_p.score(x_test,y_test))
print(model_tree_p.score(x_train, y_train))

**コード13-19 剪定モデルのAUCを算出**

In [None]:
roc_auc_score(y_test, model_tree_p.predict_proba(x_test)[:,1])

**コード13-20 ROC曲線の描出**

In [None]:
RocCurveDisplay.from_predictions(y_test,
    model_tree_p.predict_proba(x_test)[:,1])
plt.axis('square')
plt.show()

**コード13-21 検証用データで適合率、再現率、F1値を出力する**

In [None]:
from sklearn.metrics import classification_report
pd.DataFrame(classification_report(y_test, model_tree_p.predict(x_test), output_dict = True))