<img src="slides/8_30.png">

In [None]:
import pandas as pd
import seaborn as sns

# Iris データセット
iris = sns.load_dataset('iris')

# species が setosa のデータを除去
df = iris.query('species!="setosa"')
# speciesを 0, 1 にするためにダミー変数化
df = pd.get_dummies(data=df, drop_first=True)

# データセットの確認
df.iloc[[0, 50]]

# 説明変数、目的変数を作成
X = df[['sepal_length', 'sepal_width', 'petal_length', 'petal_width']]
Y = df.species_virginica

### ホールドアウトにより予測精度を検証

```train_test_split()``` によりデータセットを分割

- ```test_size=0.3``` 30% をテストデータとして分割
- ```X_train, X_test``` 教師データ
- ```Y_train, Y_test``` テストデータ

```model.fit(X_train, Y_train)```

- 教師データで決定木を作成

```Y_predict = model.predict(X_test)```<br>
```Y_proba = model.predict_proba(X_test)```

- テストデータで目的変数を予測

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import train_test_split

def classify(depth):
    # データを分割
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3)
    # 決定木を作成
    model = DecisionTreeClassifier(criterion='entropy', max_depth=depth)
    model.fit(X_train, Y_train)

    # 正確度、適合度、再現率（感度）、AUCの算出
    Y_predict = model.predict(X_test)
    Y_proba = model.predict_proba(X_test)
    fpr, tpr, thresholds = roc_curve(Y_test, Y_proba[:, 1])
    print('depth={:2}: AUC={:.3f}'.format(depth, auc(fpr, tpr)))

### 決定木の深さの数値を変更して実行

1 から 16 未満まで値を変更しながら、決定木を作成し、精度、AUCを確認

In [None]:
for d in range(1, 16, 1):
    classify(d)

- AUC は上がったり、下がったり

データセットの分割はランダムに行われるため常に同じ結果は出ない

<hr>

<img src="slides/8_31.png">