<img src="slides/8.png">

In [1]:
import pandas as pd
import numpy as np
loan = pd.read_csv('data/loan_data.csv')

# 使用しない列を削除
df = loan.drop(['Unnamed: 0', 'status', 'loan_amnt', 'term', 'annual_inc', 'dti',
                  'revol_bal', 'revol_util', 'purpose', 'home_ownership',
                  'delinq_2yrs_zero', 'pub_rec_zero', 'open_acc', 'grade'], axis=1)

# ダミー変数化
df['outcome'] = df['outcome'].map(lambda x: 1 if x == 'default' else 0)
df = pd.get_dummies(data=df)

# 説明変数、目的変数を作成
y = 'outcome'
X = df.drop([y], axis=1)
Y = df[y]

### 決定木の作成を関数として定義

引数で max_depth を指定

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_curve, auc

def classify(depth):
    # 決定木を作成
    model = DecisionTreeClassifier(criterion='entropy', max_depth=depth)
    model.fit(X, Y)

    # 正確度、適合度、再現率（感度）、AUCの算出
    Y_predict = model.predict(X)
    Y_proba = model.predict_proba(X)
    fpr, tpr, thresholds = roc_curve(Y, Y_proba[:, 1])
    print('depth={:2}: 正確度={:.3f}, 適合度={:.3f}, 再現率={:.3f}, AUC={:.3f}'.format(
        depth, accuracy_score(Y, Y_predict), precision_score(Y, Y_predict),
        recall_score(Y, Y_predict), auc(fpr, tpr)))

### 深さの数値を変更して実行

50 から 75 未満まで、1 つとばしで値を変更しながら、決定木を作成し、精度、AUCを確認

In [3]:
for d in range(50, 75, 2):
    classify(d)

depth=50: 正確度=0.990, 適合度=0.988, 再現率=0.992, AUC=1.000
depth=52: 正確度=0.992, 適合度=0.992, 再現率=0.993, AUC=1.000
depth=54: 正確度=0.994, 適合度=0.994, 再現率=0.994, AUC=1.000
depth=56: 正確度=0.996, 適合度=0.996, 再現率=0.996, AUC=1.000
depth=58: 正確度=0.997, 適合度=0.997, 再現率=0.997, AUC=1.000
depth=60: 正確度=0.998, 適合度=0.998, 再現率=0.998, AUC=1.000
depth=62: 正確度=0.998, 適合度=0.998, 再現率=0.998, AUC=1.000
depth=64: 正確度=0.999, 適合度=0.999, 再現率=0.998, AUC=1.000
depth=66: 正確度=0.999, 適合度=1.000, 再現率=0.998, AUC=1.000
depth=68: 正確度=0.999, 適合度=1.000, 再現率=0.998, AUC=1.000
depth=70: 正確度=0.999, 適合度=1.000, 再現率=0.999, AUC=1.000
depth=72: 正確度=0.999, 適合度=1.000, 再現率=0.999, AUC=1.000
depth=74: 正確度=1.000, 適合度=1.000, 再現率=0.999, AUC=1.000
