<a href="https://colab.research.google.com/github/greensky0107/self_study/blob/main/Day29_Classification_Decision_Tree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Decision Tree

지도학습 알고리즘 (분류, 회귀)

직관적인 알고리즘 (이해 쉬움)

과대적합되기 쉬운 알고리즘 (트리 깊이 제한 필요)

트리의 루트(root)에서 시작해서 정보이득이 최대가 되는 특성으로 데이터를 나눔.

정보이득(information gain)이 최대가 되는 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'가 사용됨.

데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가깝고, 서로 다른 데이터의 비율이 비슷하면 1에 가까움.

정보이득(information gain)이 최대라는 것은 불순도를 최소화 하는 방향(1-불순도)

*   Gini계수 사용 시 :  불순도를 최소화하는 방향으로 데이터를 나누어 나감.

*   엔트로피 사용 시 :  정보이득을 최대화하는 방향으로 데이터를 나누어 나감.


In [2]:
#Step 1. Library 불러오기

# Pandas 불러오기
import pandas as pd

# Numpy 불러오기
import numpy as np

# Matplotlib 불러오기
import matplotlib.pyplot as plt

# Seaborn 불러오기
import seaborn as sns

# 사이킷런 내장데이터 확인
import sklearn.datasets
sklearn.datasets.__all__  # load로 된 부분이 데이터셋

# 데이터 불러오기
from sklearn.datasets import load_breast_cancer  # load_데이터 세트

# 데이터 분리
from sklearn.model_selection import train_test_split

# 모델 불러오기
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier
# 랜덤포레스트
from sklearn.ensemble import RandomForestClassifier
# XGBoost
from xgboost import XGBClassifier

# 평가
# accuracy (정확도)
from sklearn.metrics import accuracy_score
# precision (정밀도)
from sklearn.metrics import precision_score
# recall (재현율)
from sklearn.metrics import recall_score
# f1 (정밀도와 재현율의 조화평균)
from sklearn.metrics import f1_score
# roc auc (Receiver Operation Chracteristic Curve,  Area Under the Curve)
from sklearn.metrics import roc_auc_score

In [16]:
#Step2 Data Split (train vs. test.  test size를 50%로 지정)

from sklearn.datasets import load_breast_cancer

def make_dataset():
    cancer = load_breast_cancer()
    df = pd.DataFrame(cancer.data, columns=cancer.feature_names)
    df['target'] = cancer.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=5000)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

In [17]:
#Step3 Target 확인
y_train.value_counts()

Unnamed: 0_level_0,count
target,Unnamed: 1_level_1
1,170
0,114


In [20]:
#Step 4 Decision Tree 실행

# 모델 변수 정의_ dt_clf(의사결정나무) / rf_clf(랜덤포레스트) / lr_clf(로지스틱회귀) 등
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state=0)

#학습
model.fit(X_train, y_train)

#예측
pred = model.predict(X_test)

#Evaluation
#Accuracy(정확도)
accuracy_score(y_test, pred)

#test size 50% 일 때 0.922    #test size 30% 일때 0.935

0.9228070175438596

In [21]:
#Step 4 Evaluation

#Precision(정밀도)
precision_score(y_test, pred)

#test size 50% 일 때 0.931

0.9319371727748691

In [22]:
#Step 4 Evaluation

#Recall(재현율)
recall_score(y_test, pred)

#test size 50% 일 때 0.951

0.9518716577540107

In [24]:
#Step 4 Evaluation

# f1 (정밀도와 재현율의 조화평균)
f1_score(y_test, pred)

#test size 50% 일 때 0.941

0.9417989417989417

In [30]:
#Step 4 Evaluation

# roc_auc
model = XGBClassifier(random_state=0, eval_metric='auc')
model.fit(X_train, y_train)
pred = model.predict_proba(X_test)
roc_auc_score(y_test, pred[:,1])
print(roc_auc_score(y_test, pred[:,1]))

#test size 50% 일 때 0.985

0.9855669540543491


Decision Tree Hyperparameter

criterion (기본값 gini) : 불순도 지표 (또는 엔트로피 불순도 entropy)

max_depth (기본값 None) : 최대 한도 깊이

min_samples_split (기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수

min_samples_leaf (기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [35]:
#Step 5 Tune Decision Tree Hyperparameter (max depth, minimum sample leaf, minimum sample split 조정) 조정 & Accuracy Score 변화

from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion = 'entropy',
    max_depth = 7,
    min_samples_split = 2,
    min_samples_leaf=2,
    random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)

# 정확도
accuracy_score(y_test, pred)

#test size 50%, max_depth=7, min_samples_split=2, min_sampls_leaf=2 일 때, 0.943 (위에 formula 남겨둠)

#test size 30%, max_depth=7, min_samples_split=2, min_sampls_leaf=2 일 때, 0.888 (실습해봐야함)
#test size 30%, max_depth=10, min_samples_split=5, min_sampls_leaf=5 일 때, 0.923 (실습해봐야함)
#test size 30%, max_depth=10, min_samples_split=10, min_sampls_leaf=10 일 때, 0.941 (실흡해봐야함)
#test size 30%, max_depth=15, min_samples_split=15, min_sampls_leaf=15 일 때, 0.923 (실습해봐야함)

0.9438596491228071