## 의사결정나무

의사결정 나무모델    

- 지도학습 알고리즘 (분류, 회귀)
- 직관적인 알고리즘 (이해 쉬움)
- 대적합되기 쉬운 알고리즘 (트리 깊이 제한 필요)

- 정보이득의 최대가 되는 기준은 '지니'와 '엔트로피'사용
- 데이터가 한종류 일때 엔트로피/ 지니의 불순도는 0에 가까움
- 서로 다른 데이터의 비율이비슷하면 1에 가까움 정보이득이 최대 ( 1 - 불순도)

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer


def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test


X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

In [3]:
y_train.value_counts()

target
1    190
0     94
Name: count, dtype: int64

In [4]:
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9263157894736842

3. 의사결정나무 하이퍼파라미터

criterion (기본값 gini) : 불순도 지표 (또는 엔트로피 불순도 entropy)
max_depth (기본값 None) : 최대 한도 깊이
min_samples_split (기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수
min_samples_leaf (기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [5]:
# 의사결정나무 하이퍼 파라미터
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(criterion='entropy', max_depth=6, min_samples_leaf=1,
                               min_samples_split=5, random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)


0.9157894736842105

### 랜덤포레스
여러개의 의사결정 트리로 구성
앙상블 방법 중 배깅(bagging) 방식
부트스트랩 샘플링 (데이터셋 중복 허용)
최종 다수결 투표
과대적합 가능성 낮음

In [6]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9438596491228071

n_estimators (기본값 100) : 트리의 수
criterion (기본값 gini) : 불순도 지표
max_depth (기본값 None) : 최대 한도 깊이
min_samples_split (기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수
min_samples_leaf (기본값 1) : 리프 노드가 되기 위한 최소 샘플 수
※ 아래 코드에서 하이퍼 파라미터 값을 직접 조절해 보세요.

In [7]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=500, max_depth=3, random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

#0.9473684210526315 max_depth=3, n_estimators=200, 

0.9403508771929825

### xgboost
트리 앙상블 중 성능이 좋은 알고리즘
eXtreme Gradient Boosting를 줄여서 XGBoost라고 한다.
약한 학습기가 계속해서 업데이트를 하며 좋은 모델을 만들어 간다.
부스팅(앙상블) 기반의 알고리즘
캐글(글로벌 AI 경진대회)에서 뛰어난 성능을 보이면서 인기가 높아짐

In [8]:
from xgboost import XGBClassifier

model = XGBClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9614035087719298

2. 하이퍼 파라미터의 종류

booster (기본값 gbtree) : 부스팅 알고리즘 (또는 dart, gblinear)
objective (기본값 binary:logistic) : 이진분류 (다중분류: multi:softmax)
max_depth (기본값 6) : 최대 한도 깊이
learning_rate (기본값 0.1) : 학습률
n_estimators (기본값 100) : 트리의 수
subsample (기본값 1) : 훈련 샘플 개수의 비율
colsample_bytree (기본값 1) : 특성 개수의 비율
n_jobs (기본값 1) : 사용 코어 수 (-1: 모든 코어를 다 사용)

In [9]:
from xgboost import XGBClassifier

model = XGBClassifier(random_state=0,
                      use_label_encoder=False,
                      eval_metric='logloss',
                      booster='gbtree',
                      objective='binary:logistic',
                      max_depth=5,
                      learning_rate=0.05,
                      n_estimators=500,
                      subsample=1,
                      colsample_bytree=1,
                      n_jobs=-1,

                      # booster (기본값 gbtree) : 부스팅 알고리즘 (또는 dart, gblinear)
                      # objective (기본값 binary:logistic) : 이진분류 (다중분류: multi:softmax)
                      # max_depth (기본값 6) : 최대 한도 깊이
                      # learning_rate (기본값 0.1) : 학습률
                      # n_estimators (기본값 100) : 트리의 수
                      # subsample (기본값 1) : 훈련 샘플 개수의 비율
                      # colsample_bytree (기본값 1) : 특성 개수의 비율
                      # n_jobs (기본값 1) : 사용 코어 수 (-1: 모든 코어를 다 사용)                       
                      )
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)
#0.9614035087719298 default

0.9649122807017544

In [10]:
#조기종료
model = XGBClassifier(random_state=0,
                      use_label_encoder=False,
                      eval_metric='logloss',
                      learning_rate=0.05,
                      n_estimators=500,
                      )
eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_set, early_stopping_rounds=10)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

[0]	validation_0-logloss:0.65133
[1]	validation_0-logloss:0.61622
[2]	validation_0-logloss:0.58479
[3]	validation_0-logloss:0.55575
[4]	validation_0-logloss:0.53043
[5]	validation_0-logloss:0.50622
[6]	validation_0-logloss:0.48445
[7]	validation_0-logloss:0.46342
[8]	validation_0-logloss:0.44414
[9]	validation_0-logloss:0.42749
[10]	validation_0-logloss:0.41021
[11]	validation_0-logloss:0.39427
[12]	validation_0-logloss:0.38104
[13]	validation_0-logloss:0.36810
[14]	validation_0-logloss:0.35693
[15]	validation_0-logloss:0.34518
[16]	validation_0-logloss:0.33359
[17]	validation_0-logloss:0.32386
[18]	validation_0-logloss:0.31363
[19]	validation_0-logloss:0.30526
[20]	validation_0-logloss:0.29646
[21]	validation_0-logloss:0.28918
[22]	validation_0-logloss:0.28134
[23]	validation_0-logloss:0.27427
[24]	validation_0-logloss:0.26860
[25]	validation_0-logloss:0.26207
[26]	validation_0-logloss:0.25601
[27]	validation_0-logloss:0.25163
[28]	validation_0-logloss:0.24645
[29]	validation_0-loglos



0.9508771929824561

In [11]:
# 데이터셋 로드
def make_dataset2():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    return df.drop('target', axis=1), df['target']


X, y = make_dataset2()

### 교차검증
일반적으로 모델을 학습시킬 때 데이터를 train set과 test set으로 나누어 train set을 가지고 학습을 수행합니다.

교차검증이란 여기서 train set을 다시 train set과 validation set으로 나누어 학습 중 검증과 수정을 수행하는 것을 의미합니다.

### Kfold

In [12]:
#KFold
from sklearn.model_selection import KFold

model = DecisionTreeClassifier(random_state=0)

kfold = KFold(n_splits=5)
for train_idx, test_idx in kfold.split(X):  # 4:1로 나눔
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))

0.8771929824561403
0.9122807017543859
0.9473684210526315
0.9385964912280702
0.8407079646017699


### StratifiedKfold

### 사이킷런 교차검증

In [13]:
# Stratified Kfold
from sklearn.model_selection import StratifiedKFold

model = DecisionTreeClassifier(random_state=0)

kfold = StratifiedKFold(n_splits=5)
for train_idx, test_idx in kfold.split(X, y):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))

0.9035087719298246
0.9210526315789473
0.9122807017543859
0.9473684210526315
0.9026548672566371


In [14]:
# 사이킷런 교차검증
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, y, cv=3)
scores

array([0.88947368, 0.94210526, 0.86243386])

In [15]:
# 평균 점수
scores.mean()

0.8980042699340944

In [16]:
# 교차검증 Stratified Kfold
kfold = StratifiedKFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kfold)
scores

array([0.90350877, 0.92105263, 0.9122807 , 0.94736842, 0.90265487])

### 평가 (분류 모델)
정확도 accuracy: 실제 값과 예측값이 일치하는 비율
정밀도 precision: 양성이라고 예측한 값 중 실제 양성인 값의 비율 (암이라고 예측 한 값 중 실제 암)
재현율 recall: 실제 양성 값 중 양성으로 예측한 값의 비율 (암을 암이라고 판단)
F1: 정밀도와 재현율의 조화평균
ROC-AUC
ROC: 참 양성 비율(True Positive Rate)에 대한 거짓 양성 비율(False Positive Rate) 곡선
AUC: ROC곡선 면적 아래 (완벽하게 분류되면 AUC가 1임)

In [17]:
# 정확도
from sklearn.metrics import accuracy_score

accuracy_score(y_test, pred)

0.9026548672566371

In [18]:
# 정밀도
from sklearn.metrics import precision_score

precision_score(y_test, pred)

0.9545454545454546

In [19]:
# f1
from sklearn.metrics import f1_score

f1_score(y_test, pred)

0.9197080291970803

In [25]:
#roc_auc
from sklearn.metrics import roc_auc_score

model = XGBClassifier(random_state=0, use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train)
pred = model.predict_proba(X_test)  # 확률로 받음
pred
roc_auc_score(y_test, pred[:, 1])

0.9983232729711603

In [None]:
#