In [1]:
# 데이터 로드
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_breast_cancer

def make_dataset():
    bc = load_breast_cancer()
    df = pd.DataFrame(bc.data, columns=bc.feature_names)
    df['target'] = bc.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

# 1. 의사결정 나무 (Decision Tree)
- 트리의 루트(root)에서 시작해서 정보이득이 최대가 되는 특성으로 데이터를 분류합니다.
- 지도학습 알고리즘 (분류, 회귀) 에 모두 사용 가능
- 직관적 모델 형태   
- 정보 이득(info gain = 1-불순도) 가 최대가 되는 특성을 나누는 기준은 ‘지니’, & ‘엔트로피’
- 데이터가 1개 종류뿐이면 지니/엔트로피 불순도는 0에 가깝다.
- 서로 다른 데이터 비율이 비슷하면 불순도는 1에 가깝다

In [2]:
from sklearn.tree import DecisionTreeClassifier

In [6]:
#random state 값 무조건 지정해주기

model = DecisionTreeClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
pred

array([1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 1, 0,
       0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0,
       1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0,
       1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0,
       1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1])

In [7]:
#정확도 검증 (accuracy_score(실제값, 예측값))

accuracy_score(y_test, pred)

0.9263157894736842

# 의사결정나무 하이퍼 파라미터
- criterion(기본값 gini) : 불순도 지표 (혹은 엔트로피 entropy)
- max depth(기본값 None) : 최대한도 깊이 (지정 안해줄 경우 overfitting될 수 있다)
- min_samples_split(기본값 2) : 자식 노드 갖기 위한 최소한의 데이터 수
- min_samples_leaf (기본값 1) : 잎 노드가 되기 위한 최소한의 샘플 수

In [45]:
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion = 'entropy', 
    max_depth =4, 
    min_samples_split = 5,
    min_samples_leaf=2, 
    random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9403508771929825

# 2. 랜덤 포레스트
- 지도학습 알고리즘 (분류, 회귀) 에 모두 사용 가능
- 의사결정 나무의 앙상블
- 성능이 좋다 (overfitting 가능성 낮음)
- 부트스트랩 샘플링 (데이터셋 중복 허용)
- 최종 다수결 투표 형식
- 배깅 : 같은 알고리즘으로 여러 모델 만들어 분류 (랜덤 포레스트)
- 부스팅 : 학습, 예측하며 가중치 반영 (xgboost)


In [46]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(random_state=0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9438596491228071

# 랜덤포레스트 하이퍼 파라미터
- n_estimators (기본값100) : 트리의 수
- criterion(기본값 gini) : 불순도 지표
- max depth(기본값 None) : 최대한도 깊이
- min_samples_split
- min_samples_leaf

In [49]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(n_estimators=100, max_depth=3, random_state=0)
model.fit(X_train,y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

#0.9473684210526315 , n_estimators=200, max_depth=3 

0.9438596491228071

# 3. XgBoost
- eXtreme Gradient Boosting
- 부스팅(앙상블) 기반 알고리즘
- 트리 앙상블 중 성능이 좋은 알고리즘    

  
- booster(기본값 gbtree): 부스팅 알고리즘 (또는 dart, gblinear)
- objective(기본값 binary:logistic): 이진분류 (다중분류: multi:softmax)
- max_depth(기본값 6): 최대 한도 깊이
- learning_rate(기본값 0.1): 학습률
- n_estimators(기본값 100): 트리의 수
- subsample(기본값 1): 훈련 샘플 개수의 비율
- colsample_bytree(기본값 1): 특성 개수의 비율
- n_jobs(기본값 1): 사용 코어 수 (-1: 모든 코어를 다 사용)

In [51]:
from xgboost import XGBClassifier
model = XGBClassifier(random_state=0, use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9508771929824561

# XgBoost 하이퍼파라미터

In [58]:
from xgboost import XGBClassifier
model = XGBClassifier(
    random_state=0,
    use_label_encoder=False,
    eval_metric='logloss',
    booster= 'gbtree',
    objective='binary:logistic',
    max_depth=5,
    learning_rate=0.05,
    n_estimators=500,
    subsample=1,
    colsample_bytree=1,
    n_jobs = -1)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

#0.9649122807017544 max_depth=4


0.9649122807017544

In [62]:
# 조기 종료 (ex. 10번을 돌렸는데 성능이 더 좋아지지 않으면 멈춰라. (숫자가 작아질수록 좋은거))

model = XGBClassifier(
    random_state=0,
    use_label_encoder=False,
    eval_metric='logloss',
    learning_rate=0.07,
    n_estimators=500)


eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set=eval_set, early_stopping_rounds= 10)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

[0]	validation_0-logloss:0.63880
[1]	validation_0-logloss:0.59157
[2]	validation_0-logloss:0.55021
[3]	validation_0-logloss:0.51449
[4]	validation_0-logloss:0.48246
[5]	validation_0-logloss:0.45355
[6]	validation_0-logloss:0.42780
[7]	validation_0-logloss:0.40420
[8]	validation_0-logloss:0.38292
[9]	validation_0-logloss:0.36367
[10]	validation_0-logloss:0.34635
[11]	validation_0-logloss:0.33034
[12]	validation_0-logloss:0.31616
[13]	validation_0-logloss:0.30343
[14]	validation_0-logloss:0.29195
[15]	validation_0-logloss:0.28100
[16]	validation_0-logloss:0.27132
[17]	validation_0-logloss:0.26184
[18]	validation_0-logloss:0.25334
[19]	validation_0-logloss:0.24553
[20]	validation_0-logloss:0.23862
[21]	validation_0-logloss:0.23211
[22]	validation_0-logloss:0.22642
[23]	validation_0-logloss:0.22168
[24]	validation_0-logloss:0.21725
[25]	validation_0-logloss:0.21317
[26]	validation_0-logloss:0.20890
[27]	validation_0-logloss:0.20540
[28]	validation_0-logloss:0.20107
[29]	validation_0-loglos

0.9473684210526315

# 4. 교차검증
- 전체데이터에서 KFold(k=5)데이터를 5개로 쪼개서, 4개는 학습용, 1개는 검증용으로 사용

# KFold 
- 가장 일반적으로 사용되는 교차검증 기법

In [75]:
def make_dataset2():
    bc = load_breast_cancer()
    df = pd.DataFrame(bc.data, columns=bc.feature_names)
    df['target'] = bc.target
    return df.drop('target', axis=1), df['target']
X, y = make_dataset2()

In [80]:
from sklearn.model_selection import KFold

model = DecisionTreeClassifier(random_state=0)

kfold = KFold(n_splits=5)

for train_idx, test_idx in kfold.split(X):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
    
    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))

0.8771929824561403
0.9122807017543859
0.9473684210526315
0.9385964912280702
0.8407079646017699


# StratifiedKfold
- 불균형한 타겟(y)비율 가진 데이터를 확인하고, 이것이 한쪽으로 치우치는 것을 방지

In [82]:
from sklearn.model_selection import StratifiedKFold

model = DecisionTreeClassifier(random_state=0)

kfold = StratifiedKFold(n_splits=5)

for train_idx, test_idx in kfold.split(X, y):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]
    
    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))

0.9035087719298246
0.9210526315789473
0.9122807017543859
0.9473684210526315
0.9026548672566371


* 편차가 줄어들었다. 그냥 KFold는 84-94% 범위였지만, StratifiedKfold는 90-94%

# 사이킷런 교차 검증
- fit- predict - evaluation

In [83]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=3)
scores

array([0.88947368, 0.94210526, 0.86243386])

In [84]:
scores.mean()

0.8980042699340944

In [87]:
# 교차검증 Stratified Kfold

kfold = StratifiedKFold(n_splits=5)
scores = cross_val_score(model, X, y, cv=kfold)
scores

array([0.90350877, 0.92105263, 0.9122807 , 0.94736842, 0.90265487])

# 5. 평가
- Accuracy : 실제값, 예측값 일치 비율 
- precision : 양성으로 예측한 값 중 실제 양성인 값 (precision, recall은 역의 관계)
- recall : 실제 양성 값 중 양성으로 예측한 값
- F1 : precision, recall의 조화평균
- ROC-AUC 
    - ROC(참 양성비율에 대한 거짓양성비율)
    - AUC(ROC곡선 면적 아래. 완벽히 분류되면 AUC=1)

In [88]:
# accuracy

from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.9026548672566371

In [89]:
# precision

from sklearn.metrics import precision_score
precision_score(y_test, pred)

0.9545454545454546

In [90]:
# recall

from sklearn.metrics import recall_score
recall_score(y_test, pred)

0.8873239436619719

In [91]:
# f1 score

from sklearn.metrics import f1_score
f1_score(y_test, pred)

0.9197080291970803

In [96]:
# roc_auc (predict_proba 가 중요!)

from sklearn.metrics import roc_auc_score
model = XGBClassifier(random_state=0, use_label_encoder=False, eval_metric='logloss')
model.fit(X_train, y_train)
pred = model.predict_proba(X_test)
pred

roc_auc_score(y_test, pred[:, 1])

0.999664654594232