##### 05 지도학습 (분류)

## 1. 의사결정나무

- 지도학습 알고리즘(분류, 회귀)
- 직관적인 알고리즘
- 과대적합되기 쉬운 알고리즘(트리 깊이 제한 필요)
- 정보이득(Information gain)이 최대가 되는 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'가 사용됨
- 데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가까움, 서로 다른 데이터의 비율이 비슷하면 1에 가까움
- 정보이득(1-불순도)이 최대인 값을 찾아 나가게 됨.

### 노드5. 지도학습(분류)

- 분류 모델
    - 의사결정나무
    - 랜덤 포레스트
    - xgboost
- 교차 검증
- 평가(분류)

In [2]:
#라이브러리 불러오기
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

### 데이터 불러오기

In [3]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer

def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns = iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(df.drop('target', axis = 1), df['target'], test_size = 0.5, random_state = 1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

In [4]:
# 타겟 확인
y_train.value_counts()

1    190
0     94
Name: target, dtype: int64

### 의사결정나무

- 지도학습(분류)에서 가장 유용하게 사용되고 있는 기법 중 하나임
- 트리의 루트(root)에서 시작해서 정보이득이 최대가 되는 특성으로 데이터를 나눔
- 정보이득(Information gain)이 최대가 되는 특성을 나누는 기준(불순도를 측정하는 기준)은 '지니'와 '엔트로피'가 사용됨
    - 데이터가 한 종류만 있다면 엔트로피/지니 불순도는 0에 가까움, 서로 다른 데이터의 비율이 비슷하면 1에 가까움
    - 정보이득(1-불순도)이 최대인 값을 찾아 나가게 됨.

In [5]:
# 의사결정나무
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(random_state = 0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9263157894736842

### 의사결정나무 하이퍼파라미터

- criterion(기본값 gini): 불순도 지표 (또는 엔트로피 불순도 entropy)
- max_depth(기본값 None): 최대 한도 깊이
- max_leaf_modes(기본값 None): 리프 노드의 최대 개수
- min_samples_split(기본값 2): 자식 노드를 갖기 위한 최소한의 데이터 수
- min_samples_leaf(기본값 1): 리프 노드가 되기 위한 최소 샘플 수

In [6]:
# 의사결정나무 하이퍼파라미터
from sklearn.tree import DecisionTreeClassifier
model = DecisionTreeClassifier(
    criterion = 'entropy',
    max_depth = 4,
    min_samples_split = 5,
    min_samples_leaf = 2,
    random_state = 0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9403508771929825

##### 05 지도학습 (분류)

## 2. 랜덤포레스트

- 지도학습 알고리즘 (분류, 회귀)
- 의사결정나무의 앙상블
- 여러개의 의사결정나무로 구성
- 성능이 좋음 (과대적합 가능성 낮음)
- 앙상블 방법 중 배깅(bagging) 방식
- 부트스트랩 샘플링 (데이터셋 중복 허용)
- 최종 다수결 투표
- 앙상블
    - 배깅: 같은 알고리즘으로 여러 모델을 만들어 분류함.(랜덤 포레스트)
    - 부스팅: 학습과 예측을 하면서 가중치 반영 (xgboost)

In [74]:
# 랜덤포레스트
from sklearn.ensemble import RandomForestClassifier
model = DecisionTreeClassifier(random_state = 0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9263157894736842

### 랜덤포레스트 하이퍼파라미터

- n_estimators(기본값 100):트리의 수
- criterion(기본값 gini): 불순도 지표 (또는 엔트로피 불순도 entropy)
- max_depth(기본값 None): 최대 한도 깊이
- min_samples_split(기본값 2): 자식 노드를 갖기 위한 최소한의 데이터 수
- min_samples_leaf(기본값 1): 리프 노드가 되기 위한 최소 샘플 수

In [75]:
# 랜덤포레스트 하이퍼파라미터
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(
    n_estimators= 500,
    max_depth = 5,
    random_state = 0)
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

# 0.9473684210526315 max_depth = 3

0.9473684210526315

##### 05 지도학습 (분류)

## 3. XGBoost

- eXtreme Gradient Boosting (익스트림 그레이던트 부스팅)
- 부스팅(앙상블) 기반의 알고리즘
- 트리 앙상블 중 성능이 좋은 알고리즘
- 캐글(글로벌 AI 경진대회)에서 뛰어난 성능을 보이면서 인기가 높아짐

### xgboost

- 부스팅(앙상블) 기반의 알고리즘
- 캐글(글로벌 AI 경진대회)에서 뛰어난 성능을 보이면서 인기가 높아짐

In [76]:
# xgboost
from xgboost import XGBClassifier
model = XGBClassifier(random_state = 0,
                      use_label_encoder=False,
                      eval_metric = 'logloss')
model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

0.9508771929824561

- booster(기본값 gbtree): 부스팅 알고리즘 (또는 dart, gbilnear)
- objective(기본값 binary:logistic): 이진분류 (다중분류: multi:softmax)
- max_depth(기본값 6): 최대 한도 깊이
- learning_rate (기본값 0.1): 학습률  #학습률을 낮출수록 트리의 수를 높여야함.
    (경사하강법 생각)
- n_estimators(기본값 100): 트리의 수
- subsample(기본값 1): 훈련 샘플 개수의 비율
- colsample_bytree(기본값 1): 특성 개수의 비율
- n_jobs(기본값 1): 사용 코어 수 (-1: 모든 코어를 다 사용)

### xgboost 하이퍼파라미터

In [77]:
# xgboost 하이퍼파라미터
model = XGBClassifier(random_state = 0,
                      use_label_encoder=False,
                      eval_metric = 'logloss',
                      booster = 'gbtree',
                      objective = 'binary:logistic',
                      max_depth = 5,
                      learning_rate = 0.05,
                      n_estimators = 500,
                      subsample = 1,
                      colsample_bytree = 1,
                      n_jobs = -1
                      
# - booster(기본값 gbtree): 부스팅 알고리즘 (또는 dart, gbilnear)
# - objective(기본값 binary:logistic): 이진분류 (다중분류: multi:softmax)
# - max_depth(기본값 6): 최대 한도 깊이
# - learning_rate (기본값 0.1): 학습률  #학습률을 낮출수록 트리의 수를 높여야함.
#     (경사하강법 생각)
# - n_estimators(기본값 100): 트리의 수
# - subsample(기본값 1): 훈련 샘플 개수의 비율
# - colsample_bytree(기본값 1): 특성 개수의 비율
# - n_jobs(기본값 1): 사용 코어 수 (-1: 모든 코어를 다 사용)                     
                     )

model.fit(X_train, y_train)
pred = model.predict(X_test)
accuracy_score(y_test, pred)
#0.9614035087719298 depth = 5,

0.9649122807017544

In [58]:
# 조기종료
model = XGBClassifier(random_state = 0,
                      use_label_encoder=False,
                      eval_metric = 'logloss',
                      learning_rate = 0.05,
                      n_estimators = 500)
eval_set = [(X_test, y_test)]
model.fit(X_train, y_train, eval_set = eval_set, early_stopping_rounds=10)
pred = model.predict(X_test)
accuracy_score(y_test, pred)

[0]	validation_0-logloss:0.65391
[1]	validation_0-logloss:0.61861
[2]	validation_0-logloss:0.58697
[3]	validation_0-logloss:0.55756
[4]	validation_0-logloss:0.53038
[5]	validation_0-logloss:0.50611
[6]	validation_0-logloss:0.48363
[7]	validation_0-logloss:0.46304
[8]	validation_0-logloss:0.44332
[9]	validation_0-logloss:0.42512
[10]	validation_0-logloss:0.40821
[11]	validation_0-logloss:0.39260
[12]	validation_0-logloss:0.37838
[13]	validation_0-logloss:0.36512
[14]	validation_0-logloss:0.35276
[15]	validation_0-logloss:0.34090
[16]	validation_0-logloss:0.33018
[17]	validation_0-logloss:0.31967
[18]	validation_0-logloss:0.30998
[19]	validation_0-logloss:0.30105
[20]	validation_0-logloss:0.29259
[21]	validation_0-logloss:0.28478
[22]	validation_0-logloss:0.27725
[23]	validation_0-logloss:0.27027
[24]	validation_0-logloss:0.26359
[25]	validation_0-logloss:0.25755
[26]	validation_0-logloss:0.25139
[27]	validation_0-logloss:0.24593
[28]	validation_0-logloss:0.24103
[29]	validation_0-loglos

0.9473684210526315

##### 05 지도학습 (분류)

## 4. 교차 검증

### Kfold
- 일반적으로 사용되는 교차 검증 기법

In [81]:
# KFold
def make_dataset2():
    bc = load_breast_cancer()
    df = pd.DataFrame(bc.data, columns=bc.feature_names)
    df['target'] = bc.target
    return df.drop('target', axis=1), df['target']
X, y = make_dataset2()
from sklearn.model_selection import KFold
model = DecisionTreeClassifier(random_state = 0)

kfold = KFold(n_splits = 5)
for train_idx, test_idx in kfold.split(X):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))
    

0.8771929824561403
0.9122807017543859
0.9473684210526315
0.9385964912280702
0.8407079646017699


### StratifiedKfold
- 불균형한 타겟 비율을 가진 데이터가 한쪽으로 치우치는 것을 방지

In [79]:
# Stratified Kfold
from sklearn.model_selection import StratifiedKFold
model = DecisionTreeClassifier(random_state = 0)

kfold = StratifiedKFold(n_splits = 5)
for train_idx, test_idx in kfold.split(X, y):
    X_train, X_test = X.iloc[train_idx], X.iloc[test_idx]
    y_train, y_test = y.iloc[train_idx], y.iloc[test_idx]

    model.fit(X_train, y_train)
    pred = model.predict(X_test)
    print(accuracy_score(y_test, pred))
    

0.9035087719298246
0.9210526315789473
0.9122807017543859
0.9473684210526315
0.9026548672566371


### 사이킷런 교차검증
- 사이킷런 내부 API를 통해 fit(학습) - predict(예측) - evaluation(평가)

In [84]:
# 교차검증
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=3)
scores

array([0.88947368, 0.94210526, 0.86243386])

In [85]:
# 평균 점수
scores.mean()

0.8980042699340944

In [86]:
# 교차검증 Stratified Kfold
kfold = StratifiedKFold(n_splits = 5)
scores = cross_val_score(model, X, y, cv = kfold)
scores

array([0.90350877, 0.92105263, 0.9122807 , 0.94736842, 0.90265487])

In [88]:
# 평균 점수
scores.mean()

0.9173730787144851

##### 05 지도학습 (분류)

## 5. 평가(분류)

- **정확도 accuracy: 실제 값과 예측값이 일치하는 비율**
- **정밀도 precision: 양성이라고 예측한 값 중 실제 양성인 값의 비율 (암이라고 예측 한 값 중 실제 암)**
- **재현율 recall: 실제 양성 값 중 양성으로 예측한 값의 비율 (암을 암이라고 판단)**
- **F1: 정밀도와 재현율의 조화평균**
- **ROC-AUC**
    - **ROC: 참 양성 비율(True Positive Rate)에 대한 거짓 양성 비율(False Positive Rate) 곡선**
    - **AUC: ROC곡선 면적 아래 (완벽하게 분류되면 AUC가 1임)**

In [96]:
# 정확도
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)

0.8407079646017699

In [95]:
# 정밀도
from sklearn.metrics import precision_score
precision_score(y_test, pred)

0.96

In [97]:
# 재현율
from sklearn.metrics import recall_score
recall_score(y_test, pred)

0.8275862068965517

In [98]:
# F1
from sklearn.metrics import f1_score
f1_score(y_test, pred)

0.888888888888889

In [101]:
# roc_auc
from sklearn.metrics import roc_auc_score
model = XGBClassifier(random_state = 0,
                      use_label_encoder=False,
                      eval_metric = 'logloss')
model.fit(X_train, y_train)
pred = model.predict_proba(X_test)
roc_auc_score(y_test, pred[:,1])

1.0

- 실제 - , 예측- : TN (True Negative)
- 실제 - , 예측+ : FP (False Positive)
- 실제 + , 예측- : FN (False Negative)
- 실제 + , 예측+ : TP (True Positive)
    

위 표의 TN, Fp, FN, TP를 활용해하며 정확도, 정밀도, 재현율, F1 점수를 정의해주세요.

- 정확도(accuracy) = (TP + TN) / (TP + FP + FN + TN)
- 정밀도(precision) = TP / (TP + FP)
- 재현율(recall) = TP / (TP + FN)
- F1 = 2 * (정밀도 * 재현율) / (정밀도 + 재현율)