# 3-3 랜덤포레스트

* 의사결정 나무가 여러개 있는 형태. ( 앙상블 )
* 성능 좋은 편 ( 오버피팅 - 과대적합 - 가능성이 낮음 ) . 여러 트리 모델이 결과를 투표함. ( 결과 수가 많은 것으로 솔루션을 냄 )
* 모델학습방법 : 부트스트랩 샘플링 ( 데이터셋 중복 허용 )
* 앙상블
    * 배깅 : 같은 알고리즘(ex. 의사결정나무 ) 으로 여러 모델을 만들어 분류 함 ( ex. 랜덤포레스트 )
    * 부스팅 : 학습과 예측을 하면서 가중치 반영 ( ex. xgboost )

In [39]:
# 데이터 생성
from sklearn.datasets import load_breast_cancer
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

def make_dataset():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    X_train, X_test, y_train, y_test = train_test_split(
        df.drop('target', axis=1), df['target'], test_size=0.5, random_state=1004)
    return X_train, X_test, y_train, y_test

X_train, X_test, y_train, y_test = make_dataset()
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((284, 30), (285, 30), (284,), (285,))

## 랜덤포레스트

In [40]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=0) # random_state 고정

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9438596491228071

## 랜덤포레스트 하이퍼파라미터

* <span style="background-color:#fff5b1">n_estimators (기본값 100)</span> : 트리의 수. <u>가장 많이 신경 쓰고 변경하게 됨.</u> 값을 올리면 속도는 떨어짐.
* criterion (기본값 gini) : 불순도 지표
* max_depth (기본값 None) : 최대 한도 깊이
* min_samples_split (기본값 2) : 자식 노드를 갖기 위한 최소한의 데이터 수
* min_samples_leaf (기본값 1) : 리프 노드가 되기 위한 최소 샘플 수

In [41]:
# 랜덤포레스트 하이퍼파라미터
model = RandomForestClassifier(
    random_state=0
    , n_estimators = 500  
    , max_depth = 3  
) # random_state 고정

# 파라미터 바꿔가며 결과 비교
# max_depth=1 0.9157894736842105
# max_depth=3 0.9473684210526315

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9403508771929825

# 3-4. xgboost

* 트리 앙상블 중 성능이 좋은 알고리즘
* eXtreme Gradient Boosting를 줄여서 XGBoost라고 함.
* 약한 학습기가 계속해서 업데이트를 하며 좋은 모델을 만들어 감.
* 부스팅(앙상블) 기반의 알고리즘
* 캐글(글로벌 AI 경진대회)에서 뛰어난 성능을 보이면서 인기가 높아짐.

In [42]:
from xgboost import XGBClassifier

model = XGBClassifier(use_label_encoder=False , eval_metric='logloss', random_state=0 ) 
# random_state 고정 / 워닝떠서 추가 : use_label_encoder=False 

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9508771929824561

##  xgboost 하이퍼 파라미터

* booster (기본값 gbtree) : 부스팅 알고리즘 (또는 dart, gblinear)
* objective (기본값 binary:logistic - 이진분류 ) ( multi:softmax - 다중분류 )
* max_depth (기본값 6) : 최대 한도 깊이
* <span style="background-color:#fff5b1">learning_rate (기본값 0.1)</span> : 학습률. 
  경사하강법을 통해  기울기가 0인 지점을 찾아감. 기본값 0.1 일 경우 0.1의 간격(보폭)으로 0 인 지점을 찾아 내려감.
* <span style="background-color:#fff5b1">n_estimators (기본값 100)</span> : 트리의 수. 좀 다른 개념. 트리가 학습한 결과를 다음 트리가 받아 학습함. <u>learning_rate 를 낮췄을 경우, n_estimators 이 값도 낮추면 속도 더욱 느려짐.</u>
* subsample (기본값 1) : 훈련 샘플 개수의 비율
* colsample_bytree (기본값 1) : 특성 개수의 비율
* n_jobs (기본값 1) : 사용 cpu 코어 수 (-1: 모든 코어를 다 사용)

In [43]:
model = XGBClassifier( use_label_encoder=False , eval_metric='logloss', random_state=0 
                    , booster = 'gbtree'
                    , objective = 'binary:logistic'
                    , max_depth = 5
                    , learning_rate = 0.05
                    , n_estimators = 500
                    , subsample = 1
                    , colsample_bytree = 1
                    , n_jobs   = -1
                     ) 
# max_depth = 3 : 0.9578947368421052

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)

0.9649122807017544

## 조기종료 시키기

In [44]:

model = XGBClassifier(use_label_encoder=False , eval_metric='logloss', random_state=0 
                    , learning_rate = 0.05
                    , n_estimators = 500
                     ) 
# random_state 고정 / 워닝떠서 추가 : use_label_encoder=False 

## 검증데이터 가져 오기
eval_set = [(X_test, y_test)]

# 학습
model.fit(X_train , y_train, eval_set = eval_set , early_stopping_rounds = 10) 
# eval_test - 검증 데이터 set도 함께 넣음
# early_stopping_rounds = 10  - 성능향상이 없으면 종료 하도록. 여기서는 10회 이상 성능향상이 없으면 종료.

# 예측
pred = model.predict(X_test)

# 평가
accuracy_score(y_test, pred)


# validation_0-logloss: 0.xxxx 는 작으면 작을 수록 좋음.

[0]	validation_0-logloss:0.65391
[1]	validation_0-logloss:0.61861
[2]	validation_0-logloss:0.58697
[3]	validation_0-logloss:0.55756
[4]	validation_0-logloss:0.53038
[5]	validation_0-logloss:0.50611
[6]	validation_0-logloss:0.48363
[7]	validation_0-logloss:0.46304
[8]	validation_0-logloss:0.44332
[9]	validation_0-logloss:0.42512
[10]	validation_0-logloss:0.40821
[11]	validation_0-logloss:0.39260
[12]	validation_0-logloss:0.37838
[13]	validation_0-logloss:0.36512
[14]	validation_0-logloss:0.35276
[15]	validation_0-logloss:0.34090
[16]	validation_0-logloss:0.33018
[17]	validation_0-logloss:0.31967
[18]	validation_0-logloss:0.30998
[19]	validation_0-logloss:0.30105
[20]	validation_0-logloss:0.29259
[21]	validation_0-logloss:0.28478
[22]	validation_0-logloss:0.27725
[23]	validation_0-logloss:0.27027
[24]	validation_0-logloss:0.26359
[25]	validation_0-logloss:0.25755
[26]	validation_0-logloss:0.25139
[27]	validation_0-logloss:0.24593
[28]	validation_0-logloss:0.24103
[29]	validation_0-loglos

0.9473684210526315

In [45]:
# 71번부터 성능 향상이 없으므로, 종료 됨.

# 3-5 교차검증
## KFold
* 일반적으로 사용되는 교차 검증 기법

In [51]:
# 데이터셋 로드
def make_dataset2():
    iris = load_breast_cancer()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris.target
    return df.drop('target', axis=1), df['target']
X, y = make_dataset2()

In [55]:
# KFold
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state = 0) # random_state 필수 지정


kfold = KFold( n_splits =5) # 5개로 구분하여 검증

for train_idx, test_idx in kfold.split(X) :
    X_train , X_test = X.iloc[train_idx] , X.iloc[test_idx]
    y_train , y_test = y.iloc[train_idx] , y.iloc[test_idx]
    # 앞 설명 그림 기준, 첫번째 for문 돌면 1~4 번까지는 X_Train 에 , 5번은 X_test 에 데이터 들어감
    #                    두번째 for문 돌면 1~3 번까지는 X_Train에 , 4번은 X_test 에 , 다시 5번에 X_train ... 이런식으로 5회 돌게 됨

    # 학습
    model.fit(X_train , y_train)
    # 예측
    pred = model.predict(X_test)
    # 평가
    print (accuracy_score(y_test, pred) )
    
# 검증데이터 마다 편차가 큼 ( 아래 결과 )

0.8771929824561403
0.9122807017543859
0.9473684210526315
0.9385964912280702
0.8407079646017699


## StratifiedKfold
* 분균형한 타켓 비율을 가진 데이터가 한쪽으로 치우치는 것을 방지

In [57]:
# Stratified KFold
from sklearn.model_selection import StratifiedKFold
from sklearn.tree import DecisionTreeClassifier

model = DecisionTreeClassifier(random_state = 0) # random_state 필수 지정


kfold = StratifiedKFold( n_splits =5) # 5개로 구분하여 검증

for train_idx, test_idx in kfold.split(X, y) :#  타깃 비율의 기울어짐을 방지해야 하니, y(target) 까지 넣어 줌. y데이터를 확인 후 split함
    X_train , X_test = X.iloc[train_idx] , X.iloc[test_idx]
    y_train , y_test = y.iloc[train_idx] , y.iloc[test_idx]
    # 앞 설명 그림 기준, 첫번째 for문 돌면 1~4 번까지는 X_Train 에 , 5번은 X_test 에 데이터 들어감
    #                    두번째 for문 돌면 1~3 번까지는 X_Train에 , 4번은 X_test 에 , 다시 5번에 X_train ... 이런식으로 5회 돌게 됨

    # 학습
    model.fit(X_train , y_train)
    # 예측
    pred = model.predict(X_test)
    # 평가
    print (accuracy_score(y_test, pred) )
    
# KFold와 달리 검증데이터 편차가 조정 됨 ( 아래 결과 )

0.9035087719298246
0.9210526315789473
0.9122807017543859
0.9473684210526315
0.9026548672566371


## 사이킷런 교차검증
* 사이킷런 내부 API를 통해 fit(학습) , predict(예측) , evaluation(평가) 함

In [61]:
# 교차검증
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model , X, y, cv =5)  # cv =3 3개로 데이터 나눔. for문 써서 검증하지 않고, 아래와 같이 결과 나옴. Kfold임.
scores

array([0.90350877, 0.92105263, 0.9122807 , 0.94736842, 0.90265487])

In [62]:
# 평균점수
scores.mean()

0.9173730787144851

In [65]:
# 교차검증  Stratified Kfold 로 해보기\
skfold = StratifiedKFold( n_splits =5) # 5개로 구분하여 검증
scores = cross_val_score(model , X, y, cv = skfold)  # cv 자리에 StratifiedKFold 넣으면 됨
scores

array([0.90350877, 0.92105263, 0.9122807 , 0.94736842, 0.90265487])

In [66]:
# 평균점수
scores.mean()

0.9173730787144851

# 3-6 평가 (분류)

* 정확도 accuracy: 실제 값과 예측값이 일치하는 비율
* <span style="background-color:#fff5b1">정밀도 precision</span>: 양성이라고 예측한 값 중 실제 양성인 값의 비율 (암이라고 예측 한 값 중 실제 암)
* <span style="background-color:#fff5b1">재현율 recall</span>: 실제 양성 값 중 양성으로 예측한 값의 비율 (암을 암이라고 판단)   
    * 정밀도 <--> 재현율  trade off 관계 
  
* F1: 정밀도와 재현율의 조화평균
* ROC-AUC
    * ROC: 참 양성 비율(True Positive Rate)에 대한 거짓 양성 비율(False Positive Rate) 곡선
    * AUC: ROC곡선 면적 아래 (완벽하게 분류되면 AUC가 1임)

![image.png](attachment:image.png)
    
푸른선 : 좋은 모델

주황선 : 좋지 못한 모델

In [68]:
# 정확도
from sklearn.metrics import accuracy_score

accuracy_score(y_test, pred)

0.9026548672566371

In [70]:
# 정밀도
from sklearn.metrics import precision_score
precision_score(y_test, pred)

0.9545454545454546

In [72]:
#재현율
# 정밀도
from sklearn.metrics import recall_score
recall_score(y_test, pred)

0.8873239436619719

In [71]:
# F1 ( 정밀도 , 재현율 조합평균 )
from sklearn.metrics import f1_score
f1_score(y_test, pred)

0.9197080291970803

In [77]:
#ROC-AUC : predict_proba 함수를 사용, 확률값으로 평가 함
from sklearn.metrics import roc_auc_score

model = XGBClassifier(use_label_encoder=False , eval_metric='logloss', random_state=0 ) 
# random_state 고정 / 워닝떠서 추가 : use_label_encoder=False 

# 학습
model.fit(X_train , y_train)

# 예측
pred = model.predict_proba(X_test)  # 예측 확률 임.

roc_auc_score(y_test, pred[:,1])


0.999664654594232