### 목표
    - sklearn의 dataset에서 유방암 데이터를 불러와서 악성, 양성 판단하는 앙상블 모델을 만들어 보자

In [105]:
# ex06_breastCancer_ensemble실습

#### Bagging:Random Forest Model

In [106]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split # train, test 분리도구
from sklearn.datasets import load_breast_cancer # 유방암 데이터 셋

In [107]:
cancer_data = load_breast_cancer()
cancer_data

# 번치객체
# 딕셔너리 유형
# keys()
cancer_data.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

In [108]:
# 문제 데이터 확인
cancer_data['data'] # =  cancer_data.data
cancer_data.data[0:3]
cancer_data.data.shape


(569, 30)

In [109]:
# 문제데이터 특성 이름 확인
cancer_data['feature_names'] # = cancer_Data.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [110]:
# 답 데이터 확인
cancer_data['target']   # = cancer_data.targer
# 0,1 - 정수형 답 데이터
cancer_data.target
print('클래스 종류 : ',np.unique(cancer_data.target))
print('악성/양성의 클래스 개수 : ',np.unique(cancer_data.target, return_counts=True))


클래스 종류 :  [0 1]
악성/양성의 클래스 개수 :  (array([0, 1]), array([212, 357], dtype=int64))


In [111]:
# 답 데이터 실제 이름 확인
cancer_data['target_names']     # = cancer_data.target_names
# 0 - 악성
# 1 - 양성

array(['malignant', 'benign'], dtype='<U9')

In [112]:
# 데이터 설명
cancer_data['DESCR']    # = cancer_data.DESCR

print(cancer_data.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

### Bagging:Random Forest Model
    - 몇 개의 트리를 만들지 선택 : n_estimators
    - 단일 결정 트리에서 한 것처럼 max_depth 등의 매개변수를 조정하여 사전 가지치기를 할 수 있음
    - 회귀와 분류 모두 사용

In [113]:
# tarin, test 생성
# 문제 : cancer_data.data
# 답 : cancer_data.target
# 7.5:2.5
# 랜덤 고정 값 5
X_train, X_test, y_train, y_test = train_test_split(cancer_data.data,cancer_data.target,test_size=0.25,random_state=5)

#크기 확인
print("문제데이터", X_train.shape, y_train.shape)
print("답 데이터", X_test.shape,y_test.shape)



문제데이터 (426, 30) (426,)
답 데이터 (143, 30) (143,)


In [114]:
# 모델 불러오기
from sklearn.ensemble import RandomForestClassifier # rf분류 모델

# 모델 객체 생성
rf_model = RandomForestClassifier(n_estimators=120,random_state=10)

# 모델 학습
rf_model.fit(X_train,y_train)

In [115]:
# 교차검증
# 훈련 데이터, 검증횟수 5
# 양이 많은 train를 통해서 val 만들어냄
from sklearn.model_selection import cross_val_score
cv_result1 = cross_val_score(rf_model,X_train,y_train,cv=5)


print('1모델', cv_result1, "\n", cv_result1.mean())

1모델 [0.97674419 0.92941176 0.94117647 0.98823529 0.90588235] 
 0.9482900136798905


In [116]:
# 예측
pre = rf_model.predict(X_test)
# 0,1 출력
pre
# 타겟 실제 이름으로 결과 출력
cancer_data.target_names[pre]

array(['malignant', 'benign', 'benign', 'benign', 'benign', 'malignant',
       'benign', 'benign', 'benign', 'benign', 'benign', 'benign',
       'malignant', 'benign', 'benign', 'benign', 'benign', 'benign',
       'benign', 'benign', 'malignant', 'benign', 'benign', 'benign',
       'benign', 'benign', 'benign', 'malignant', 'benign', 'malignant',
       'malignant', 'malignant', 'malignant', 'malignant', 'benign',
       'benign', 'malignant', 'benign', 'benign', 'malignant', 'benign',
       'benign', 'benign', 'malignant', 'benign', 'benign', 'malignant',
       'malignant', 'benign', 'malignant', 'benign', 'benign', 'benign',
       'benign', 'benign', 'malignant', 'malignant', 'malignant',
       'benign', 'malignant', 'malignant', 'malignant', 'benign',
       'benign', 'benign', 'benign', 'benign', 'benign', 'benign',
       'malignant', 'benign', 'malignant', 'benign', 'benign', 'benign',
       'benign', 'malignant', 'benign', 'malignant', 'malignant',
       'malignant', '

In [117]:
# 평가
# accuracy_score(y,pre) 정확도 확인
# model.score.(X,y)
rf_model.score(X_test,y_test)   # 약 98%

0.9790209790209791

#### GridSearchCV를 적용하여 모델의 성능 향상을 시켜보자
    - 최적의 하이퍼 파라미터 조합 확인하기

In [118]:
# RF 모델 - n_estimators, max_depth, min_samples_split, max_leaf_nodes

from sklearn.model_selection import GridSearchCV
# 교차검증을 통한 하이퍼파라미터 최적의 조합을 찾는 도구
# 1. 튜닝할 매개변수 성정 값 정의
params = {'n_estimators' : [60,80,100,120],
          'max_depth':[3,5,7],
          'max_leaf_nodes':[4,8],
          'min_samples_split':[3,5,7]
          }
# 랜덤포레스트 모델 객체 생성
model = RandomForestClassifier(random_state=5,)

# 그리드서치 모델 객체 생성
# n_jobs = -1(코어를 최대한 활용해라)
grid = GridSearchCV(model, params, cv=5, scoring='accuracy',n_jobs=-1)

# 학습실행
grid.fit(X_train,y_train)

In [119]:
# 가장 높은 성능일 때의 모델에 대한 파라미터 조합 확인
print('최고성능', grid.best_score_)
print('최고조합', grid.best_params_)


최고성능 0.94593707250342
최고조합 {'max_depth': 7, 'max_leaf_nodes': 8, 'min_samples_split': 5, 'n_estimators': 60}


#### 모델 완성 및 영향력 높은 특성 확인

In [120]:
# rf 모델 완성하기
rf_best = RandomForestClassifier(n_estimators=60,
                                 max_depth=7,
                                 max_leaf_nodes=8,
                                 min_samples_split=5,
                                 random_state=5)

# 모델 학습
rf_best.fit(X_train,y_train)
# 모델 특성의 중요도 출력
a = rf_best.feature_importances_
rf_fi_df= pd.DataFrame(a,
                       index=cancer_data.feature_names,
                       columns=['import'])   
rf_fi_df.sort_values(ascending=False,by='import').head()
# 일반화 모델 찾으려고 하이퍼 파라미터 등 찾는 것 -> 머신러닝

Unnamed: 0,import
worst perimeter,0.177822
worst concave points,0.146005
worst area,0.136283
mean concave points,0.12853
worst concavity,0.074088


#### boosting : AdaBoost(Adaptive) Model
    - rf모델처럼 의사결정나무 기반의 모델이지만 각각의 트리들이 독립적으로 존재하진 않음
    - 트리모델이 내부적으로 순차적으로 학습
    - n_estimators : 사용할 결정트리 분류 모델 개수
    - learning_rate : 학습률, 가중치 부여하는(갱신하는) 폭을 조정 / 0~1/ 기본값 1.0
    - 분류와 회귀 모두 사용 가능
    - 사전 가지치기를 사용할 수 없음
    

In [121]:
# Adaboost 모델
from sklearn.ensemble import AdaBoostClassifier

# 모델 객체 생성
# 트리모델 개수 : 5, 고정키워드 : 5, 학습률: 1.0
ada_model = AdaBoostClassifier(
    n_estimators=5,
    learning_rate=0.1,
    random_state=5
)

# 모델 학습
ada_model.fit(X_train,y_train)

# 모델 예측
pre_tr = ada_model.predict(X_train)
pre_te = ada_model.predict(X_test)

# 모델 평가

from sklearn.metrics import accuracy_score
# 1. accuracy_score(실제답, 예측값)
train_acc = accuracy_score(y_train, pre_tr)
test_acc = accuracy_score(y_test,pre_te)
print('train 정확도 : ', train_acc)
print('test 정확도 : ', test_acc)

# 2. 모델.sc
train_acc2 = ada_model.score(X_train,y_train)
test_acc2 = ada_model.score(X_test,y_test)
print('train2 정확도 : ', train_acc2)
print('test2 정확도 : ', test_acc2)


train 정확도 :  0.9366197183098591
test 정확도 :  0.951048951048951
train2 정확도 :  0.9366197183098591
test2 정확도 :  0.951048951048951


### GridSearchCV를 적용하여 모델의 성능 향상시키기


In [122]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

# 1. 튜닝할 매개변수 정의
params = {
    'n_estimators': [25, 50, 75],
    'learning_rate': [0.4, 0.6, 1.0]
}

# 2. 모델 객체 생성
model = GradientBoostingClassifier(random_state=5)

# 3. 1,2 내용 연결하면서 그리드서치객체 생성
grid = GridSearchCV(model, params, cv=5, scoring='accuracy', n_jobs=-1)

# 4. 학습 실행
grid.fit(X_train, y_train)

In [123]:
# 가장 높은 성능일 때의 모델에 대한 파라미터 조합 확인
print('최고성능', grid.best_score_)
print('최고조합', grid.best_params_)

최고성능 0.9553214774281805
최고조합 {'learning_rate': 1.0, 'n_estimators': 50}


In [124]:
ada_best = AdaBoostClassifier(n_estimators=75,
                              learning_rate=0.6,
                              random_state=5)

# 학습
ada_best.fit(X_train,y_train)

# 특성 중요도
# rf모델 비교해서 보기

fr_model = ada_best.feature_importances_
ada_fi_df= pd.DataFrame(fr_model,
                       index=cancer_data.feature_names,
                       columns=['import'])   
ada_fi_df.sort_values(ascending=False,by='import').head()


Unnamed: 0,import
worst texture,0.093333
area error,0.093333
worst area,0.08
worst concavity,0.066667
mean texture,0.066667


### Boosting : GradientBoosting Model
    - 여러 개의 결정 트리를 묶어 강력한 모델을 만드는 앙상블 방법
    - AdaBoost와 유사
    - 강력한 사전 가지치기를 사용
    - n_estimators : 예측기 개수 설정
    - learning_rate(학습률) : 가중치 갱신 변동폭을 조정, 0~1, 기본값 0.1
    - max_depth를 작게 설정하며 트리 깊이가 5보다 깊어지지 않게 함
    - 예측성능이 높지만 과대적합이 빠르게 되며, 시간이 오래걸린다는 단점이 있음

In [125]:
# gb 모델
from sklearn.ensemble import GradientBoostingClassifier
# 객체 생성
gb_model = GradientBoostingClassifier(
   random_state=5
)

# 학습
gb_model.fit(X_train,y_train)


# 모델 평가

tr_acc = gb_model.score(X_train,y_train)
te_acc = gb_model.score(X_test,y_test)

print('train2 정확도 : ', tr_acc)
print('test2 정확도 : ', te_acc)


train2 정확도 :  1.0
test2 정확도 :  0.9790209790209791


In [126]:
# 교차검증
# 여러번 테스트(검증) 데이터를 만들어서 각 정확도를 확인해보는 작업
# cv =5, gb_model

result = cross_val_score(gb_model,X_train,y_train,cv=5)


#### GridSearchCV를 적용하여 모델의 성능 향상
    - n_estimators, max_depth, learning_rate

In [127]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import GridSearchCV

# 1. 튜닝할 매개변수 정의
params = {'n_estimators': [50, 100, 200],
          'max_depth': [1, 2, 3, 4],
          'learning_rate': [0.1, 0.2, 0.4]}

# 2. 모델 객체 생성
model = GradientBoostingClassifier(random_state=5)

# 3. 1,2 내용 연결하면서 그리드서치객체 생성
grid = GridSearchCV(model, params, cv=5, scoring='accuracy', n_jobs=-1)

# 4. 학습 실행
grid.fit(X_train, y_train)


In [128]:
# 파라미터 조합, 성능확인
# 가장 높은 성능일 때의 모델에 대한 파라미터 조합 확인
print('최고성능', grid.best_score_)
print('최고조합', grid.best_params_)

최고성능 0.9647332421340629
최고조합 {'learning_rate': 0.2, 'max_depth': 1, 'n_estimators': 200}


In [132]:
# 최적의 모델 완성 후 특성 중요도 확인
gb_best = GradientBoostingClassifier(learning_rate= 0.2,
                           max_depth= 1,
                            n_estimators= 200)

#학습
gb_best.fit(X_train,y_train)

gb_model = gb_best.feature_importances_
gb_fi_df= pd.DataFrame(gb_model,
                       index=cancer_data.feature_names,
                       columns=['import'])   
gb_fi_df.sort_values(ascending=False,by='import').head()

Unnamed: 0,import
worst concave points,0.359023
worst perimeter,0.304067
mean concave points,0.152384
worst area,0.106141
worst concavity,0.017978


In [134]:
# 모델마다 중요하게 여기는 특성은 다르지만,
# worst 컬럼에 대한 내용이 주용하게 여겨지고 있음

#### XGBoost 모델
    - 결정 트리 기반의 앙상블 모델에서 각광받고 있는 모델 중 하나
    - 분류에 있어서 일반적으로 다른 머신러닝 모델보다 성능이 좋은 모델
    - gbm을 기반으로 하지만, early stopping(조기학습 중단)을 통해서 과대적합 방지하는 기능이 추가됨
    - 분류와 회귀 모두 사용이 가능하다

In [136]:
# jupyter 내부에서 설치 !pip
# prompt 설치 가능 pip ~
! pip install xgboost



In [140]:
from xgboost import XGBClassifier

# 객체 생성
xgb_model = XGBClassifier(random_state=5)

# 학습
xgb_model.fit(X_train,y_train)
# 예측
pre = xgb_model.predict(X_test)
print('예측결과 : ', pre)

# 평가 (train, test)
tr_acc = xgb_model.score(X_train,y_train)
te_acc = xgb_model.score(X_test,y_test)

print('훈련정확도 : ', tr_acc)
print('test 정확도 : ', te_acc)

예측결과 :  [0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 0
 1 1 0 1 1 1 0 1 1 0 0 1 0 1 1 1 1 1 0 0 0 1 0 0 0 1 1 1 1 1 1 1 0 1 0 1 1
 1 1 0 1 0 0 0 1 0 0 0 1 0 1 0 0 0 0 1 1 0 0 1 1 1 1 1 0 1 1 0 0 1 0 1 0 1
 0 0 0 1 1 0 1 0 1 1 1 0 1 0 1 0 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1]
훈련정확도 :  1.0
test 정확도 :  0.9790209790209791
