In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

# 앙상블 학습 : 배깅(bagging)

- Bootstrap Aggregation
- 같은 알고리즘으로 여러 개의 예측기를 만들어서 보팅으로 최종 결정하는 알고리즘

- 대표적 배깅 알고리즘 : 랜덤 포레스트    

## 랜덤 포레스트(Random Forest)

- 다재 다능한 알고리즘
- 앙상블 알고리즘 중 수행 속도가 빠르고
- 다양한 영역에서 높은 예측 성능을 보임
- 기반 알고리즘은 결정 트리
    - 결정 트리의 쉽고 직관적인 장점을 그대로 채택
- 대부분의 부스팅 기반의 다양한 알고리즘 역시 결정 트리 알고리즘을 기반 알고리즘으로 채택

### 랜덤 포레스트의 예측 결정 방식

- 여러 개의 결정 트리 예측기가 
- 전체 데이터에서 **배깅 방식**으로 각자의 데이터를 **샘플링**하여
- **개별적으로 학습**을 수행한 뒤
- 개별 예측기의 결과들을 **보팅을 통해 최종 예측값**으로 결정

![image-2.png](attachment:image-2.png)

### 랜덤 포레스트에서의 부트스트래핑 샘플링 방식

**부트스트래핑(bootstrapping) 분할 방식**
- 개별 Classifier에게 데이터를 샘플링해서 추출하는 방식
- 각 샘플링된 데이터 내에는 중복 데이터 포함

**랜덤 포레스트 부트 부트 스트래핑 분할**
- 개별적인 분류기의 기반 알고리즘은 결정 트리
- 개별 트리가 학습하는 데이터 세트는 전체 데이터에서 일부가 중복되게 샘플링된 데이터 세트
- Subset 데이터는 이러한 부트 스트래핑으로 데이터가 임의로 만들어짐
- Subset 데이터 건수는 전체 데이터 건수와 동일하지만 개별 데이터가 중복되어 만들어짐


- 예 : 원본 데이터 건수가 10개인 학습 데이터 세트

![image-2.png](attachment:image-2.png)

### 사이킷런의 랜덤포레스트 클래스

- https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

- n_estimators : 결정트리의 개수, 기본값은 100개
    - 많이 설정할수록 좋은 성능을 기대할 수 있으나, 
    - 트리 수를 증가시킨다고 성능이 무조건 향샹되는 것은 아니며,
    - 트리 수를 증가시킬수록 학습 수행 시간이 오래 걸림
- criterion : 트리 불순도 측정지표, 기본값은 'gini'
- bootstrap : 트리 생성 시 bootstrap samples 이용할 지 여부 지정, 기본값은 'True'

### 랜덤 포레스트 실습.  유방암 악성/양성 분류

#### 모듈 임포트

#### 데이터세트 로딩

#### Split Dataset

#### 랜덤 포레스트로 학습/예측/평가

#### 피처 중요도 시각화 함수 작성

### GridSearchCV로 교차검증 및 하이퍼 파라미터 튜닝

#### GridSearchCV의 인수 설정

- n_estimators=100
- cv=2
- n_jobs=-1
     - 멀티코어 환경에서는 n_jobs=-1로 추가하면 모든 CPU 코어 이용해 빠르게 학습됨
    
    
- 그래디언트 부스팅보다 예측 성능이 약간 떨어지더라도, 랜덤포레스트로 기반 모델을 먼저 구축하는 경우가 많음

#### 튜닝된 하이퍼 파라미터로 재학습 및 예측/평가

#### 개별 feature들의 중요도 시각화

- feature_importances_ 속성 이용

------------------------------------------------------------------------------------