# 랜덤포레스트
- Bagging의 확장판
- Bagging의 데이터 샘플링 방식 + 다수결 / 평균을 사용
- 각 노드에서 분할 할때 모든 특성(피쳐) 중 일부만 무작위 선택 -> 트리간의 상관성을 낮춰준다, 다양성 증가
- 여러 결정 트리를 서로 다르게 학습 시킨 뒤 투표(분류) 또는 평균(회귀)으로 예측하는 Bagging기반의 앙상블 모델
- 부트스트랩 샘플링(중복 허용 데이터셋)과 특성을 무작위로 선택하여 모델간의 상관성을 줄여 성능과 안전성을 높이는 방법
- 고차원 데이터에서 안전성
- 대부분의 실무에서 많이 사용이 되는 알고리즘

- 매개변수 
    - n_estimators
        - 기본값 : 100
        - 모델의 생성 개수
    - criterion
        - 분류 : gini(기본값), entopy, log_loss
        - 회귀 : Squared_error(기본값), absolute_error, friedman_mse, poisson
    - max_depth
        - 기본값 : None
        - 트리의 최대 깊이
    - bootstrap
        - 기본값 : True
        - 트리 학습에서 부트스트랩을 사용 여부
    - max_features
        - 분류의 기본값 : "sqrt" (피쳐의 개수의 루트 값)
        - 회귀의 기본값 : 1.0 (모든 피쳐)
        - 가능한 값 : int, float(0~1), 'sqrt', 'log2'
    - min_sample_leaf
        - 기본값 : 1
        - 리프노드의 최소의 샘플수
        - 값이 크면 -> 리프가 너무 세분화되는 것을 방지하여 과적합 방지
    - max_leaf_node
        - 기본값 : None
        - 트리 전체에서 리프 노드의 개수 제한
        - 너무 많은 리프가 생성 -> 과적합
        - 너무 적은 리프 생성 -> 단순화되어 성능 저하
    - min_weight_fraction_leaf
        - 기본값 : 0.0
        - 샘플 가중치의 합이 전체 데이터에서 차지하는 최소의 비율
        - 데이터가 불균형 문제를 가지고 있는 경우 값들을 변경하여 유용
    - oob_score
        - 기본값 : False
        - 부투스트랩에서 빠진 샘플을 이용하여 검증 점수를 추청
    - max_sample
        - 기본값 : None
        - bootstrap이 true일 때, 각 트리가 사용할 샘플 수(비율)
- 속성
    - estimators_
        -개별 결정트링들의 리스트
    - feature_importances_
        - 피쳐들의 중요도
    - n_feature_in_ / feature_names_in_
        - 입력이 되는 피쳐의 개수 / 입력이 되는 피쳐의 이름들
    - oob_score_
        - OOB 점수 (oob_score 매개변수가 True 일때)
    - oob_decision_function_
        - 분류 사용 가능
        - OOB 데이터들의 확률 / 결정함수
    - oob_prediction_
        - 회귀 사용 가능
        - OOB 예측값
- 메서드
    - fit(x, y)
        - 모델의 학습
    - predict(x, y)
        - 예측값 출력
    - score(x, y)
        - 분류에서는 정확도 / 회귀에서는 R2_score
    - apply(x)
        - 각 샘플이 각 트리에서 도달하는 리프 인덱스를 변환
    - decision_path(x)
        - 트리 내의 경로


In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, precision_score, recall_score, f1_score, accuracy_score
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor

In [2]:
body = pd.read_csv("../data/bodyPerformance.csv")
body['gender'] = np.where(body['gender'] == 'M', 0, 1)
body['class'] = body['class'].map(
    {
        'A' : 0,
        'B' : 1,
        'C' : 2,
        'D' : 3
    }
)
feature_names = body.columns.difference(['class'])
x = body[feature_names].values
y = body['class']

X_train, X_test, Y_train, Y_test = train_test_split(
    x, y,
    test_size=0.3,
    random_state=42,
    stratify=y
)

In [None]:
# 랜덤포레스트 모델을 생성한다.
rfc = RandomForestClassifier()