## 시작전 - Bagging의 단점
- Bagging(bootstrap aggregating)
  - Bagging model(여러 트리드)의 분산은 각각 트리들의 분산과 그들의 공분산으로 이루어져있다.
  - $Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)$
- $2Cov(X,Y)$에 중점
  - 전체데이터에서 복원 추출하였으나, 각각의 트리들은 중복되는 데이터를 다수 가지고 있기 때문에 독립이라는 보장이 없다.
  - 이는 $Cov(X,Y)=0$이라는 조건을 만족하지 못한다는 뜻임(비슷한 tree가 만들어질 확률 높음)
  - 이는 또 Tree가 증가함에 따라 모델 전체의 분산이 증가할 수 있다는 뜻
  - **결론적으로 각 Tree간 공분산을 줄일 수 있는 방법이 필요함**

## RandomForest의 콘셉트

- 데이터 뿐만이 아니라, 변수도 random하게 뽑아서 다양한 모델을 만들자!
  - base learner간의 공분산을 줄이자!
  ![ex2.jpg](attachment:ex2.jpg)

- 뽑을 변수의 수는 hyper parameter(사용자 지정)
  - 모델의 분산을 줄여 일반적으로 Bagging보다 성능이 좋다.

## RandomForest 실습

In [1]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
os.getcwd()

'C:\\Users\\mitha\\OneDrive\\바탕 화면\\dev\\My_First_ML\\Ensemble_Learning'

In [3]:
data=pd.read_csv('C:/Users/mitha/OneDrive/바탕 화면/otto_train.csv')
data.head()

Unnamed: 0,id,feat_1,feat_2,feat_3,feat_4,feat_5,feat_6,feat_7,feat_8,feat_9,...,feat_85,feat_86,feat_87,feat_88,feat_89,feat_90,feat_91,feat_92,feat_93,target
0,1,1,0,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,Class_1
1,2,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,Class_1
2,3,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,0,Class_1
3,4,1,0,0,1,6,1,5,0,0,...,0,1,2,0,0,0,0,0,0,Class_1
4,5,0,0,0,0,0,0,0,0,0,...,1,0,0,0,0,1,0,0,0,Class_1


In [4]:
nCar=data.shape[0]
nVar=data.shape[1]
print(nCar)
print(nVar)

61878
95


## 의미가 없다고 판단되는 변수 제거

In [5]:
data=data.drop(['id'],axis=1)

## 타겟 변수의 문자열을 숫자로 변환

In [11]:
mapping_dict={
    'Class_1':1,
    'Class_2':2,
    'Class_3':3,
    'Class_4':4,
    'Class_5':5,
    'Class_6':6,
    'Class_7':7,
    'Class_8':8,
    'Class_9':9
}

In [12]:
after_mapping_target=data['target'].apply(lambda x: mapping_dict[x])

## 설명변수와 타겟변수를 분리. 학습데이터와 평가데이터 분리

In [15]:
feature_columns=list(data.columns.difference(['target']))
X=data[feature_columns]
y=after_mapping_target
train_x,test_x,train_y,test_y=train_test_split(X,y,test_size=0.2,random_state=42)

## 학습 데이터를 랜덤포레스트 모형에 적합 후 평가데이터로 검증

In [18]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
clf=RandomForestClassifier(n_estimators=20, max_depth=5, random_state=0)
clf.fit(train_x,train_y)

RandomForestClassifier(max_depth=5, n_estimators=20, random_state=0)

In [19]:
pred1=clf.predict(test_x)
accuracy_score(test_y,pred1)

0.5929217840982547

- 59퍼센트 적중함을 알 수 있음

## 트리를 많이 만들어보자

In [20]:
clf2=RandomForestClassifier(n_estimators=300, max_depth=5, random_state=0)
clf2.fit(train_x,train_y)
pred2=clf2.predict(test_x)
accuracy_score(test_y,pred2)

0.608678086619263

## 트리의 깊이를 늘려보는건?

In [21]:
clf3=RandomForestClassifier(n_estimators=100, max_depth=20, random_state=0)
clf3.fit(train_x,train_y)
pred3=clf3.predict(test_x)
accuracy_score(test_y,pred3)

0.7798157724628313

## 트리의 깊이를 최대로!

In [22]:
clf3=RandomForestClassifier(n_estimators=100, max_depth=100, random_state=0)
clf3.fit(train_x,train_y)
pred3=clf3.predict(test_x)
accuracy_score(test_y,pred3)

0.8119747899159664

- **여러가지로 Hyper Parameter를 조정하면서 최적의 값을 찾아내는게 중요하다.**