# 정형 데이터와 비정형 데이터
정형 데이터(머신러닝에 잘 맞음): 어떤 구조로 가지런히 정리되어 있는 데이터. csv나 데이터베이스, 엑셀에 저장하기 쉬움<br>
비정형 데이터(딥러닝에 잘 맞음): 데이터 베이스나 엑셀로 표현하기 어려운 것들(텍스트 데이터, 사진, 음악)

# 앙상블 학습
정형 데이터를 다루는 가장 좋은 알고리즘
ex) 랜덤 포레스트

#랜덤 포레스트(Random Forest)
앙상블 학습의 대표 주자 중 하나<br>
결정 트리를 랜덤하게 만들어서 결정 트리의 숲을 형성하는 알고리즘<br>
각 트리를 훈련하기 위한 데이터를 랜덤하게 뽑는데 이 데이터를 만드는 법이 독특하다.<br>
각 노드를 분할할 때, 전체 특성 중에서 일부 특성을 무작위로 고른 다음 이중에서 최선의 분할을 찾는다.<br>
RandomForestClassifier는 기본적으로 

---
ex) 트리 훈련 데이터<br>
예를 들어 1000개의 샘플이 있고 중복을 허용하여 1000개의 샘플을 뽑는다. 이것을 ***부트스트랩 샘플***이라고 한다.


In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
wine = pd.read_csv('https://bit.ly/wine_csv_data')
data = wine[['alcohol', 'sugar', 'pH']].to_numpy()
target= wine['class'].to_numpy()
train_input, test_input, train_target, test_target = train_test_split(data, target, test_size=0.2, random_state=42)

In [None]:
from sklearn.model_selection import cross_validate
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_jobs = -1, random_state=42)
score = cross_validate(rf, train_input, train_target, return_train_score=True, n_jobs=-1)
# 훈련 데이터 점수, 검증 데이터 점수
print(np.mean(score['train_score']), np.mean(score['test_score']))

0.9973541965122431 0.8905151032797809


In [None]:
rf.fit(train_input, train_target)
print(rf.feature_importances_)

[0.23167441 0.50039841 0.26792718]


RandomForestClassifier는 자체적으로 모델을 평가하는 점수를 얻을 수 있다.<br>
교차 검증을 대신 할 수 있다.<br>
부트스트랩 샘플에 포함되지 않은 샘플을 OOB(out of bag)이라고 한다.<br>
이 OOB로 bootstrap sample로 훈련한 결정 트리를 평가할 수 있다.<br>
방법은 RandomForestClassfier 클래스의 oob_score 매개변수를 True로 지정한다.<br>
각 결정 트리의 oob점수를 평균하여 출력한다. (RandomForestClassifier.oob_score_)

In [10]:
rf = RandomForestClassifier(oob_score=True, n_jobs=-1, random_state=42)
rf.fit(train_input, train_target)
print(rf.oob_score_)

0.8934000384837406


# 엑스트라 트리(Extra Trees)
기본적으로 랜덤포레스트와 동일. 하지만 부트스트랩 샘플을 사용하지 않는다.<br>
노드를 분할할 때 가장 좋은 분할을 찾는 것이 아닌 무작위로 분할한다.

In [11]:
from sklearn.ensemble import ExtraTreesClassifier
et = ExtraTreesClassifier(n_jobs=-1, random_state=42)
scores = cross_validate(et, train_input, train_target, return_train_score=True, n_jobs=-1)
print(np.mean(scores['train_score']), np.mean(scores['test_score']))

0.9974503966084433 0.8887848893166506


In [15]:
et.fit(train_input, train_target)
print(et.feature_importances_)

[0.20183568 0.52242907 0.27573525]
