 ## 랜덤포레스트 : 결정트리(Decision Tree)의 앙상블(ensemble)
     
+ 앙상블(ensemble) : 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법
    
+ DecisionTree의 주요 단점인 훈련 데이터에 과대적합되는 경향이 있다는 문제를 여러 결정 트리를 많이 만들어 그 결과를 평균냄으로써 과대적합된 양을 줄여서 회피한다. 
    
+ 학습데이타를 기반으로 다수의 의사결정트리를 만들고, 만들어진 의사결정트리를 기반으로 다수결로 결과를 유도하는 방식으로 정밀도가 높은 알고리즘이다.
    


<img src='./imgs/RF.png'>




---
##  [ 힌트 ]  기존의 모델했던 예제에서 모델링만 변경하면 된다


from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=100)

- 매개변수
- n_estimators : 랜덤포레스트 모델을 만들 때 생성할 트리의 갯수
- random_state : 램덤 시드값으로 같은 결과를 만들려면 random_state 값을 고정한다.
- 그러나 랜덤포레스트의 트리가 많을수록 random_state 값의 변화에 따른 변동이 적다


---

In [3]:
import pandas as pd
from sklearn import svm, metrics
from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

# (1) 데이타 읽어오기 (pandas 이용)
csv = pd.read_csv('../data/iris/iris.csv')
print(csv[:10]) # 컬럼명이 0번째 레코드(샘플)과 분리되어 있음

# (2) 데이터와 레이블 분리 변수 선언 (실제 iris.csv 파일 컬럼명 확인)
csv_data = csv[['sepal.length','sepal.width','petal.length','petal.width']]
csv_label = csv['variety']
print(csv_data.head())
print(csv_label.head())

# (3) 훈련데이터와 테스트 데이터로 분리하기
X_train,X_test,y_train,y_test = train_test_split(csv_data,csv_label,random_state=0,test_size=0.3)





   sepal.length  sepal.width  petal.length  petal.width variety
0           5.1          3.5           1.4          0.2  Setosa
1           4.9          3.0           1.4          0.2  Setosa
2           4.7          3.2           1.3          0.2  Setosa
3           4.6          3.1           1.5          0.2  Setosa
4           5.0          3.6           1.4          0.2  Setosa
5           5.4          3.9           1.7          0.4  Setosa
6           4.6          3.4           1.4          0.3  Setosa
7           5.0          3.4           1.5          0.2  Setosa
8           4.4          2.9           1.4          0.2  Setosa
9           4.9          3.1           1.5          0.1  Setosa
   sepal.length  sepal.width  petal.length  petal.width
0           5.1          3.5           1.4          0.2
1           4.9          3.0           1.4          0.2
2           4.7          3.2           1.3          0.2
3           4.6          3.1           1.5          0.2
4           5.0 

In [12]:
# (4) 분류모델로 학습하기
#     예를 들면, clf = svm.SVC(gamma='auto')  이렇게 학습 모델 지정하기
model = RandomForestClassifier()
model.fit(X_train,y_train)

# (5) 검증하기
print("훈련데이터 검증 : {:.2f}".format(model.score(X_train,y_train)))
print("훈련데이터 검증 : {:.2f}".format(model.score(X_test,y_test)))  

# (6) 예측하기
import numpy as np
newdata =np.array([[4.5,4.0,1.5,0.5]])
pred = model.predict(newdata)
print(pred)


훈련데이터 검증 : 1.00
훈련데이터 검증 : 0.98
['Setosa']




[사이킷런 패키지에서 지원하는 분류 성능평가 명령](https://datascienceschool.net/03%20machine%20learning/09.04%20%EB%B6%84%EB%A5%98%20%EC%84%B1%EB%8A%A5%ED%8F%89%EA%B0%80.html)
   
      precision   : 정밀도 
      recall  : 재현율
      f1-score: f점수
      

### 새로운 데이타를 예측


import numpy as np

newdata = np.array([[4.5, 4.0, 1.5, 0.5]])


pred = clf.predict(newdata)

print(pred)