## DecisionTree-iris-RandomForest
- 앙상블 학습: 여러 분류기 생성하고 그 예측 결합해 더 좋은 분류기를 만드는 방법
- 앙상블 학습 종류:
    1. Voting: 다른 알고리즘 분류기 결합
    2. Bagging: 같은 분류기를 중복 샘플링하여 결과 결합(대표적인 게 랜덤 포레스트: 같은 나무 심은 것도 아닌 일정 간격이 있는 것도 아닌 걍 랜덤.. 크기도 갯수도 랜덤)
    3. Boosting: 가중치 부여하며 진행...
    
#### 랜덤 포레스트
- 데이터 분류, 데이터 군집, Feature의 중요성 확인, 데이터 예측
- 소프트 보팅: 각 분류기의 결정 확률을 집합
- 샘플링 시 중복 허용: 같은 데이터 여러 번 뽑을 수 있음
- 이론
    1. Dataset에서 샘플 데이터 랜덤하게 선택
    2. 샘플 데이터에서 feature를 랜덤으로 선택해 의사결정 트리 생성
- 예측 모듈
    1. Dataset에서 샘플 데이터 선택
    2. 샘플 데이터로 의사결정 트리 생성
    3. 1, 2 반복
    4. 3에서 생성한 n개의 결정 트리 이용해 예측
    4. 예측 결과에서 가장 많이 등장하는 결과 선택해 최종 결과로 선택
- 특징
    1. 여러개 의사결정 결합해서 단인 의사결정 트리 결점 극복
    2. 오버 피팅 문제 적음
    3. 구현 간단
    4. 병렬 계산 간단

In [None]:
from sklearn.datasets import load_iris
from sklearn import tree
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

In [None]:
#loading the iris dataset
iris = load_iris()

# to excel... by Uchang
import pandas as pd 
df = pd.DataFrame(data=iris['data'], columns = iris['feature_names'])
df.to_excel('iris.xlsx', index=False)

In [None]:
#training data 설정 
x_train = iris.data[:-30]
y_train = iris.target[:-30]
#test data 설정
x_test = iris.data[-30:] # test feature data  
y_test = iris.target[-30:] # test target data

In [None]:
#RandomForestClassifier libary를 import
from sklearn.ensemble import RandomForestClassifier # RandomForest
#tree 의 개수 Random Forest 분류 모듈 생성
rfc = RandomForestClassifier(n_estimators=10) 
rfc
rfc.fit(x_train, y_train)

#Test data를 입력해 target data를 예측 
prediction = rfc.predict(x_test)
#예측 결과 precision과 실제 test data의 target 을 비교 
print (prediction==y_test)
#Random forest 정확도 측정
rfc.score(x_test, y_test)
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
print ("Accuracy is : ",accuracy_score(prediction, y_test))
print ("=======================================================")
print (classification_report(prediction, y_test))

In [None]:
from sklearn.model_selection import train_test_split
x = iris.data
y = iris.target
X_train, X_test, Y_train, Y_test = train_test_split(x, y, test_size=0.2)
print (y_test)
print (Y_test)
clf = RandomForestClassifier(n_estimators=10) # Random Forest
clf.fit(X_train, Y_train)
prediction_1 = rfc.predict(X_test)
#print (prediction_1 == Y_test)
print ("Accuracy is : ",accuracy_score(prediction_1, Y_test))
print ("=======================================================")
print (classification_report(prediction_1, Y_test))

In [None]:
# Initialize the model
clf_2 = RandomForestClassifier(n_estimators=200, # Number of trees
                               max_features=4,    # Num features considered
                                  oob_score=True)    # Use OOB scoring*
clf_2.fit(X_train, Y_train)
prediction_2 = clf_2.predict(X_test)
print (prediction_2 == Y_test)
print ("Accuracy is : ",accuracy_score(prediction_2, Y_test))
print ("=======================================================")
print (classification_report(prediction_2, Y_test))

for feature, imp in zip(iris.feature_names, clf_2.feature_importances_):
    print(feature, imp)

In [None]:
import graphviz
import os
#os.environ['PATH'] += os.pathsep + 'c:\programdata\anaconda3\lib\site-packages'
estimator = clf_2.estimators_[5]
from sklearn.tree import export_graphviz
export_graphviz(estimator, out_file='tree.dot', 
                feature_names = iris.feature_names,
                class_names = iris.target_names,
                rounded = True, proportion = False, 
                precision = 2, filled = True)

# 생성된 .dot 파일을 .png로 변환
from subprocess import call
call(['dot', '-Tpng', 'tree.dot', '-o', 'decistion-tree.png', '-Gdpi=50'])

# jupyter notebook에서 .png 직접 출력
from IPython.display import Image

# 다음 명령어는 따로 실행해본다.
Image(filename = 'decistion-tree.png')
