# Random Forest 01
### sklerarn에서 제공해주는 iris 데이터를 이용해서 iris의 종을 예측하는 작업을 해볼거다. 작업을 진행하기 전에 iris 데이터가 어떤 형식으로 되어있는지 확인한다.    
## iris 데이터
sklearn에서 제공되는 iris 데이터는 sepal(꽃 받침)과 petal(꽃잎)의 너비와 길이와 iris(붓꽃)의 종을 나타내고 있다.  
제공된 데이터를 DataFrame으로 변형시켜 작업을 진행한다.

**__name__**은 파이썬의 내장변수 혹은 전역 변수이다.  
'__name__'은 파이썬에서 정한 '이미 있는' 변수이다.   
이 변수에는 해당 파이썬 파일의 이름 즉, 모듈의 이름을 담게 된다.  
하지만 **해당 파일**안에서 해당 함수를 실행시키면 '__name__' 변수는 파일 혹은 모듈의  
이름이 아니고 '__main__'이라는 값이 되도록 정해져있다.

In [1]:
import pandas as pd

from sklearn import datasets

if __name__ == '__main__':
    iris = datasets.load_iris()
    print('아이리스 종류 :', iris.target_names)
    print('target : [0:setosa, 1:versicolor, 2:virginica]')
    print('데이터 수 :', len(iris.data))
    print('데이터 열 이름 :', iris.feature_names)
    
    # iris data Dataframe으로
    data = pd.DataFrame(
        {
            'sepal length': iris.data[:, 0],
            'sepal width': iris.data[:, 1],
            'petal length': iris.data[:, 2],
            'petal width': iris.data[:, 3],
            'species': iris.target
        })
    print(data.head())

아이리스 종류 : ['setosa' 'versicolor' 'virginica']
target : [0:setosa, 1:versicolor, 2:virginica]
데이터 수 : 150
데이터 열 이름 : ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
   sepal length  sepal width  petal length  petal width  species
0           5.1          3.5           1.4          0.2        0
1           4.9          3.0           1.4          0.2        0
2           4.7          3.2           1.3          0.2        0
3           4.6          3.1           1.5          0.2        0
4           5.0          3.6           1.4          0.2        0


## 학습 & 예측 데이터 나누기
학습할 데이터와 예측할 데이터로 나눈다.

****train_test_split****은 scikit-learn의 model_selection 패키지에서 제공하는  
모듈로써 손쉽게 train set(학습데이터 셋)과 test set(테스트 셋)을 분리 할 수 있다.  


In [2]:
from sklearn.model_selection import train_test_split

x = data[['sepal length', 'sepal width', 'petal length', 'petal width']]
y = data['species']
    
# 테스트 데이터 30%
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)
print(len(x_train))
print(len(x_test))
print(len(y_train))
print(len(y_test))

105
45
105
45


## 데이터 학습 & 예측 정확도 확인
70%의 학습 데이터를 랜덤 포레스트를 이용해서 학습 시킨 후,  
30%의 예측 데이터를 예측 분류하여 실제 데이터와 비교하여 정확도를 확인한다.

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

#학습 진행
forest = RandomForestClassifier(n_estimators = 100)
forest.fit(x_train, y_train)

#예측
y_pred = forest.predict(x_test)
print(y_pred)
print(list(y_test))

#정확도 확인
print('정확도 :', metrics.accuracy_score(y_test, y_pred))

[0 2 0 1 0 1 0 2 1 2 1 1 0 1 2 0 1 2 0 1 0 2 2 0 0 2 2 1 2 0 1 2 0 1 1 2 1
 1 0 1 2 1 0 2 2]
[0, 2, 0, 1, 0, 1, 0, 2, 1, 2, 1, 1, 0, 1, 2, 0, 1, 2, 0, 1, 0, 2, 2, 0, 0, 2, 2, 1, 2, 0, 1, 2, 0, 1, 1, 2, 1, 1, 0, 1, 1, 1, 0, 2, 2]
정확도 : 0.9777777777777777


https://myjamong.tistory.com/79
https://lovelydiary.tistory.com/297
https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=doublebee1&logNo=221137823869
https://teddylee777.github.io/scikit-learn/train-test-split