### 붓꽃 품종 예측하기


#### sklearn.datasets 모듈: 사이킷런에서 자체 제공하는 데이터 셋 생성
#### sklearn.tree 모듈: 트리 기반 ML알고리즘(의사 결정 트리)을 구현한 클래스 모임
#### sklearn.model_selection 모듈: 학습데이터와 검증데이터, 예측데이터로 데이터를 분리하거나, 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임

##### 1. 라이브러리 정의

In [2]:
import sklearn

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split


##### 2. 데이터 불러오기

In [3]:
iris = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [4]:
import pandas as pd
iris = load_iris()
iris_data = iris.data #iris 데이터셋 중에서 feature값만을 numpy로 가지고 있음
iris_label = iris.target #iris 데이터셋 중에서 결정값(레이블) 데이터를 numpy로 가지고 있음
print('iris target값:', iris.target)
print('iris target명:', iris.target_names)

#df로 변환하기
iris_df = pd.DataFrame(iris_data, columns=iris.feature_names)
iris_df['label']=iris.target
iris_df.head(3)

iris target값: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명: ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


##### 3. 학습용과 테스트용 데이터로 분리하기

In [5]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)


- train_test_split(feature 데이터셋, 레이블 데이터셋, 테스트용 데이터 사이즈, 호출할 때마다 같은 셋을 생성하기 위해 주어진 난수발생값)


- 난수 발생값: 매번 무작위로 호출되는 것을 막기 위함, 숫자 자체는 어떤 값을 지정하든 노상관


- X_train: 학습용 feature 데이터셋 / X_test: 테스트용 feature 데이터셋


- y_train: 학습용 label 데이터셋 / y_test: 테스트용 label 데이터셋

##### 4. 모델 학습

In [6]:
df_clf = DecisionTreeClassifier(random_state=11)
df_clf.fit(X_train, y_train)

- 학습 완료된 것임, 예측은 반드시 학습 데이터가 아닌 다른 데이터를 이용해야 함

##### 5. 예측 수행

In [17]:
pred = df_clf.predict(X_test)
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

##### 6. 예측 성능 평가 >> 정확도 평가(예측결과가 실제 label값과 얼마나 정확하게 맞는지)

In [18]:
from sklearn.metrics import accuracy_score
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9333
