# Scikit-learn 실습: 붓꽃 분류하기

분류는 대표적인 지도학습이다.
1. 문제와 답이 정해져있는 많은 양의 학습데이터를 가지고 ML 알고리즘을 적용해 모델을 학습시킨다.
2. 그렇게 학습시킨 모델에다가 테스트 데이터의 문제를 넣어서 어떤 답을 뽑아내는지 확인한다.
3. 테스트 데이터의 답도 이미 사람이 알고 있기 때문에, 정답률을 이용해 모델의 분류성능 등 여러 지표를 평가한다.


In [8]:
import numpy as np
import pandas as pd

import sklearn
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
# a package to distinguish between learning data and test data
from sklearn.model_selection import train_test_split

In [16]:
# 데이터 세트 로딩
iris=load_iris()
iris_data = iris.data # Feature에 해당하는 데이터셋.
iris_label = iris.target # Target에 해당하는 데이터셋.

print('iris target값:\n', iris_label)
print('iris target명:\n', iris.target_names)

# 데이터셋 더 자세히 보기 위해 DataFrame 형으로 변경.
# ndarray -> DataFrame
# 데이터 값은 iris.data로 하고, 컬럼명은 iris.target_names로 하고 싶다.
# iris_data_df= pd.DataFrame(data=iris_data, columns=iris.target_names)
iris_data_df= pd.DataFrame(data=iris_data, columns=iris.feature_names)
display(iris_data_df.head())

iris target값:
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target명:
 ['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [17]:
# 학습데이터와 테스트 데이터를 분리.
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)
# X means feature. Y means target. 
# test_size=0.2 : 전체 데이터 중 20%만 테스트로 만들어라.
# random_state : 랜덤함수의 시드 같은 역할. 반복가능한 경우로 쓰기 위해 정해진 정수값을 넣는다.

In [18]:
# 학습 데이터 셋으로 학습(Train) 수행
# DecisionTreeClassifier 객체 생성
dt_clf= DecisionTreeClassifier(random_state=11)

# 학습 수행
dt_clf.fit(X_train, y_train)

In [22]:
# 테스트 데이터 세트로 예측 (Predict) 수행
# 학습 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행.
pred = dt_clf.predict(X_test)
print(f'{type(pred)}:\n{pred}')

<class 'numpy.ndarray'>:
[2 2 1 1 2 0 1 0 0 1 1 1 1 2 2 0 2 1 2 2 1 0 0 1 0 0 2 1 0 1]


In [20]:
pred

array([2, 2, 1, 1, 2, 0, 1, 0, 0, 1, 1, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

In [24]:
# 예측 정확도 평가
from sklearn.metrics import accuracy_score
# 소수점 아래 4자리까지 정확도 표현.
print(f'예측 정확도: {accuracy_score(y_test, pred):.4f}')

예측 정확도: 0.9333
