In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split  # 훈련 - 테스트 데이터셋 분리

## 1. 데이터 로드

In [3]:
# 1. 데이터 로드
iris_data = load_iris()  # 사이킷런의 내장 데이터셋 중 붓꽃 데이터셋(iris)을 로드
print(type(iris_data))  # <class 'sklearn.utils._bunch.Bunch'>, 딕셔너리 형태의 데이터 구조

<class 'sklearn.utils._bunch.Bunch'>


In [4]:
print(iris_data.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
:Date: July, 1988

The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fis

## 2. 데이터 정보 확인

In [5]:
# 2. 데이터 정보 확인
keys = iris_data.keys()  # 데이터셋의 키 확인
print('붓꽃 데이터 세트의 키들:', keys)
## Bunch Class (Sklearn의 Class: data, target, feature_names, target_names, DESCR(설명) ...)
### frame, data_model ... 데이터마다 칼럼 종류들이 달라짐

붓꽃 데이터 세트의 키들: dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [None]:
print('\n feature_names 의 type:',type(iris_data.feature_names)) ## list
print(' feature_names 의 shape:',len(iris_data.feature_names))
print(iris_data.feature_names)


 feature_names 의 type: <class 'list'>
 feature_names 의 shape: 4
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [None]:
print('\n target_names 의 type:',type(iris_data.target_names)) ## ndarray
print(' feature_names 의 shape:',len(iris_data.target_names))
print(iris_data.target_names)


 target_names 의 type: <class 'numpy.ndarray'>
 feature_names 의 shape: 3
['setosa' 'versicolor' 'virginica']


## 3. 데이터와 타겟의 형태 및 내용 확인

In [None]:
print('\n data 의 type:',type(iris_data.data)) ## ndarray
print(' data 의 shape:',iris_data.data.shape)
print(iris_data['data'])


 data 의 type: <class 'numpy.ndarray'>
 data 의 shape: (150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  

In [None]:
print('\n target 의 type:',type(iris_data.target))
print(' target 의 shape:',iris_data.target.shape)
print(iris_data.target)

## 0, 1, 2 => target_names


 target 의 type: <class 'numpy.ndarray'>
 target 의 shape: (150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


## 4. 데이터 분리

In [6]:
# 학습 데이터와 테스트 데이터로 분리 (학습: 70%, 테스트: 30%)
## train_test_split(input, target, test_size, random_state=난수생성시드)
### 튜플로 반환
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                       test_size=0.3, random_state=121)

## 5. 모델 학습

In [7]:
# 5. 모델 학습
# 결정 트리 분류기 생성
dt_clf = DecisionTreeClassifier()

In [8]:
# 모델 학습
dt_clf.fit(X_train, y_train)

## 6. 예측 수행 & 모델 평가

- Estimator > Classifier > Regressor
- Estimator 부모 요소는 `fit()`, `predict()` 메소드를 가지고 있기 때문에 알고리즘과 상관없이 사용가능


In [9]:
# 예측 수행
pred = dt_clf.predict(X_test)

# 모델 평가 ()
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

예측 정확도: 0.9556


In [11]:
len(pred)

45