Iris 품종을 분류하는 모델을 만들고 성능을 평가해보자

# 데이터 정보 확인
- [scikitlearn dataset](https://scikit-learn.org/stable/datasets.html) : scikit-learn에 내장된 데이터셋의 종류

**Toy datasets**
1. Boston house prices dataset
2. *Iris plants dataset* 
3. Diabetes dataset
4. Optical recognition of handwritten digits dataset
5. Linnerrud dataset
6. Wine recognition dataset
7. Breast cancer wisconsin (diagnostic) dataset

**Real world datasets**
1. The Olivetti faces dataset
2. The 20 newsgroups text dataset
3. The Labeled Faces in the Wild face recognition dataset
4. Forest covertypes
5. RCV1 dataset
6. Kddcup 99 dataset
7. California Housing dataset

# 라이브러리 및 데이터 로드

In [1]:
from sklearn.datasets import load_iris

iris = load_iris()

# Exploratory Data Analysis (EDA)

In [2]:
print(dir(iris))
type(iris)

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']


sklearn.utils.Bunch

Bunch 자료구조는에 딕셔너리와 유사한 구조로 데이터를 포함 하고 있다
각각의 정보를 키로 가져올수 있다.

- data: 샘플 데이터, Numpy 배열로 이루어져 있습니다.
- target: Label 데이터, Numpy 배열로 이루어져 있습니다.
- feature_names: Feature 데이터의 이름
- target_names: Label 데이터의 이름
- DESCR: 데이터 셋의 설명
- filename: 데이터 셋의 파일 저장 위치 (csv)

In [3]:
#정보 확인
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])

**data : 샘플데이터**
- 꽃잎, 꽃받침의 길이와 폭 정보

In [4]:
iris_data = iris.data
print(iris_data.shape)
print(type(iris_data))
print(iris_data[0]) #epal length, sepal width, petal length, petal width


(150, 4)
<class 'numpy.ndarray'>
[5.1 3.5 1.4 0.2]


**target: Label 데이터**
- 0, 1, 2

In [5]:
#라벨 데이터
iris_label = iris.target
print(iris_label.shape)
print(type(iris_label))
print(iris_label) 

(150,)
<class 'numpy.ndarray'>
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


**target_names: Label 데이터의 이름**
- setosa, versicolor, virginica 으로 각각 0,1,2 에 대응이 된다. 
- iris_label이 0이라면 setosa, 1이라면 versicolor, 2라면 virginica

In [6]:
iris.target_names 

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

**DESCR: 데이터 셋의 설명**

In [7]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

**feature_names: Feature 데이터의 이름**

In [8]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

**filename: 데이터 셋의 파일 (csv)**

In [9]:
# iris데이터셋은 csv 형태의 파일 제공
iris.filename

'iris.csv'

# 데이터 셋을 DataFrame으로 변환
data와 feature_names 키로 가져온 데이터로 데이터프레임으로 만들어준다

In [10]:
import pandas as pd
df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

In [10]:
df.head() 

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


target 데이터를 'label'이라는 컬럼명으로 추가

In [11]:
df['label'] = iris.target
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


# Data Split
- 학습에 사용하는 training dataset과 모델의 성능을 평가하는 데 사용하는 test dataset으로 데이터셋을 나누는 작업
- random_state : 실험한 결과를 다른 사람의 컴퓨터에서도 재현가능(reproducible) 하게 해줌

In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)
print('x_train size:', len(X_train), 'x_test size:', len(X_test) )

x_train size: 120 x_test size: 30


In [13]:
X_train.shape, X_test.shape

((120, 4), (30, 4))

In [16]:
y_train, y_test

(array([2, 1, 0, 2, 1, 0, 0, 0, 0, 2, 2, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 0,
        2, 0, 2, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 0, 2, 0, 0, 2, 2, 0, 2, 0,
        1, 2, 1, 0, 1, 0, 2, 2, 1, 0, 0, 1, 2, 0, 2, 2, 1, 0, 1, 0, 2, 2,
        0, 0, 2, 1, 2, 2, 1, 0, 0, 2, 0, 0, 1, 2, 2, 1, 1, 0, 2, 0, 0, 1,
        1, 2, 0, 1, 1, 2, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 2, 2, 1, 2,
        0, 2, 1, 1, 0, 2, 1, 2, 1, 0]),
 array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
        1, 2, 2, 2, 1, 1, 2, 2]))

# 모델 설계
분류(Classification) 문제를 위한 지도 학습 모델
- 의사결정 나무(Decision Tree 모델) :[참고](https://ratsgo.github.io/machine%20learning/2017/03/26/tree/)
 - 결정경계(decision boundary)가 데이터 축에 수직이어서 특정 데이터에만 잘 작동하는 문제점이 있다. 즉 데이터를 분리할 어떤 경계를 찾아내어 데이터를 체에 거르듯 한 단계씩 분류해나가는 모델
 - 이 과정에서 엔트로피, 정보량, 지니불순도 등의 정보이론 개념이 포함  

- 랜덤포레스트(RandomForest) : [참고](https://ratsgo.github.io/machine%20learning/2017/03/17/treeensemble/)
 - 나무(tree)가 여럿 있다고 하는 의미에서 forest라는 이름붙었는데 의사결정나무 여러 개를 동시에 적용해서 학습성능을 높일 수 있다.

훈련 (fitting)
- 모델을 학습시킨다는 것은, 달리 말하면 training dataset에 맞게 모델을 fitting, 즉 맞추는 것이라고 할 수 있다.
-  training dataset을 통해 학습한 모델이 새로운 데이터에 대해 예측을 잘하도록  training dataset를 잘구성하는 것이 중요 (더 다양하고, 일반화된 데이터를 구성) 

In [17]:
from sklearn.tree import DecisionTreeClassifier

dtree = DecisionTreeClassifier(random_state=32)
dtree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

# 예측

In [18]:
y_pred = dtree.predict(X_test) #예측시는 y_test 라벨값을 주지 않음
y_pred

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 2, 1, 0, 2, 0, 2, 2, 2, 0, 0, 1, 2,
       1, 1, 2, 2, 1, 1, 2, 2])

In [19]:
# 실제 라벨값과 비교
y_test

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
       1, 2, 2, 2, 1, 1, 2, 2])

### 정확도(Accuracy)
전체 개수 중 맞은 것의 개수의 수치로 의사결정트리모델의 성능은 90%정확도를 보인다.

In [20]:
#정확도 확인
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_test, y_pred)
accuracy

0.9

### 리포트 형식으로 성능 확인

In [23]:
from sklearn.metrics import classification_report

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



## classification report

| Iris |  precision |   recall | f1-score |  support |
| :---| :--- | :---| :---| ---: |
|0: setosa | 1.00  |    1.00  |    1.00     |    7|
|1: versicolor |  0.91   |     0.83      |  0.87      |    12|
|2: virginica |  0.83    |  0.91   |   0.87    |    11|


이 함수를 통해 각 클래스(Iris 품종)별로 precision, recall, f1-score 점수를 확인할 수 있다. 자세한 내용은 다음 예제에서 살펴 보자 
- support는 Iris의 실제 테스트 샘플 갯수이다. (Testset 30개중 각각의 샘플수)

- accuracy : 정확도
- macro avg : 클래스별 점수에 가중치를 부여하지않은 전반적인 성능을 평가 , 샘플 개수의의 불균형이 있을 경우 문제가 될수 있다.
 - f1-score macro avg = (1.00 + 0.87+ 0.87)/3 = 0.91
 
- weighted avg : 각 클래스에 속하는 샘플의 개수(support값)로 가중 평균을 내서 성능 평가, 샘플 개수의 불균형을 고려한 평균
 - f1-score weighted avg =  (1.00*7 + 0.87*12+ 0.87*11)/30 = 0.91


# 전체 코드 정리


In [1]:
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

# (2) 데이터 준비
iris = load_iris()
iris_data = iris.data
iris_label = iris.target

# (3) train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32)
decision_tree.fit(X_train, y_train)
y_pred = decision_tree.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30

