# Iris의 세가지 품종을 비교하는 분류기 만들기

사이킷런(scikit-learn)에서 기본 제공하는 데이터셋 중 하나인 아이리스의 품종을 비교하는 분류기를 만들어보자!

![img](./data/iris.png)

위 사진을 보면 알 수 있듯이, iris에는 세가지 모양이 있다. 모두 꽃잎과 꽃받침의 크기가 조금씩 다른데, 머신러닝 기법을 이용하여 붓꽃을 잘 분류해내는 모델을 만들어보자.

## 데이터 가져오기

### Scikit-learn 내장 데이터를 이용하자.

이 붓꽃 데이터는 머신러닝을 공부할 때 예제 데이터로 많이 사용되는데, 그 이유는 사이킷런에 내장되어있는 데이터이기 때문이다. 

sckit-learn은 파이썬을 기반으로 각종 classifier와 데이터모델 등 머신러닝과 데이터 과학에 있어서 편리한 기능들을 제공해주는 라이브러리다. sklearn에서 기본 내장되어있는 데이터인 iris 데이터를 이용해서 우리는 분류기를 만들 것이다.

[scikit-learn 데이터셋](https://scikit-learn.org/stable/datasets/index.html)

위의 링크를 들어가 iris 데이터를 확인해보면 정보는 대략 아래와 같다.

- 총 150개의 데이터
- 각 데이터에는 4개의 정보가 담겨있다.
    - sepal (꽃받침)
    - petal (꽃잎)
    - 길이
    - 폭
- 클래스(혹은 label)은 3가지로, 위에서 말한대로 setosa, versicolor, virginica가 있다.

In [1]:
!pip install sklearn

Processing /home/aiffel0039/.cache/pip/wheels/46/ef/c3/157e41f5ee1372d1be90b09f74f82b10e391eaacca8f22d33e/sklearn-0.0-py2.py3-none-any.whl
Collecting scikit-learn
  Downloading scikit_learn-0.23.1-cp37-cp37m-manylinux1_x86_64.whl (6.8 MB)
[K     |████████████████████████████████| 6.8 MB 3.1 MB/s eta 0:00:01
Collecting threadpoolctl>=2.0.0
  Downloading threadpoolctl-2.1.0-py3-none-any.whl (12 kB)
Collecting joblib>=0.11
  Downloading joblib-0.16.0-py3-none-any.whl (300 kB)
[K     |████████████████████████████████| 300 kB 4.0 MB/s eta 0:00:01
[?25hInstalling collected packages: threadpoolctl, joblib, scikit-learn, sklearn
Successfully installed joblib-0.16.0 scikit-learn-0.23.1 sklearn-0.0 threadpoolctl-2.1.0


In [3]:
from sklearn.datasets import load_iris

iris = load_iris()

print(type(dir(iris))) # dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함.

<class 'list'>


In [4]:
iris.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])

Iris에는 6가지의 정보가 담겨있다.

- data
- target
- frame
- target_names
- DESCR
- feature_names
- filename

가장 중요한 데이터를 iris_data 변수에 저장한 후 데이터의 크기와 구성을 확인해보자.

In [7]:
iris_data = iris.data

print(iris_data.shape)
print(iris_data[:4])

(150, 4)
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]]


위에서 설명했던대로 4개의 숫자가 나오는데, 순서대로 **sepal length, sepal width, petal length, petal width**를 나타낸다.

이제 iris 데이터의 label, 즉 target을 불러오자.
타겟 정보는 아래와 같이 불러올 수 있다.

In [9]:
iris_label = iris.target
print(iris_label.shape)
print(iris_label)

(150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


Iris의 label은 0, 1, 2 세가지로 분류된다는 것을 알 수 있다. 라벨의 이름은 아래와 같이 확인할 수 있다.

In [10]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

순서대로 setosa가 0, versicolor가 1, virginica가 2가 된다.

나머지 남은 변수도 한번 확인해보자.

In [11]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [12]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

이제 데이터를 불러오고 확인해보았으니, 데이터를 학습시키기 위한 모델을 만들어보자. 

먼저 `pandas` 라이브러리를 통해 2차원의 데이터를 다뤄보자.

In [14]:
!pip install pandas

Collecting pandas
  Downloading pandas-1.1.0-cp37-cp37m-manylinux1_x86_64.whl (10.5 MB)
[K     |████████████████████████████████| 10.5 MB 866 kB/s eta 0:00:01
Collecting pytz>=2017.2
  Downloading pytz-2020.1-py2.py3-none-any.whl (510 kB)
[K     |████████████████████████████████| 510 kB 4.8 MB/s eta 0:00:01
Installing collected packages: pytz, pandas
Successfully installed pandas-1.1.0 pytz-2020.1


In [15]:
import pandas as pd

iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


이 데이터에 정답 데이터를 함께 넣어주자. label이라는 칼럼을 추가한다.

In [16]:
iris_df['label'] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


이제 이 데이터들을 **학습에 사용하는 training dataset과 test dataset으로 나누는 작업**을 해야한다.

데이터셋을 분리하는 것은 scikit-learn이 제공하는 `train_test_split`함수를 사용하여 간단하게 할 수 있다.

`sklearn.model_selection` 패키지의 `train_test_split`을 활용하여 다음과 같이 training dataset과 test dataset을 간단히 분리해보자.

In [18]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(iris_data,
                                                   iris_label,
                                                   test_size = 0.2,
                                                   random_state = 7)

print("x_train의 개수 : {}, X_test의 개수 : {}".format(len(X_train), len(X_test)))

x_train의 개수 : 120, X_test의 개수 : 30


`train_test_split`의 첫번째 파라미터인 `iris_data`는 feature고 두번째 파라미터인 `iris_label`은 label이다. 

이렇게 넣어줌으로써 학습용 데이터와 테스트용 데이터를 생성하며 각 데이터에서 4개의 feature 데이터만 있는 X, 그리고 label 데이터만 있는 y를 얻을 수 있다.

세 번째 파라미터인 `test_size`는 test dataset의 크기를 조절할 수 있다. 0.2는 전체의 20%를 테스트 데이터로 사용하겠다는 의미다.

마지막으로 쓰인 `random_state`는 train 데이터와 test 데이터를 분리(split)하는데 적용되는 랜덤성을 결정한다. 우리의 데이터는 label 0 -> 1 -> 2의 순서로 정렬되어있기 때문에 한번 섞어주는 것이 필요하다. 

컴퓨터에서의 랜덤은 아무리 랜덤이라고 해도 특정 로직에 따라 결정되는 랜덤이기 때문에 완벽한 랜덤이라고할 수 없다. 이런 랜덤을 조절할 수 있는 값이 `random_state`, 또는 `random_seed`다. 이 값이 같다면 코드는 항상 같은 랜덤 결과를 나타낸다.

In [19]:
print(X_train.shape, y_train.shape)
print(X_test.shape, y_test.shape)

(120, 4) (120,)
(30, 4) (30,)


위에서 random state를 적용한대로 `y_test` 데이터가 잘 섞여있는지 한번 확인해보자.

In [20]:
y_train, y_test

(array([2, 1, 0, 2, 1, 0, 0, 0, 0, 2, 2, 1, 2, 2, 1, 0, 1, 1, 2, 0, 0, 0,
        2, 0, 2, 1, 1, 1, 0, 0, 0, 1, 2, 1, 1, 0, 2, 0, 0, 2, 2, 0, 2, 0,
        1, 2, 1, 0, 1, 0, 2, 2, 1, 0, 0, 1, 2, 0, 2, 2, 1, 0, 1, 0, 2, 2,
        0, 0, 2, 1, 2, 2, 1, 0, 0, 2, 0, 0, 1, 2, 2, 1, 1, 0, 2, 0, 0, 1,
        1, 2, 0, 1, 1, 2, 2, 1, 2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 2, 2, 1, 2,
        0, 2, 1, 1, 0, 2, 1, 2, 1, 0]),
 array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 1, 1, 0, 2, 0, 1, 2, 2, 0, 0, 1, 2,
        1, 2, 2, 2, 1, 1, 2, 2]))

## 분류기 모델 만들기

이제 데이터를 불러오고, 잘 가공을 했으니 우리가 원하는대로 예측을 해주는 classifier를 만들어보자.

### Decision Tree

먼저 우리는 Decision Tree를 사용할 것이다. `sklearn.tree` 패키지안에 내장되어있으며, decision tree를 제외하고도 random forest, KNN, SVM 등 다양한 classifier가 sklearn에서 제공하고 있다.

In [21]:
from sklearn.tree import DecisionTreeClassifier

decision_tree = DecisionTreeClassifier(random_state = 32)
print(decision_tree._estimator_type)

classifier


이제 그럼 모델을 학습시켜보자. 매우 간단하게 학습할 수 있다.

In [22]:
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

모델을 학습시키는 메서드의 이름이 바로 `fit`이다. training dataset을 학습시킨다는 것은, 달리 말하면 **training dataset에 맞게 모델을 fitting, 즉 맞추는 것**이라고 할 수 있다. 

그럼 학습시킨 모델을 통해 test data를 예측해보자.

In [23]:
y_pred = decision_tree.predict(X_test)
y_pred

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 2, 1, 0, 2, 0, 2, 2, 2, 0, 0, 1, 2,
       1, 1, 2, 2, 1, 1, 2, 2])

`y_pred`에는 예측값이 담겨있다. 과연 실제값과 잘 맞는지 성능을 평가해보도록 하자.

scikit-learn에서 성능 평가에 대한 함수가 모여있는 `sklearn-metrics` 패키지를 이용해 확인해보자.

성능을 평가하는 방법에도 다양한 척도가 있는데, 그 중에서도 일단 **정확도 (Accuracy)** 를 간단히 확인해보자.

In [24]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

0.9


90%의 정확도를 보이고 있다. NOT BAD!!

다른 모델로도 한번 학습시켜보자.

### Random Forest

**RandomForest**를 확인해보자. Random Rores는 Decision Tree모델을 여러개 합쳐놓음으로써 Decision Tree의 단점을 극복한 모델이다.

이러한 기법을 **앙상블(Ensemble)기법** 이라고 하는데, 단일 모델을 여러개 사용하는 방법을 취함으로써 모델을 한개만 사용할 때의 단점을 극복하는 개념이다.

In [28]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

random_forest = RandomForestClassifier(random_state = 32)
random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.83      0.83      0.83        12
           2       0.82      0.82      0.82        11

    accuracy                           0.87        30
   macro avg       0.88      0.88      0.88        30
weighted avg       0.87      0.87      0.87        30



### Support Vector Machine (SVM)

SVM도 sklearn에 기본 내장되어있다. 똑같이 사용할 수 있다.

In [29]:
from sklearn import svm

svm_model = svm.SVC()

print(svm_model._estimator_type)

classifier


In [30]:
svm_model.fit(X_train, y_train)
y_pred = svm_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.83      0.83      0.83        12
           2       0.82      0.82      0.82        11

    accuracy                           0.87        30
   macro avg       0.88      0.88      0.88        30
weighted avg       0.87      0.87      0.87        30



### Stochastic Gradient Descent Classifier (SGDClassifier)


![img](https://engmrk.com/wp-content/uploads/2018/04/Fig2-1024x318.png)

배치 크기가 1인 경사하강법 알고리즘으로, 즉 데이터 세트에서 무작위로 균일하게 선택한 하나의 예를 의존하여 각 단계의 예측 경사를 계산한다.

> 배치란?

경사하강법에서 **배치**는 *단일 반복 기울기를 계산하는데 사용하는 data의 총 개수*다. 배치를 전체 데이터 세트라고도 할 수 있으나, 데이터가 만약 수십억, 수천억개의 data가 포함되는 경우가 있다면 단일 반복으로 계산하는 데 오랜 시간이 걸린다.

무작위로 샘플링된 예가 포함된 대량의 데이터에는 중복 데이터가 포함될 수 있다. 적당한 중복성은 노이즈가 있는 기울기를 평활화 하는데 유용할 수 있으나, 배치가 거대해지면 예측성이 훨씬 높은 값이 대용량 배치에 비해 덜 포함되는 경향이 있다.

이때문에 **확률적 경사하강법(SGD)** 가 등장하게 되었는데, 이는 배치크기를 1로 설정하여 월씬 적은 데이터 세트로 중요한 평균값을 추정하는 것을 도와준다. 다만 반복이 충분하면 SGD는 효과가 있지만 노이즈가 매우 심하다. '확률적(Stochastic)'이라는 용어는 각 배치를 포함하는 하나의 예가 무작위로 선택된다는 것을 의미한다.

이때문에 **미니 배치 확률적 경사하강법(미니배치 SGD)** 가 등장하였지만.. 이는 차근차근 나중에 알아보도록 하자.

---

이 모델은 나도 처음 보는 모델이었는데, 관련한 내용은 아래 링크에서 확인해보는 것을 추천한다!

- [Scikit-Learn 의 SGD 구현 - 데이터 사이언스 스쿨](https://datascienceschool.net/view-notebook/342b8e2ecf7a4911a727e6fe97f4ab6b/)
- [Gradient Descent(경사하강법)과 SGD(Stochastic Gradient Descent) 롹률적 경사하강법](https://everyday-deeplearning.tistory.com/entry/SGD-Stochastic-Gradient-Descent-%ED%99%95%EB%A5%A0%EC%A0%81-%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95)
- [손실 줄이기: 확률적 경사하강법](https://developers.google.com/machine-learning/crash-course/reducing-loss/stochastic-gradient-descent?hl=ko)

다시 그럼 본론으로 돌아와서 SGD모델도 한번 학습시켜보자.

In [31]:
from sklearn.linear_model import SGDClassifier
sgd_model = SGDClassifier()

print(sgd_model._estimator_type)

classifier


In [32]:
sgd_model.fit(X_train, y_train)
y_pred = sgd_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.86      0.86      0.86         7
           1       0.73      0.67      0.70        12
           2       0.75      0.82      0.78        11

    accuracy                           0.77        30
   macro avg       0.78      0.78      0.78        30
weighted avg       0.77      0.77      0.77        30



### Logistic Regression

로지스틱 회귀 모델을 통해서도 한번 분류해보자.

> Logistic Regression이란?

**Logistic Regression**은 회귀를 사용하여 데이터가 어떠한 범주에 속할 확률을 0에서 1 사이의 값으로 예측하고 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해주는 지도학습 알고리즘이다.

스팸 메일 분류기 같은 예시를 생각하면 쉽다. 데이터가 2개의 범주(ex. 스팸인지 아닌지) 중 하나에 속하도록 결정하는 것을 2진 분류라고 한다.

![img](https://i0.wp.com/hleecaster.com/wp-content/uploads/2019/12/logreg02.png?w=973)

로지스틱회귀에서 사용되는 그래프를 사용하면 위 그림과 같은 함수다. (**sigmoid 함수**) 그래서 시험헤 홥격할 확률을 0과 1사이의 값으로 그려진다. 

다시 본론으로 돌아와서, Logistic 모델도 한번 학습시켜보자.

In [33]:
from sklearn.linear_model import LogisticRegression

logistic_model = LogisticRegression()
print(logistic_model._estimator_type)

classifier


In [34]:
logistic_model.fit(X_train, y_train)
y_pred = logistic_model.predict(X_test)

print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.83      0.83      0.83        12
           2       0.82      0.82      0.82        11

    accuracy                           0.87        30
   macro avg       0.88      0.88      0.88        30
weighted avg       0.87      0.87      0.87        30



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


많은 Classifier를 사용해보았다. 이런식으로 `sklearn`에서 제공하는 classifier를 사용하면 쉽게 분류기를 만들 수 있다.