# 5. Iris의 세 가지 품종, 분류해볼 수 있겠어요?
## 5-1. 학습목표: 예제 데이터셋을 활용해 분류 모델을 활용해본다.
1. scikit-learn에 내장된 예제 데이터셋의 종류를 알고 활용할 수 있다.
2. scikit-learn에 내장된 분류 모델들을 학습시키고 예측해 볼 수 있다.
3. 모델의 성능을 평가하는 지표의 종류에 대해 이해하고, 활용 및 확인해 볼 수 있다.
4. Decision Tree, XGBoost, RandomForest, 로지스틱 회귀 모델을 활용해서 간단하게 학습 및 예측해 볼 수 있다.
5. 데이터셋을 사용해서 스스로 분류 기초 실습을 진행할 수 있다.

---
## 5-2. 데이터 소개

![image.png](attachment:image.png)

1. 4개의 정보를 가진 150개의 데이터 엔트리
2. 분류 카테고리를 뜻하는 3개의 클래스

---
## 5-3. 데이터 준비
---

In [1]:
# sklearn 라이브러리의 datasets 패키지에서 load_iris 함수를 임포트함
from sklearn.datasets import load_iris

# load_iris 함수는 iris 데이터셋을 로드하는 함수
# 로드된 iris 데이터셋을 iris라는 변수에 저장
iris = load_iris()

# dir()는 객체가 어떤 변수와 메서드를 가지고 있는지 나열함
print(dir(iris))

# iris 데이터셋에 담긴 정보 종류 확인
print(iris.keys())

['DESCR', 'data', 'data_module', 'feature_names', 'filename', 'frame', 'target', 'target_names']
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [2]:
# keys에서 확인한 정보 중 data를 따로 iris_data 변수에 저장
iris_data = iris.data

# shape는 배열의 형상정보를 출력
# 150개의 데이터가 각각 4개의 정보를 담고 있음
print(iris_data.shape) 

(150, 4)


In [3]:
# 150개의 데이터 중 첫 번째 데이터 출력
print(iris_data[0])

# 위 데이터의 이름을 알기 위해선...
print(iris["feature_names"])

[5.1 3.5 1.4 0.2]
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']


In [4]:
# keys에서 확인한 정보 중 target을 따로 iris_label 변수에 저장
iris_label = iris.target

# iris_data와 다르게 150개의 숫자만 가지고 있음
print(iris_label.shape)
print(iris_label)

# 위 데이터의 이름을 알기 위해선...
print(iris["target_names"]) # 0 = setosa, 1 = versicolor, 2 = virginica

(150,)
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


In [5]:
# 이 데이터셋의 설명을 읽기 위해선...
print(iris["DESCR"])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [6]:
# 이 데이터셋의 파일명을 보기 위해선...
print(iris.filename)

iris.csv


---
## 5-4. 모델 학습을 위한 데이터 준비
---

In [7]:
# pandas 라이브러리를 pd라는 약칭으로 임포트
import pandas as pd

# pandas의 버전 확인
print(pd.__version__)

1.3.3


In [8]:
# iris_data의 데이터 타입은 numpy의 ndarray인 것을 확인할 수 있음
type(iris_data)

# 150개 데이터가 각각 4개의 정보를 가지고 있던 iris_data를 
# iris.feature_names을 컬럼명으로 하는 DataFrame 자료형으로 변환해서 iris_df 변수에 저장
# (원래 iris_data는 배열(np.array) 자료형이었음!)
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [9]:
# iris_df에 label이라는 컬럼을 새로 추가
# 150개의 숫자로 이루어져 있었던 iris.target를 label 컬럼에 채워넣기
iris_df["label"] = iris.target
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


---
Dataset의 구성을 정리하자면 다음과 같습니다.

- 문제지(Feature) : 머신러닝 모델에게 입력되는 데이터. 변수 이름으로는 X를 많이 사용한다.
- 정답지(Label or Target) : 머신러닝 모델이 맞혀야 하는 데이터. 변수 이름으로는 y를 많이 사용한다.

따라서 머신러닝 모델을 학습시키려면 한 가지 장치가 필요합니다. 바로 학습에 사용하는 training dataset과 모델의 성능을 평가하는 데 사용하는 test dataset으로 데이터셋을 나누는 작업이 필요하죠. 우리에게는 150개의 데이터가 있지만, 이 150개를 모두 학습시키는 데에 사용해버리면 학습이 완료된 모델의 성능을 공정하게 평가할 수 없기 때문입니다.

여기서 feature, label, target 과 같은 용어들을 잘 기억해두길 바랍니다! 머신러닝에서는 아주 많이 쓰이는 기본 용어이니까요 :)

---

In [10]:
# sklearn model_selection패키지의 train_test_split 함수를 임포트
from sklearn.model_selection import train_test_split

# 나눠야 할 데이터(문제지, X): iris_data
# 데이터의 라벨(정답, y): iris_label
# iris_data와 iris_label를 각각 train:test = 8:2의 비율로 잘라서 
# X_train, X_test, y_train, y_test에 저장
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7)

# len은 배열의 길이를 출력
print('X_train 개수: ', len(X_train),', X_test 개수: ', len(X_test))

X_train 개수:  120 , X_test 개수:  30


In [11]:
# train의 형상정보 확인
print(X_train.shape, y_train.shape)

# test의 형상정보 확인
print(X_test.shape, y_test.shape)

# label이 잘 분리되었는지 확인
print(y_train, y_test, sep = "\n")

(120, 4) (120,)
(30, 4) (30,)
[2 1 0 2 1 0 0 0 0 2 2 1 2 2 1 0 1 1 2 0 0 0 2 0 2 1 1 1 0 0 0 1 2 1 1 0 2
 0 0 2 2 0 2 0 1 2 1 0 1 0 2 2 1 0 0 1 2 0 2 2 1 0 1 0 2 2 0 0 2 1 2 2 1 0
 0 2 0 0 1 2 2 1 1 0 2 0 0 1 1 2 0 1 1 2 2 1 2 0 1 1 0 0 0 1 1 0 2 2 1 2 0
 2 1 1 0 2 1 2 1 0]
[2 1 0 1 2 0 1 1 0 1 1 1 0 2 0 1 2 2 0 0 1 2 1 2 2 2 1 1 2 2]


---

## 5-5. 모델 학습을 위한 데이터 준비

1. 지도학습: 정답이 있는 문제에 대해 학습; 데이터셋에 정답이 포함
    - 분류문제: 의사결정나무 모델 등
    - 회귀문제: 선형회귀모델 등
2. 비지도학습: 정답이 없는 문제에 대해 학습; 통계적 군집화 등을 통해 정답을 추정

### [의사결정나무에 대한 설명](https://ratsgo.github.io/machine%20learning/2017/03/26/tree/)
  1. 재귀적 분기
      1. 임의의 한 변수를 기준으로 정렬하고, 모든 분기점에 대해 엔트로피/지니계수를 구해 획득된 정보량을 조사
      2. 모든 변수 d와 모든 개체 n를 대상으로 총 $d(n-1)$회 시행
      3. 가장 정보획득량이 높은 시행을 1차 분기로 설정
      4. 반복: 든 terminal node의 순도가 100%인 Full Tree 획득
  2. 가지치기
      1. 분기 수가 증가함에 따라 오분류가 발생할 기대확률이 증가함
      2. 따라서, 분류율과 오분류율 사이에서 최적화되는 지점에서 가지치기 진행
      3. 해당 최적화를 위해서는 비용함수 $CC(T) = Err(T) + \alpha * L(T)$ 활용
      
![pruning](http://i.imgur.com/MVFcKwz.png)

*다만 의사결정나무는 [결정경계(decision boundary)](https://en.wikipedia.org/wiki/Decision_boundary)가 데이터 축에 수직이어서(: 각 분할마다 하나의 특성만을 기준으로 데이터를 나누어서) 특정 데이터에만 잘 작동할 가능성이 높습니다: 이를 극복하기 위해 [임의숲, 회전숲](https://ratsgo.github.io/machine%20learning/2017/03/17/treeensemble/) 등의 모델을 사용하기도 합니다.*

![rotation_forest](http://i.imgur.com/Uv2dlsH.gif)

---

In [12]:
# sklearn.tree 패키지에서 의사결정트리 모델 import
from sklearn.tree import DecisionTreeClassifier 

# random_state : 재현가능하도록 난수의 초기값 32로 설정
decision_tree = DecisionTreeClassifier(random_state=32) 
print(decision_tree._estimator_type)

classifier


In [13]:
# 학습데이터 X_train, y_train로 의사결정나무 모델로 학습하기
decision_tree.fit(X_train, y_train)

DecisionTreeClassifier(random_state=32)

---

## 5-6. 학습된 모델 평가

---

In [14]:
# 테스트데이터 X_test로 예측하기
y_pred = decision_tree.predict(X_test) #feature set인 X-test를 예측해 label set을 얻음
y_pred

array([2, 1, 0, 1, 2, 0, 1, 1, 0, 1, 2, 1, 0, 2, 0, 2, 2, 2, 0, 0, 1, 2,
       1, 1, 2, 2, 1, 1, 2, 2])

In [15]:
# 정답률 확인: 수작업으로
# 람다로 해볼까...

pct = 0
for pred, true in zip(y_pred, y_test):
    if pred == true:
        pct += 1

print(pct/len(y_pred))

0.9


In [16]:
# 정답률 확인: 모듈 사용
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, y_pred)
print(accuracy)

0.9


In [17]:
# 학습결과 통계치 확인: 모듈 사용
from sklearn.metrics import classification_report

report = classification_report(y_test, y_pred)
print(report)

              precision    recall  f1-score   support

           0       1.00      1.00      1.00         7
           1       0.91      0.83      0.87        12
           2       0.83      0.91      0.87        11

    accuracy                           0.90        30
   macro avg       0.91      0.91      0.91        30
weighted avg       0.90      0.90      0.90        30



---

## 5-7. 모델 학습 응용: 새로운 학습모델

- 지금까지 진행한 내용을 종합하면 아래와 같습니다.

```python
# (1) 필요한 모듈 import
from sklearn.datasets import load_iris #싸이킷런 데이터셋에 있는 iris를 불러오는 코드
from sklearn.model_selection import train_test_split #싸이킷런에 있는 데이터를 train과 test dataset으로 나누어주는 함수 import
from sklearn.tree import DecisionTreeClassifier # 싸이킷런에 있는 결정트리분류기를 사용하기 위해 불러오는 코드
from sklearn.metrics import classification_report #싸이킷런에 있는 분류 결과에 대한 시각화를 위해 쓰는 코드

# (2) 데이터 준비
iris = load_iris() #iris 데이터 전체를 불러온다.
iris_data = iris.data #iris데이터의 data컬럼을 분류해 iris_data 변수에 담는다.
iris_label = iris.target #iris데이터의 target컬럼을 분류해 iris_label 변수에 담는다.

# (3) train, test 데이터 분리
#train_test_split()를 사용하여 X값, y값을 각각 train data와 test data로 나눈다. 함수에 들어 갈 파라미터로는 x,y가 들어가고
#test_size는 몇대몇으로 나눌지 정하는 옵션, random_state는 랜덤 패턴의 값을 지정한다. (어떤 값을 넣어도 무방하다.)
X_train, X_test, y_train, y_test = train_test_split(iris_data, 
                                                    iris_label, 
                                                    test_size=0.2, 
                                                    random_state=7) 


# (4) 모델 학습 및 예측
decision_tree = DecisionTreeClassifier(random_state=32) #결정트리분류기의 객체를 만든다.
decision_tree.fit(X_train, y_train) # 분류기에 x와 y의 훈련 데이터를 넣어 훈련 시킨다.
y_pred = decision_tree.predict(X_test) # 훈련된 분류기에 X_test라는 테스트 데이터셋을 넣어 얼마나 예측했는지 확인한다.

print(classification_report(y_test, y_pred)) # 결과를 지표로 확인하기 위해 classification_report를 활용해 y_test, y_pred 값을 넣어 확인한다.
```

- 학습모델을 바꾸고 싶다면, `(4) 모델 학습 및 예측` 항목에서 모델을 변경할 수 있습니다.

### 5-7-1. 임의숲(Random Forest)
![rf_example](https://1.bp.blogspot.com/-Ax59WK4DE8w/YK6o9bt_9jI/AAAAAAAAEQA/9KbBf9cdL6kOFkJnU39aUn4m8ydThPenwCLcBGAsYHQ/s0/Random%2BForest%2B03.gif)
다양한 독립조건을 가진 의사결정나무를 만들고, 각각의 의사결정나무가 예측하는 값을 `앙상블” (Ensemble method): 의견을 통합하거나 여러가지 결과를 합치는 것을 가리키는 데이터사이언스 용어`하여 모델을 작성하는 것을 말합니다.

- 건강의 위험도를 예측하기 위해서는 많은 요소를 고려 성별, 키, 몸무게, 지역, 운동량, 흡연유무, 음주 여부, 혈당, 근육량, 기초 대사량 등 수많은 요소가 필요
- Feature가 30개라 했을 때 30개의 Feature를 기반으로 하나의 결정 트리를 만든다면 트리의 가지가 많아질 것이고, 이는 오버피팅의 결과를 야기
- 30개의 Feature 중 랜덤으로 5개의 Feature만 선택해서 하나의 결정 트리 생성
- 계속 반복하여 여러 개의 결정 트리 생성
- 여러 결정 트리들이 내린 예측 값들 중 가장 많이 나온 값을 최종 예측값으로 지정
- 이렇게 의견을 통합하거나 여러 가지 결과를 합치는 방식을 앙상블(Ensemble)이라고 함
- 하나의 거대한 (깊이가 깊은) 결정 트리를 만드는 것이 아니라 여러 개의 작은 결정 트리를 만드는 것
- 분류 : 여러 개의 작은 결정 트리가 예측한 값들 중 가장 많은 값, 회귀 : 평균

---

In [18]:
from sklearn.ensemble import RandomForestClassifier #랜덤포레스트라는 분류기를 사용하기 위해 import

X_train, X_test, y_train, y_test = train_test_split(iris_data, # iris 데이터의 data 컬럼
                                                    iris_label, # iris 데이터의 target 컬럼
                                                    test_size=0.2, # test_size : train data와 test data를 몇대몇으로 나눌지 정하는 옵션
                                                    random_state=21) # random_state : 랜덤 패턴의 값을 지정

random_forest = RandomForestClassifier(random_state=32) # RandomForest분류기 객체를 생성
random_forest.fit(X_train, y_train) # 훈련
y_pred = random_forest.predict(X_test) # 예측

print(classification_report(y_test, y_pred)) # 결과 지표를 확인

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      0.83      0.91        12
           2       0.78      1.00      0.88         7

    accuracy                           0.93        30
   macro avg       0.93      0.94      0.93        30
weighted avg       0.95      0.93      0.93        30



### 5-7-2. Support Vector Machine (SVM)
![svm](https://d3s0tskafalll9.cloudfront.net/media/original_images/image_ptzg5hx.png)

### 5-7-3. Stochastic Gradient Descent(SGD)
![svm](https://d3s0tskafalll9.cloudfront.net/media/images/image_YgIrllz.max-800x600.png)

### 5-7-4. 로지스틱 회귀
![lgst_regr](https://d3s0tskafalll9.cloudfront.net/media/original_images/image_kor4BdM.png)