<파이썬 머신러닝 완벽 가이드> 2장 부분

붓꽃 품종 예측하기

### 분류(classification)는 대표적인 지도학습 방법 중 하나.  
### 지도학습
학습을 위한 다양한 피처와 분류 결정값인 레이블(Label) 데이터로 모델을 학습한 뒤, 별도의 테스트 데이터 세트에서 미지의 레이블을 예측  
-> 명확한 정답이 주어진 데이터를 먼저 학습한 뒤 미지의 정답을 예측하는 방식

- 학습 데이터 세트: 학습을 위해 주어진 데이터 세트
- 테스트 데이터 세트: 머신러닝 모델의 예측 성능을 평가하기 위해 별도로 주어진 데이터 세트

### 사이킷런에서 사용할 모듈을 임포트
사이킷런 패키지 내의 모듈명은 sklearn으로 시작한다.  
- `sklearn.datasets` : 사이킷런에서 자체적으로 제공하는 데이터 세트를 생성하는 모듈의 모임
- `sklearn.tree` : 트리 기반 ML알고리즘을 구현한 클래스의 모임
- `sklearn.model_selection` : 학습 데이터와 검증 데이터, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 모듈의 모임

하이퍼 파라미터 : 머신러닝 알고리즘별로 최적의 학습을 위해 직접 입력하는 파라미터들의 통칭. 하이퍼 파라미터를 통해 머신러닝 알고리즘의 성능을 튜닝할 수 있다.

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np

### 데이터 로딩

In [4]:
iris = load_iris()
print(type(iris))

<class 'sklearn.utils.Bunch'>


In [5]:
iris.keys()

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])

data

In [12]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

feature_names: data의 컬럼명

In [17]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

target: 레이블(결정 값) 데이터

In [14]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

target_names : label

In [16]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

describe

In [18]:
print('key DESCR\n', iris.DESCR)

key DESCR
 .. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa

### dataset의 키
- data: 피처의 데이터 세트
- target: 분류 시 레이블 값, 회귀일 때는 숫자 결괏값 데이터 세트
- target_names: 개별 레이블의 이름
- feature_names: 피처의 이름
- DESCR: 데이터 세트에 대한 설명과 각 피처의 설명

In [19]:
# 다시 feature dataset 확인
iris_data = iris.data
iris_data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [20]:
# label 확인
iris_label = iris.target

print('iris target 값: ', iris_label)
print('iris target 명: ', iris.target_names)

iris target 값:  [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
iris target 명:  ['setosa' 'versicolor' 'virginica']


In [24]:
# 데이터 프레임으로 변환

iris_df = pd.DataFrame(iris_data,
                      columns = iris.feature_names)

iris_df['label'] = iris.target
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### 학습 데이터, 테스트 데이터 분리
학습 데이터로 학습된 모델이 얼마나 뛰어난 성능을 가지는지 평가하려면 테스트 데이터 세트가 필요.  
`train_test_split()` : 학습 데이터와 테스트 데이터를 `test_size`파라미터 입력 값의 비율로 쉽게 분할.
- test_size = 0.2 설정하면 테스트 데이터가 20%, 학습 데이터 80%로 분할

In [25]:
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, 
                                                   test_size = 0.2, 
                                                   random_state = 11)

In [26]:
X_train # 학습용 피처 데이터 세트

array([[5.1, 3.5, 1.4, 0.2],
       [6.9, 3.2, 5.7, 2.3],
       [7.7, 2.8, 6.7, 2. ],
       [5. , 3.3, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [7.7, 2.6, 6.9, 2.3],
       [7.6, 3. , 6.6, 2.1],
       [6.7, 3. , 5. , 1.7],
       [5.5, 3.5, 1.3, 0.2],
       [6. , 2.7, 5.1, 1.6],
       [5. , 2. , 3.5, 1. ],
       [7.9, 3.8, 6.4, 2. ],
       [4.6, 3.4, 1.4, 0.3],
       [6.9, 3.1, 4.9, 1.5],
       [6.5, 3. , 5.8, 2.2],
       [5.1, 2.5, 3. , 1.1],
       [6.6, 2.9, 4.6, 1.3],
       [5. , 3.2, 1.2, 0.2],
       [7.4, 2.8, 6.1, 1.9],
       [5.1, 3.8, 1.6, 0.2],
       [6.8, 3.2, 5.9, 2.3],
       [6.9, 3.1, 5.1, 2.3],
       [5.9, 3. , 4.2, 1.5],
       [4.9, 2.5, 4.5, 1.7],
       [6.7, 3.1, 4.7, 1.5],
       [4.4, 3.2, 1.3, 0.2],
       [5.4, 3.4, 1.7, 0.2],
       [6.5, 2.8, 4.6, 1.5],
       [5.1, 3.7, 1.5, 0.4],
       [5. , 3.4, 1.6, 0.4],
       [6.1, 2.6, 5.6, 1.4],
       [6.5, 3. , 5.5, 1.8],
       [6.3, 2.5, 5. , 1.9],
       [5.2, 3.4, 1.4, 0.2],
       [5. , 3

In [28]:
X_test # 테스트용 피처 데이터 세트

array([[6.8, 3. , 5.5, 2.1],
       [6.7, 3. , 5.2, 2.3],
       [6.3, 2.8, 5.1, 1.5],
       [6.3, 3.3, 4.7, 1.6],
       [6.4, 2.7, 5.3, 1.9],
       [4.9, 3.1, 1.5, 0.1],
       [6.7, 3.1, 4.4, 1.4],
       [5.7, 4.4, 1.5, 0.4],
       [4.8, 3.1, 1.6, 0.2],
       [6.1, 2.9, 4.7, 1.4],
       [6. , 2.2, 5. , 1.5],
       [6. , 2.2, 4. , 1. ],
       [5.4, 3. , 4.5, 1.5],
       [5.7, 2.5, 5. , 2. ],
       [6.9, 3.1, 5.4, 2.1],
       [4.5, 2.3, 1.3, 0.3],
       [6.3, 2.9, 5.6, 1.8],
       [5.6, 3. , 4.5, 1.5],
       [6.5, 3.2, 5.1, 2. ],
       [5.8, 2.7, 5.1, 1.9],
       [5.6, 2.5, 3.9, 1.1],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.6, 1. , 0.2],
       [6.4, 3.2, 4.5, 1.5],
       [4.8, 3. , 1.4, 0.1],
       [4.8, 3.4, 1.6, 0.2],
       [5.9, 3. , 5.1, 1.8],
       [6.6, 3. , 4.4, 1.4],
       [5.4, 3.9, 1.3, 0.4],
       [6. , 3.4, 4.5, 1.6]])

In [29]:
y_train # 학습용 레이블 데이터 세트

array([0, 2, 2, 0, 0, 2, 2, 1, 0, 1, 1, 2, 0, 1, 2, 1, 1, 0, 2, 0, 2, 2,
       1, 2, 1, 0, 0, 1, 0, 0, 2, 2, 2, 0, 0, 0, 1, 0, 1, 2, 2, 1, 1, 2,
       2, 0, 1, 1, 2, 2, 2, 0, 2, 0, 0, 0, 0, 2, 0, 0, 0, 1, 0, 1, 1, 2,
       1, 0, 0, 0, 1, 1, 1, 2, 1, 0, 1, 2, 0, 2, 2, 1, 0, 0, 0, 2, 1, 0,
       2, 1, 2, 0, 0, 1, 1, 2, 1, 2, 2, 1, 1, 2, 2, 0, 1, 2, 0, 2, 2, 0,
       1, 2, 0, 1, 1, 1, 0, 1, 1, 1])

In [30]:
y_test # 테스트용 레이블 데이터 세트

array([2, 2, 2, 1, 2, 0, 1, 0, 0, 1, 2, 1, 1, 2, 2, 0, 2, 1, 2, 2, 1, 0,
       0, 1, 0, 0, 2, 1, 0, 1])

X_train -> y_train  
X_test -> y_test

### 학습, 예측 수행 (DecisionTreeClassifier)

In [32]:
# DecisionTreeClassifier 객체 생성
dt_clf = DecisionTreeClassifier(random_state = 11)

In [33]:
# 학습 수행
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=11, splitter='best')

In [34]:
# 학습이 완료된 DecisionTreeClassifier 객체에서 테스트 데이터 세트로 예측 수행

pred = dt_clf.predict(X_test)

In [36]:
# 정확도 측정

from sklearn.metrics import accuracy_score
print('예측 정확도:{0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도:0.9333


### 붓꽃 데이터 세트 분류 예측 프로세스 정리
1. 데이터 세트 분리: 데이터를 학습 데이터와 테스트 데이터로 분리한다.
2. 모델 학습: 학습 데이터를 기반으로 ML 알고리즘을 적용해 모델을 학습시킨다.
3. 예측 수행: 학습된 ML 모델을 이용해 테스트 데이터의 분류(즉, 붓꽃 종류)를 예측합니다.
4. 평가: 이렇게 예측된 결괏값과 테스트 데이터의 실제 결괏값을 비교해 ML 모델 성능을 평가합니다.

# 03. 사이킷런의 기반 프레임워크 익히기
## Estimator 이해 및 fit(), predict() 메서드
- `fit()` ML 모델학습 메서드
- `predict()` : 학습된 모델의 예측 메서드
- 지도학습의 주요 두 축인 분류와 회귀의 알고리즘을 구현한 모든 사이킷런 클래스는 `fit()`과 `predict()`만을 이용해 간단하게 학습과 예측 결과를 반환


- `Classifier`: 분류 알고리즘을 구현한 클래스
- `Regressor` : 회귀 알고리즘을 구현한 클래스


- Estimator 클래스 : `Classifier`와 `Regressor`를 합친 것

# 04. Model Selection 모듈 소개
사이킷런의 model_selection 모듈은 학습 데이터와 테스트 **데이터 세트를 분리**하거나 **교차 검증 분할 및 평가**, 그리고 Estimator의 **하이퍼 파라미터를 튜닝**하기 위한 다양한 함수와 클래스를 제공.

### 학습/테스트 데이터 세트 분리 - train_test_split()

In [37]:
# 테스트 데이터 세트를 이용하지 않고, 학습 데이터 세트로만 학습, 예측

iris = load_iris()
dt_clf = DecisionTreeClassifier()

train_data = iris.data
train_label = iris.target
dt_clf.fit(train_data, train_label)

# 학습 데이터 세트로 예측 수행
pred = dt_clf.predict(train_data)
print('예측정확도:', accuracy_score(train_label, pred))

예측정확도: 1.0


### train_test_split()
원본 데이터 세트에서 학습 및 테스트 데이터 세트를 분리  
`sklearn.model_selection`모듈에서 `train_test_split`로드  
첫번째 파라미터로 피처 데이터 세트, 두번째 파라미터로 레이블 데이터 세트를 입력 받는다.  

파라미터 옵션
- `test_size` : 테스트 데이터 세트 크기 비율. 디폴트는 `0.25`
- `shuffle` : 데이터를 분리하기 전에 미리 섞을지 결정. 디폴트는 `True`
- `random_state`: 호출할 때마다 동일한 학습/테스트용 데이터세트를 생성하기 위해 주어지는 난수값  

`train_test_split()`의 반환값은 튜플 형태.
순차적으로 `학습용 데이터의 피처 데이터 세트`, `테스트용 데이터의 피처 데이터 세트`, `학습용 데이터의 레이블 데이터 세트`, `테스트용 데이터의 레이블 데이터 세트`가 반환

In [2]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np

In [3]:
# 학습 데이터, 테스트 데이터 분리
dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                   test_size = 0.3, random_state=121)

In [4]:
# fit, predict

dt_clf.fit(X_train, y_train)

pred = dt_clf.predict(X_test)
print('예측 정확도: {0:.4f}'.format(accuracy_score(y_test, pred)))

예측 정확도: 0.9556


학습을 위한 데이터의 양을 일정 수준 이상으로 보장하는 것도 중요하지만, 학습된 모델에 대해 다양한 데이터를 기반으로 예측 성능을 평가해보는 것도 중요하다.

## 교차검증
위의 방법처럼 학습 데이터와 테스트용 데이터로 예측 성능을 평가하는 것에는 과적합(Overfitting)에 취약한 약점을 가진다.
### 과적합
: 모델이 학습 데이터에만 과도하게 최적화되어, 실제 예측을 다른 데이터로 수행할 경우에는 예측 성능이 과도하게 떨어지는 것.  
고정된 학습 데이터와 테스트 데이터로만 평가를 하다 보면 테스트 데이터에만 최적의 성능을 발휘할 수 있도록 편향되게 모델을 유도하는 경향이 생긴다.
결국 해당 테스트 데이터에만 과적합되는 학습 모델이 만들어져 다르 테스트용 데이터가 들어올 경우에는 성능이 저하된다. 

이러한 문제점을 개선하기 위해 교차 검증을 이용해 더 다양한 학습과 평가를 수행한다.

### 교차검증
: 본고사(테스트 데이터 세트에 대해 평가하는 것)를 치르기 전에 모의고사(교차 검증에에서 많은 학습과 검증 세트에서 알고리즘 학습과 평가를 수행하는 것)를 여러 번 보는 것.

ML은 데이터에 기반. 데이터는 이상치, 분포도, 다양한 속성값, 피처 중요도 등 여러 가지 ML에 영향을 미치는 요소를 가지고 있다. 특정 ML 알고리즘에서 최적으로 동작할 수 있도록 데이터를 선별해 학습한다면 실제 데이터 양식과는 많은 차이가 있을 것이고 결국 성능 저하로 이어진다.

> 이러한 데이터 편중을 막기 위해 별도의 여러 세트로 구성된 학습 데이터 세트와 검증 데이터 세트에서 학습과 평가를 수행. 각 세트에서 수행한 평가 결과에 따라 하이퍼 파라미터 튜닝 등의 모델 최적화를 더욱 손쉽게 할 수 있다.

대부분의 ML모델의 성능 평가는 교차 검증 기반으로 1차 평가를 한 뒤에 최종적으로 테스트 데이터 세트에 적용해 평가하는 프로세스이다.
ML에 사용되는 데이터 세트를 세분화해서 학습, 검증, 테스트 데이터 세트로 나눈다. 
테스트 데이터 세트 외에 별도의 검증 데이터 세트를 둬서 최종 평가 이전에 학습된 모델을 다양하게 평가하는데 사용한다.

### K 폴드 교차 검증
가장 보편적으로 사용되는 교차 검증 기법.  
K개의 데이터 폴드 세트를 만들어서 K번 만큼 각 폴드 세트에 학습과 검증 평가를 반복적으로 수행.

In [5]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
import numpy as np

iris = load_iris()

features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

# 5개의 폴드 세트로 분리하는 KFold 객체와 폴드 세트 별 정확도를 담을 리스트 객체 생성
kfold = KFold(n_splits = 5)
cv_accuracy = []
print('붓꽃 데이터 세트 크기:', features.shape[0])

붓꽃 데이터 세트 크기: 150


In [16]:
n_iter = 0

# KFold 객체의 split()을 호출하면 
# 폴드 별 학습용, 검증용 테스트의 로우 인덱스를 array로 반환

for train_index, test_index in kfold.split(features):
    # kfold.split()으로 반환된 인덱스를 이용해, 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
#     print(X_train)
#     print(X_test)
    y_train, y_test = label[train_index], label[test_index]
#     print(y_train)
#     print(y_test)

    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n{} 교차검증 정확도: {}, 학습 데이터 크기: {}, 검증 데이터 크기:{}'.format(n_iter, accuracy, train_size, test_size))
    print('\n{0} 검증 세트 인덱스:{1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
# 개별 iteration 별 정확도를 합하여 평균 정확도 계산
print('\n## 평균 검증 정확도: ', np.mean(cv_accuracy))


1 교차검증 정확도: 1.0, 학습 데이터 크기: 120, 검증 데이터 크기:30

1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

2 교차검증 정확도: 0.9667, 학습 데이터 크기: 120, 검증 데이터 크기:30

2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

3 교차검증 정확도: 0.8667, 학습 데이터 크기: 120, 검증 데이터 크기:30

3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

4 교차검증 정확도: 0.9333, 학습 데이터 크기: 120, 검증 데이터 크기:30

4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

5 교차검증 정확도: 0.7333, 학습 데이터 크기: 120, 검증 데이터 크기:30

5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

## 평균 검증 정확도:  0.9


### Stratified K 폴드
: 불균형한(imbalanced) 분포도를 가진 레이블(결정 클래스) 데이터 집합을 위한 K 폴드 방식  

**불균형한 분포도를 가진 레이블 데이터 집합**
: 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것  

K 폴드가 레이블 데이터 집합이 원본 데이터 집합의 레이블 분포를 학습/테스트 세트에 제대로 분배하지 못하는 경우의 문제를 해결해준다.  

원본 데이터의 레이블 분포르르 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다. 

In [17]:
iris = load_iris()
iris_df = pd.DataFrame(iris.data,
                      columns = iris.feature_names)
iris_df['label'] = iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [19]:
# K Fold로 했을 때 문제가 발생하는 상황

kfold = KFold(n_splits = 3)
n_iter = 0

for train_index, test_index, in kfold.split(iris_df):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차검증:{}'.format(n_iter))
    print('학습 레이블 데이터 분포: \n', label_train.value_counts())
    print('검증 레이블 데이터 분포: \n', label_test.value_counts())

## 교차검증:1
학습 레이블 데이터 분포: 
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포: 
 0    50
Name: label, dtype: int64
## 교차검증:2
학습 레이블 데이터 분포: 
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포: 
 1    50
Name: label, dtype: int64
## 교차검증:3
학습 레이블 데이터 분포: 
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포: 
 2    50
Name: label, dtype: int64


교차 검증 시마다 3개의 폴드 세트로 만들어지는 학습 레이블과 검증 레이블이 완전히 다른 값으로 추출된다. 첫 번째 교차 검증에서 학습 레이블은 1, 2 각각 50개, 검증레이블은 0이 50개 추출되었다. 학습 레이블은 1, 2 밖에 없으므로 0의 경우는 학습하지 못한다. 반대로 검증 레이블은 0밖에 없으므로 학습 모델은 절대 0을 예측하지 못한다. 이렇게 분할하면 검증 예측 정확도는 0이 될 수 밖에 없다.

In [20]:
# Stratified K 폴드

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)
n_iter = 0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print('## 교차 검증: {}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    34
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    17
0    17
2    16
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 1    34
2    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
0    17
1    16
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 0    34
2    33
1    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    16
Name: label, dtype: int64


학습 레이블과 검증 레이블 데이터 값의 분포가 동일하다.

In [21]:
# Stratified K Fold를 이용해 붓꽃 데이터 교차 검증

dt_clf = DecisionTreeClassifier(random_state = 156)

skfold = StratifiedKFold(n_splits = 3)

n_iter = 0
cv_accuracy = []

# StratifiedKFold의 split() 호출 시 반드시 레이블 데이터 세트도 추가 입력

for train_index, test_index in skfold.split(features, label):
    # split()으로 반환된 인덱스를 이용해 학습용, 검증용 테스트 데이터 추출
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 예측
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print('\n #{} 교차 검증 정확도: {}, 학습 데이터 크기: {}, 검증 데이터 크기: {}'.format(n_iter, accuracy, train_size, test_size))
    print('#{} 검증 세트 인덱스: {}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)

# 교차 검증 별 정확도 및 평균 정확도 계산
print('\n## 교차 검증별 정확도: ', np.round(cv_accuracy, 4))
print('## 평균 검증 정확도: ', np.mean(cv_accuracy))


 #1 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

 #2 교차 검증 정확도: 0.94, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

 #3 교차 검증 정확도: 0.98, 학습 데이터 크기: 100, 검증 데이터 크기: 50
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

## 교차 검증별 정확도:  [0.98 0.94 0.98]
## 평균 검증 정확도:  0.9666666666666667


Stratified KFold의 경우 원본 데이터의 레이블 분포도 특성을 반영한 학습 및 검증 데이터 세트를 만들 수 있으므로 왜곡된 레이블 데이터 세트에는 반드시 Stratified K폴드를 이용해 교차 검증해야 한다.

In [None]:
# [실습]
# random_state = 100
# 붓꽃 데이터 세트에서 StratifiedKFold 를 이용하여 교차검증(3, 5)을 진행하고 
# 평균 정확도를 확인



In [22]:
# 데이터 불러오기
iris = load_iris()

features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 100)

In [25]:
# Stratified KFold를 이용해 붓꽃 데이터 교차 검증

skfold = StratifiedKFold(n_splits = 3)

n_iter = 0
cv_accuracy = []

# Stratified KFold의 split 호출
for train_index, test_index in skfold.split(features, label):
#     print(train_index)
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    # 학습 및 예측
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    
    # 반복 시마다 정확도 예측
    n_iter += 1
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    
    print('##{} 교차 검증 정확도: {}'.format(n_iter, accuracy))
    cv_accuracy.append(accuracy)
    
print('\n 교차 검증 별 정확도: {}'.format(np.round(cv_accuracy), 4))
print('\n 평균 교차 검증 별 정확도: {}'.format(np.mean(cv_accuracy)))
    



##1 교차 검증 정확도: 0.98
##2 교차 검증 정확도: 0.92
##3 교차 검증 정확도: 0.96

 교차 검증 별 정확도: [1. 1. 1.]

 평균 교차 검증 별 정확도: 0.9533333333333333
