# 모델 성능 평가를 위한 데이터셋 분리

> <span style='background-color:#fff5b1'><b style='font-size:1.3em'> 요약
>- 홀드 아웃 방식: 데이터가 많을때 사용.
>- Kfold 방식 : 데이터가 적을때 사용.
>    - 회귀문제 StratifiedKFold
>    - 분류 cross_val_score()

# 데이터셋(Dataset)
- <span style='background-color:#fff5b1'><b style='font-size:1.3em'> **Train 데이터셋 (훈련/학습 데이터셋)**</b>
    - 모델을 학습시킬 때 사용할 데이터셋.
- <span style='background-color:#fff5b1'><b style='font-size:1.3em'>**Validation 데이터셋 (검증 데이터셋)**</b>
    - 모델의 성능 중간 검증을 위한 데이터셋
- <span style='background-color:#fff5b1'><b style='font-size:1.3em'>**Test 데이터셋 (평가 데이터셋)**</b>
    - 모델의 성능을 <span style='background-color:#fff5b1'>최종적으로 측정하기</span> 위한 데이터셋
    - **Test 데이터셋은 마지막에 모델의 성능을 측정하는 용도로 한번만 사용되야 한다.**
        - 모델을 훈련하고 평가했을때 원하는 성능이 나오지 않으면 데이터나 모델 학습을 위한 설정(하이퍼파라미터)을 수정한 뒤에 다시 훈련시키고 평가를 하게 된다. 원하는 성능이 나올때 까지 설정변경->훈련->평가를 반복하게 된다. 
        - 위 사이클을 반복하게 되면 평가결과를 바탕으로 설정을 변경하게 되므로 모델이 평가할 때 사용한 데이터셋(Test set)에 모델이 맞춰서 훈련하는 것과 동일한 효과를 내게 된다.(설정을 변경하는 이유가 Test set에 대한 결과를 좋게 만들기 위해 변경하므로) 그래서 Train dataset과 Test dataset 두개의 데이터셋만 사용하게 되면 모델의 성능을 제대로 평가할 수 없게 된다. 그래서 데이터셋을 train 세트, validation 세터, test 세트로 나눠 train set 와 validation set으로 모델을 최적화 한 뒤 마지막에 test set으로 최종 평가를 한다.

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import DecisionTreeclassifier

# Hold Out - Data분리 방식 1
![image.png](attachment:image.png)

- 데이터셋을 Train set, Validation set, Test set으로 나눈다.
- sklearn.model_selection.train_test_split()  함수 사용
    - 하나의 데이터셋을 2분할 하는 함수

In [1]:
from sklearn.datasets import load_iris # data set loading
from sklearn.model_selection import train_test_split # dataset 분리
from sklearn.tree import DecisionTreeClassifier # 모델 형성(선택)
from sklearn.metrics import accuracy_score # 평가

In [2]:
X, y = load_iris(return_X_y = True) # X, y 값만 반환. (iris data, iris target
X.shape, y.shape

((150, 4), (150,))

## Train/Test set 분리

In [33]:
X_train, X_test, y_train, y_test = train_test_split(X, # 전체데이터셋 중 Features, input
                                                    y, # 전체데이터셋 중 Labels, output(target)
                                                    test_size = 0.2,# (20%) //  전체중 test set의 비율 (기본값: 0.25)
                                                   stratify = y, # 전체 데이터셋의 출력 클래스의 비율과 동일한 비율로 나눠지도록 한다.분류 Dataset을 나눌때 필수, (회귀는 하지 않음.)
                                                   shuffle = True, # 데이터셋을 나누기 전에 섞는지(랜덤) 여부: True - 섞는다.(기본값), False - 안 섞는다.
                                                   random_state = 0 # random seed 값.
                                                   )
X_train.shape, X_test.shape

((120, 4), (30, 4))

## Train/Validation/Test set 분리

In [12]:
# Train set을 이용해서 Train / Validation set 을 분리
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train,
                                                    test_size = 0.2,
                                                   stratify = y_train, random_state = 0)
print(X_train.shape, X_val.shape, X_test.shape)


(96, 4) (24, 4) (30, 4)


##### 모델생성, 평가

- <span style='background-color:#fff5b1'>max_depth=정수
    - <span style='background-color:#fff5b1'>하이퍼파라미터(Hyper Parameter)</span>: 모델의 성능에 영향을 주는 파라미터 값으로 개발자가 설정하는 값.
    - 파라미터(Parameter): 머신러닝 모델의 파라미터 => <span style='background-color:#fff5b1'>학습을 통해서 찾는 모델의 가중치값.</span>

In [32]:
# 모델 생성
# tree = DecisionTreeClassifier(max_depth = 1, random_state = 0)
# tree = DecisionTreeClassifier(max_depth = 2, random_state = 0)
# tree = DecisionTreeClassifier(max_depth = 3, random_state = 0)
tree = DecisionTreeClassifier(max_depth = 5, random_state = 0)

# 학습 - trainset
tree.fit(X_train, y_train)
# 검증 - validation set
pred_train = tree.predict(X_train)
pred_val = tree.predict(X_val)
# 정확도 계산
train_acc = accuracy_score(y_train, pred_train)
val_acc = accuracy_score(y_val, pred_val)


In [21]:
print('max_depth:',1)
print('train 정확도:', train_acc)
print('val 정확도:', val_acc)

max_depth: 1
train 정확도: 0.6666666666666666
val 정확도: 0.6666666666666666


In [23]:
print('max_depth:', 2)
print('train 정확도:', train_acc)
print('val 정확도:', val_acc)

max_depth: 2
train 정확도: 0.9583333333333334
val 정확도: 1.0


In [25]:
print('max_depth:', 3)
print('train 정확도:', train_acc)
print('val 정확도:', val_acc)

max_depth: 3
train 정확도: 0.9583333333333334
val 정확도: 0.9583333333333334


In [29]:
print('max_depth:', 5)
print('train 정확도:', train_acc)
print('val 정확도:', val_acc)

max_depth: 5
train 정확도: 1.0
val 정확도: 1.0


#####  Testset으로 최종검증

In [30]:
pred_test = tree.predict(X_test)
test_acc = accuracy_score(y_test, pred_test)
print('Testset 정확도:', test_acc) # 최종 성능 평가

Testset 정확도: 0.9666666666666667


## Hold out 방식의 단점
- train/validation/test 셋이 어떻게 나눠 지냐에 따라 결과가 달라진다.
    - 데이터가 충분히 많을때는 변동성이 흡수되 괜찮으나 적을 경우 문제가 발생할 수 있다.
        - 이상치에 대한 영향을 많이 받는다.
        - 다양한 패턴을 찾을 수가 없기 때문에 새로운 데이터에 대한 예측 성능이 떨어지게 된다.
        
-  <span style='background-color:#fff5b1'>**Hold out 방식은 (다양한 패턴을 가진) 데이터의 양이 많을 경우에 사용한다.**

# K-겹 교차검증 (K-Fold Cross Validation) - Data분리 방식 2
1. <span style='background-color:#fff5b1'>데이터셋을 설정한 K 개로 나눈다.</span>
1. K개 중 하나를 검증세트로 나머지를 훈련세트로 하여 모델을 학습시키고 평가한다. 
1. K개 모두가 한번씩 검증세트가 되도록 K번 반복하여 모델을 학습시킨 뒤 나온 평가지표들을 평균내서 모델의 성능을 평가한다.

![image.png](attachment:image.png)

- 데이터양이 충분치 않을때 사용한다.
- 보통 Fold를 나눌때 2.5:7.5 또는 2:8 비율이 되게 하기 위해 <span style='background-color:#fff5b1'>4개 또는 5개 fold</span>로 나눈다. 
- 종류
    - <span style='background-color:#fff5b1'>**KFold**</span>
        - 회귀문제의 Dataset을 분리할 때 사용
    - <span style='background-color:#fff5b1'>**StratifiedKFold**</span>
        - 분류문제의 Dataset을 분리할 때 사용
        - 순서대로 동일한 비율로 분류한다
       

> ### Boston Housing DataSet
> 보스톤의 지역별 집값 데이터셋
> 
>  - CRIM	: 지역별 범죄 발생률
>  - ZN	: 25,000 평방피트를 초과하는 거주지역의 비율
>  - INDUS: 비상업지역 토지의 비율
>  - CHAS	: 찰스강에 대한 더미변수(강의 경계에 위치한 경우는 1, 아니면 0)
>  - NOX	: 일산화질소 농도
>  - RM	: 주택 1가구당 평균 방의 개수
>  - AGE	: 1940년 이전에 건축된 소유주택의 비율
>  - DIS	: 5개의 보스턴 고용센터까지의 접근성 지수
>  - RAD	: 고속도로까지의 접근성 지수
>  - TAX	: 10,000 달러 당 재산세율
>  - PTRATIO : 지역별 교사 한명당 학생 비율
>  - B	: 지역의 흑인 거주 비율
>  - LSTAT: 하위계층의 비율(%)
>  
>  -<span style='background-color:#fff5b1'> MEDV</span>: Target.  지역의 주택가격 중앙값 (단위: $1,000)
> 

In [47]:
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])   #features
target = raw_df.values[1::2, 2]  # label

In [50]:
data.shape, target.shape

((506, 13), (506,))

In [51]:
target[:20], np.unique(target, return_counts = True)

(array([24. , 21.6, 34.7, 33.4, 36.2, 28.7, 22.9, 27.1, 16.5, 18.9, 15. ,
        18.9, 21.7, 20.4, 18.2, 19.9, 23.1, 17.5, 20.2, 18.2]),
 (array([ 5. ,  5.6,  6.3,  7. ,  7.2,  7.4,  7.5,  8.1,  8.3,  8.4,  8.5,
          8.7,  8.8,  9.5,  9.6,  9.7, 10.2, 10.4, 10.5, 10.8, 10.9, 11. ,
         11.3, 11.5, 11.7, 11.8, 11.9, 12. , 12.1, 12.3, 12.5, 12.6, 12.7,
         12.8, 13. , 13.1, 13.2, 13.3, 13.4, 13.5, 13.6, 13.8, 13.9, 14. ,
         14.1, 14.2, 14.3, 14.4, 14.5, 14.6, 14.8, 14.9, 15. , 15.1, 15.2,
         15.3, 15.4, 15.6, 15.7, 16. , 16.1, 16.2, 16.3, 16.4, 16.5, 16.6,
         16.7, 16.8, 17. , 17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8,
         17.9, 18. , 18.1, 18.2, 18.3, 18.4, 18.5, 18.6, 18.7, 18.8, 18.9,
         19. , 19.1, 19.2, 19.3, 19.4, 19.5, 19.6, 19.7, 19.8, 19.9, 20. ,
         20.1, 20.2, 20.3, 20.4, 20.5, 20.6, 20.7, 20.8, 20.9, 21. , 21.1,
         21.2, 21.4, 21.5, 21.6, 21.7, 21.8, 21.9, 22. , 22.1, 22.2, 22.3,
         22.4, 22.5, 22.6, 22.7, 22.8

In [55]:
np.mean(target), np.median(target)

(22.532806324110677, 21.2)

## <span style='background-color:#fff5b1'> KFold
- 지정한 개수(K)만큼 분할한다.
- Raw dataset의 순서를 유지하면서 지정한 개수로 분할한다.
- <span style='background-color:#fff5b1'>회귀 문제일때 사용한다.
- <span style='background-color:#fff5b1'>KFold(n_splits=K)
    - 몇개의 Fold로 나눌지 지정
-<span style='background-color:#fff5b1'> KFold객체.split(데이터셋)
    - 데이터셋을 지정한 K개 나눴을때 train/test set에 포함될 데이터의 **index**들을 반환하는 generator 생성 

> - Generator란
>     - 연속된 값을 제공(생성)하는 객체. 연속된 값을 한번에 메모리에 저장하지 않고 필요시마다 순서대로 하나씩 제공한다.
>     - 함수형식으로 구현하며 return 대신 yield를 사용한다.

In [56]:
def gen(x):
    yield x + 10
    yield x + 20
    yield x + 30

In [57]:
g = gen(10)

In [58]:
next(g)

20

In [59]:
next(g)

30

In [60]:
next(g)

40

In [62]:
for i in gen(5):
    print(i, end= ', ')

15, 25, 35, 

### KFold 예제

### Boston housing dataset을 KFold를 이용해 나누기

In [72]:
from sklearn.model_selection import KFold
# fold 수를 지정하면서 KFold 객체를 생성
kfold = KFold(n_splits = 5) # (K:4 => 7.5 : 2.5), (K:5 => 8 : 2) // KFold를 5분할 한다는 말임.
gen = kfold.split(data) # X을 전달해서 generator를 생성
print(type(gen))

<class 'generator'>


In [73]:
next(gen) # 튜플 (trainset 의 index, testset의 index)

(array([102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114,
        115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127,
        128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140,
        141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153,
        154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166,
        167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179,
        180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192,
        193, 194, 195, 196, 197, 198, 199, 200, 201, 202, 203, 204, 205,
        206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218,
        219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231,
        232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244,
        245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257,
        258, 259, 260, 261, 262, 263, 264, 265, 266, 267, 268, 269, 270,
        271, 272, 273, 274, 275, 276, 277, 278, 279

In [76]:
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error # 회귀평가지표중 하나. 정답과 예측값 간의 차이(오차)의 제곱한 평균

import numpy as np 

In [80]:
# KFold 를 이용해 교차검증
val_results = []

kfold = KFold(n_splits = 5)
gen = kfold.split(data)

for train_idx, test_idx in gen:
#     print(train_idx.shape, test_idx.shape)
#     Train/Test dataset을 조회
    X_train, y_train = data[train_idx], target[train_idx]
    X_test, y_test = data[test_idx], target[test_idx]
    
    # 모델 생성, 학습
    tree = DecisionTreeRegressor(random_state = 0)
    tree.fit(X_train, y_train)
    
    # 평가
    pred_test = tree.predict(X_test)
    test_mse = mean_squared_error(y_test, pred_test) # 평가함수( 정답, 모델예측결과)
    
    val_results.append(test_mse)

In [84]:
print("fold별 평가결과: ", val_results)
print('최종결과: ', np.mean(val_results), np.sqrt(np.mean(val_results)))

fold별 평가결과:  [11.887843137254906, 34.88990099009901, 28.17247524752476, 54.44178217821782, 52.59029702970297]
최종결과:  36.39645971655989 6.032947846331832


In [88]:
## iris(분류) 데이터셋을 KFold 이용해서 cross validation
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
X, y = load_iris(return_X_y = True)

kfold_iris = KFold(n_splits = 3)

for train_idx, test_idx in kfold_iris.split(X):
        X_train, y_train = X[train_idx], y[train_idx]
        X_test, y_test = X[test_idx], y[test_idx]
        
#         print(np.unique(y_train), np.unique(y_test)
        # 모델 생성 및 학습
    
        tree = DecisionTreeClassifier(random_state = 0)
        tree.fit(X_train, y_train)
        # 검증
        pred_test = tree.predict(X_test)
        print(accuracy_score(y_test, pred_test))

0.0
0.0
0.0


In [None]:
y[:50]
y[50:100]
y[:100:]

## <span style='background-color:#fff5b1'>StratifiedKFold
- 나뉜 fold 들에 label들이 같은(또는 거의 같은) 비율로 구성 되도록 나눈다. 
- 각각의 클래스 별로 각각 순서대로 나눈다.
- 분류문제일 때 사용한다.
- <span style='background-color:#fff5b1'>StratifiedKFold(n_splits=K)
    - 몇개의 KFold로 나눌지 지정
- <span style='background-color:#fff5b1'>StratifiedKFold객체.split(X, y)
    - 데이터셋을 지정한 K개 나눴을때 train/test set에 포함될 데이터의 index들을 반환하는 generator 생성
    - input(X)와 output(y) dataset을  전달한다. 

In [95]:
from sklearn.datasets import load_iris
from sklearn.model_selection import StratifiedKFold#, KFold, train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import numpy as np

In [128]:
X, y = load_iris(return_X_y = True)

s_kfold = StratifiedKFold(n_splits = 3)
gen = s_kfold.split(X, y)

val_results = [] #iteration별 검증결과를 담을 리스트

for train_idx, test_idx in gen:
    X_train, y_train = X[train_idx], y[train_idx]
    X_test, y_test = X[test_idx], y[test_idx]
    
#     print(np.unique(y_train, return_counts =True))
#     print(test_idx)
#     break
    # 모델생성
    tree = DecisionTreeClassifier(random_state = 0)
    # 학습
    tree.fit(X_train, y_train)
    # 검증
    ## 추론
    pred_test = tree.predict(X_test)
    acc = accuracy_score(y_test, pred_test)
    val_results.append(acc)

In [129]:
val_results, np.mean(val_results)

([0.98, 0.94, 0.98], 0.9666666666666667)

In [254]:
def cross_validation_function(X, y, model, n_splits = 5):
    
    s_kfold = StratifiedKFold(n_splits = n_splits)
    gen = s_kfold.split(X, y)

    val_results = [] #iteration별 검증결과를 담을 리스트

    for train_idx, test_idx in gen:
        X_train, y_train = X[train_idx], y[train_idx]
        X_test, y_test = X[test_idx], y[test_idx]

        # 학습
        model.fit(X_train, y_train)
        # 검증
        ## 추론
        pred_test = model.predict(X_test)
        acc = accuracy_score(y_test, pred_test)
        val_results.append(acc)
    return val_results

In [260]:
X, y = load_iris(return_X_y = True)
model = DecisionTreeClassifier(random_state = 0)
result = cross_validation_function(X, y, model, n_splits = 6)
print(result)
print(np.mean(result))

[0.96, 1.0, 0.92, 0.92, 1.0, 1.0]
0.9666666666666667


## <span style='background-color:#fff5b1'>cross_val_score( )
- 데이터셋을 K개로 나누고 K번 반복하면서 평가하는 작업을 처리해 주는 함수
- 주요매개변수
    - estimator: 모델객체
    - X: feature
    - y: label
    - scoring: 평가지표
    - cv: 나눌 개수 (K)
        - 정수: 개수
        - KFold 타입 객체
- 반환값: array - 각 반복마다의 평가점수    

In [141]:
# Boston dataset (회귀)
# neg_mean_squared_error: 계산한 오차평균에 음수를 붙여서 반환.
from sklearn.model_selection import cross_val_score
tree_reg = DecisionTreeRegressor(random_state = 0)
result1 = cross_val_score(estimator = tree_reg,
                         X = data,
                         y = target,
                         scoring = 'neg_mean_squared_error', # 평가지표 - 회귀기본평가지표: r2_score
                         cv = 4 # or KFolf(4) # 폴드 개수
                         
                         )

- <span style='background-color:#fff5b1'><b style='font-size:1.3em'>neg_mean_squared_error:</b>
    - 오차 계산. 
    - 오차는 작을 수록 좋다.
    - 하지만 나오는 값은 클 수록 좋다고 나오기에 '-'인 음수를 붙인다.

In [145]:
print(- result1) 
print(np.mean(-result1))

[13.70937008 66.44086614 52.79198413 41.87055556]
43.70319397575304


In [149]:
# iris datasets (분류)
tree_cls = DecisionTreeClassifier(random_state = 0)
result2 = cross_val_score(estimator = tree_cls,
                         X = X,
                         y = y,
                         scoring = 'accuracy', # 평가지표: 분류평가지표의 기본 - accuracy
                         cv = 4
                         )

In [150]:
print(result2)
print(np.mean(result2))

[0.97368421 0.94736842 0.94594595 1.        ]
0.9667496443812233
