### 데이터 분할 방법과 모델 학습

### 학습 내용
 * 홀드아웃(Hold-out) 방법
 * 교차 검증(Cross-validation)
 * Stratified K-Fold
 * GroupKFold
 * Leave-one-out

### 데이터 및 라이브러리 사전 준비

In [22]:
import numpy as np
import pandas as pd

# train_x는 학습 데이터, train_y는 목적 변수, test_x는 테스트 데이터
# pandas의 DataFrame, Series로 유지합니다.(numpy의 array로 유지하기도 합니다)

train = pd.read_csv('../input/sample-data/train_preprocessed.csv')
train_x = train.drop(['target'], axis=1)
train_y = train['target']
test_x = pd.read_csv('../input/sample-data/test_preprocessed.csv')

In [23]:
train_x.shape, train_y.shape, test_x.shape

((10000, 28), (10000,), (10000, 28))

### XGBoost를 활용한 Model 클래스

In [24]:
# xgboost에 의한 학습·예측을 하는 클래스
import xgboost as xgb

class Model:
    def __init__(self, params=None):
        self.model = None
        if params is None:
            self.params = {}
        else:
            self.params = params

    def fit(self, tr_x, tr_y, va_x, va_y):
        # params = {'objective': 'binary:logistic', 'silent': 1, 'random_state': 71}
        params = {'objective': 'binary:logistic', 'verbosity': 0, 'random_state': 71}
        params.update(self.params)
        num_round = 10
        dtrain = xgb.DMatrix(tr_x, label=tr_y)
        dvalid = xgb.DMatrix(va_x, label=va_y)
        watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
        self.model = xgb.train(params, dtrain, num_round, evals=watchlist)

    def predict(self, x):
        data = xgb.DMatrix(x)
        pred = self.model.predict(data)
        return pred

### 홀드아웃(Hold-out) 방법

In [25]:
# 홀드아웃(hold-out)방법으로 검증 데이터의 분할
from sklearn.model_selection import train_test_split

# train_test_split()함수를 이용한 홀드아웃 방법으로 분할
tr_x, va_x, tr_y, va_y = train_test_split(train_x, train_y,
                                          test_size=0.25, random_state=71, shuffle=True)

# -----------------------------------
# 홀드아웃(hold-out)방법으로 검증을 수행

from sklearn.metrics import log_loss
from sklearn.model_selection import train_test_split

# Model 클래스를 정의
# Model 클래스는 fit으로 학습하고 predict로 예측값 확률을 출력

# train_test_split 함수를 이용하여 홀드아웃 방법으로 분할
tr_x, va_x, tr_y, va_y = train_test_split(train_x, train_y,
                                          test_size=0.25, random_state=71, shuffle=True)

# 학습 실행, 검증 데이터 예측값 출력, 점수 계산
model = Model()
model.fit(tr_x, tr_y, va_x, va_y)
va_pred = model.predict(va_x)
score = log_loss(va_y, va_pred)
print(score)

# -----------------------------------
# KFold 클래스를 이용하여 홀드아웃 방법으로 검증 데이터를 분할

from sklearn.model_selection import KFold

# KFold 클래스를 이용하여 홀드아웃 방법으로 분할
kf = KFold(n_splits=4, shuffle=True, random_state=71)
tr_idx, va_idx = list(kf.split(train_x))[0]
print(tr_idx, va_idx)

tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]


[0]	train-logloss:0.54088	eval-logloss:0.55003
[1]	train-logloss:0.45269	eval-logloss:0.47182
[2]	train-logloss:0.39482	eval-logloss:0.42026
[3]	train-logloss:0.35198	eval-logloss:0.38520
[4]	train-logloss:0.32021	eval-logloss:0.36150
[5]	train-logloss:0.29673	eval-logloss:0.34463
[6]	train-logloss:0.27610	eval-logloss:0.32900
[7]	train-logloss:0.25886	eval-logloss:0.31670
[8]	train-logloss:0.24363	eval-logloss:0.30775
[9]	train-logloss:0.23153	eval-logloss:0.30093
0.30092523164749146
[   0    1    2 ... 9996 9998 9999] [   6   10   11 ... 9994 9995 9997]


### 교차 검증 수행

* 교차 검증은 주어진 데이터를 여러 개의 폴드로 나누어 모델을 여러 번 학습하고 평가하는 방법

In [26]:
# -----------------------------------
# 교차 검증
# -----------------------------------
# 교차 검증 방법으로 데이터 분할

from sklearn.model_selection import KFold

# KFold 클래스를 이용하여 교차 검증 분할을 수행
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

# -----------------------------------
# 교차 검증을 수행

from sklearn.metrics import log_loss
from sklearn.model_selection import KFold

# Model 클래스를 정의
# Model 클래스는 fit으로 학습하고, predict로 예측값 확률을 출력

scores = []

# KFold 클래스를 이용하여 교차 검증 방법으로 분할
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

    # 학습 실행, 검증 데이터의 예측값 출력, 점수 계산
    model = Model()
    model.fit(tr_x, tr_y, va_x, va_y)
    va_pred = model.predict(va_x)
    score = log_loss(va_y, va_pred)
    scores.append(score)

# 각 폴더의 점수 평균을 출력
print(np.mean(scores))

[0]	train-logloss:0.54088	eval-logloss:0.55003
[1]	train-logloss:0.45269	eval-logloss:0.47182
[2]	train-logloss:0.39482	eval-logloss:0.42026
[3]	train-logloss:0.35198	eval-logloss:0.38520
[4]	train-logloss:0.32021	eval-logloss:0.36150
[5]	train-logloss:0.29673	eval-logloss:0.34463
[6]	train-logloss:0.27610	eval-logloss:0.32900
[7]	train-logloss:0.25886	eval-logloss:0.31670
[8]	train-logloss:0.24363	eval-logloss:0.30775
[9]	train-logloss:0.23153	eval-logloss:0.30093
[0]	train-logloss:0.53891	eval-logloss:0.54864
[1]	train-logloss:0.45219	eval-logloss:0.47149
[2]	train-logloss:0.39574	eval-logloss:0.41998
[3]	train-logloss:0.35476	eval-logloss:0.38413
[4]	train-logloss:0.32218	eval-logloss:0.35626
[5]	train-logloss:0.29945	eval-logloss:0.33910
[6]	train-logloss:0.27783	eval-logloss:0.32552
[7]	train-logloss:0.26326	eval-logloss:0.31573
[8]	train-logloss:0.24780	eval-logloss:0.30592
[9]	train-logloss:0.23369	eval-logloss:0.29596
[0]	train-logloss:0.54332	eval-logloss:0.55058
[1]	train-log

### Stratified K-Fold 데이터 분할

In [29]:
# -----------------------------------
# Stratified K-Fold
# -----------------------------------
from sklearn.model_selection import StratifiedKFold

# StratifiedKFold 클래스를 이용하여 층화추출로 데이터 분할
kf = StratifiedKFold(n_splits=4, shuffle=True, random_state=71)
for tr_idx, va_idx in kf.split(train_x, train_y):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]
    
    # 23/06 추가
    print("특징(X) 학습, 평가 : ", tr_x.shape, va_x.shape)
    print("target(y) 학습, 평가 : ", tr_y.shape, va_y.shape)

특징(X) 학습, 평가 :  (7500, 28) (2500, 28)
target(y) 학습, 평가 :  (7500,) (2500,)
특징(X) 학습, 평가 :  (7500, 28) (2500, 28)
target(y) 학습, 평가 :  (7500,) (2500,)
특징(X) 학습, 평가 :  (7500, 28) (2500, 28)
target(y) 학습, 평가 :  (7500,) (2500,)
특징(X) 학습, 평가 :  (7500, 28) (2500, 28)
target(y) 학습, 평가 :  (7500,) (2500,)


### GroupKFold 데이터 분할

* GroupKFold는 데이터셋을 고유한 그룹으로 분할하는 교차 검증 방법입니다. 예를 들어, 시계열 데이터나 고객별 데이터에서 각 고객이 독립적인 그룹을 형성할 때 사용

In [9]:
# -----------------------------------
# GroupKFold
# -----------------------------------
# 4건씩 같은 유저가 있는 데이터였다고 가정한다.
train_x['user_id'] = np.arange(0, len(train_x)) // 4
# -----------------------------------

from sklearn.model_selection import KFold, GroupKFold

# user_id열의 고객 ID 단위로 분할
user_id = train_x['user_id']
unique_user_ids = user_id.unique()

# KFold 클래스를 이용하여 고객 ID 단위로 분할
scores = []
kf = KFold(n_splits=4, shuffle=True, random_state=71)
for tr_group_idx, va_group_idx in kf.split(unique_user_ids):
    # 고객 ID를 train/valid(학습에 사용하는 데이터, 검증 데이터)로 분할
    tr_groups, va_groups = unique_user_ids[tr_group_idx], unique_user_ids[va_group_idx]

    # 각 샘플의 고객 ID가 train/valid 중 어느 쪽에 속해 있느냐에 따라 분할
    is_tr = user_id.isin(tr_groups)
    is_va = user_id.isin(va_groups)
    tr_x, va_x = train_x[is_tr], train_x[is_va]
    tr_y, va_y = train_y[is_tr], train_y[is_va]

# (참고)GroupKFold 클래스에서는 셔플과 난수 시드를 지정할 수 없으므로 사용하기 어려움
kf = GroupKFold(n_splits=4)
for tr_idx, va_idx in kf.split(train_x, train_y, user_id):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

### leave-one-out 데이터 분할

* Leave-One-Out 교차 검증은 각 데이터 포인트를 검증 데이터로 사용하고 나머지 데이터를 학습 데이터로 사용하여 모델을 평가하는 방법입니다. 데이터셋의 크기가 작을 때 유용하며, 모든 데이터를 한 번씩 검증에 활용한다.

In [18]:
# -----------------------------------
# leave-one-out
# -----------------------------------
# 데이터가 100건밖에 없는 것으로 간주
train_x = train_x.iloc[:100, :].copy()
# -----------------------------------
from sklearn.model_selection import LeaveOneOut

loo = LeaveOneOut()

# 23/06 추가 - for문 20의 배수로 출력하여 확인
cnt = 0
for tr_idx, va_idx in loo.split(train_x):
    tr_x, va_x = train_x.iloc[tr_idx], train_x.iloc[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]

    # 23/06 추가
    cnt +=1
    if cnt%20==0:
        print("분할 index (학습, 평가)", tr_idx, va_idx)
        print("학습(X), 평가(X) : ", tr_x.shape, va_x.shape)
        print("학습(y), 평가(y) : ", tr_y.shape, va_y.shape) 

분할 index (학습, 평가) [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
 97 98 99] [19]
학습(X), 평가(X) :  (99, 29) (1, 29)
학습(y), 평가(y) :  (99,) (1,)
분할 index (학습, 평가) [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 40 41 42 43 44 45 46 47 48
 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
 97 98 99] [39]
학습(X), 평가(X) :  (99, 29) (1, 29)
학습(y), 평가(y) :  (99,) (1,)
분할 index (학습, 평가) [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47
 48 49 50 51 52 53 54 55 56 57 58 60 61 62 63 64 65 66 67 68 69 