# 5장. 분할
데이터 분할은 예측 모델을 평가할 때 필요한 전처리이다. <br>
학습데이터와 검증 데이터는 같은 전처리를 적용하며, 되도록 같은 데이터로 묶어서 다루고 <br>
예측 모델에 입력하기 직전 분할하는 것이 좋은 방법이다.
* 예측 모델에 사용하는 데이터에는 예측 모델을 이용하여 예측할 때 사용하는 데이터가 있다. 
    * 여기선 이를 '적용 데이터'라 부름.

## 5.1 모델 검증을 위한 데이터 레코드 분할
> #### 교차 검증(cross validaiton) 
교차검증은 데이터를 몇 개의 데이터로 나누어 그중 하나의 데이터는 평가용 데이터로, <br>
나머지 데이터는 모델 학습을 실행한다.
* 교차 검증은 분할할 수를 매개변수로 전달해야 하며, 이 매개변수를 '교차수' 라 한다.
    * 교차수는 학습 데이터의 양과 계산량에 영향을 주므로, 정확도가 떨어지지 않을 정도의 학습 데이터양을 확보하면서 <br>
    최소한의 교차수를 사용하길 추천.

> #### 홀드아웃 검증 (Hold-out validation)
교차검증용 데이터와는 별개로 최종 정확도 검증을 위한 데이터를 준비해두고, 이 데이터를 사용하여 모델의 정확도를 검증해 해결.

> #### 과학습(over learning)
과학습이란 학습 데이터에 과도하게 의존하게 되어 학습 데이터 외에는 제대로 된 예측을 할 수 없는 것을 말한다.



### Q1. 교차검증
데이터의 20%를 홀드아웃 검증으로 사용하고, 남은 데이터로 교차수 4의 교차검증 실행.

In [2]:
import pandas as pd
import numpy as np

In [3]:
# warning 무시
import warnings
warnings.filterwarnings(action='ignore')

In [4]:
production_tb=pd.read_csv('./data/production.csv',encoding='UTF-8')
production_tb.head()

Unnamed: 0,type,length,thickness,fault_flg
0,E,274.027383,40.241131,False
1,D,86.319269,16.906715,False
2,E,123.940388,1.018462,False
3,B,175.554886,16.414924,False
4,B,244.93474,29.061081,False


In [5]:
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold

In [6]:
# 홀드아웃 검증을 위한 데이터를 분할한다.
# 예측 모델의 입력값과 예측 대상의 값을 각각 train_test_split 함수에 설정한다.
# test_size는 검증 데이터의 분할이다.
train_data, test_data, train_target, test_target = train_test_split(production_tb.drop('fault_flg',axis=1), production_tb[['fault_flg']], test_size=0.2)

In [7]:
# train_test_split로 행 이름을 현재의 행 번호로 바꾼다.
train_data.reset_index(inplace=True, drop=True)
test_data.reset_index(inplace=True, drop=True)
train_target.reset_index(inplace=True, drop=True)
test_target.reset_index(inplace=True, drop=True)

In [8]:
print('train data:',len(train_target))
print('test data',len(test_target))

train data: 800
test data 200


In [9]:
# 대상 행 번호 리스트를 생성한다.
row_no_list=list(range(len(train_target)))     # train 800개, test 200개

In [11]:
len(row_no_list)

800

In [29]:
# 교차검증을 위한 데이터로 분할한다.
k_fold = KFold(n_splits=4, shuffle=True)      # KFold는 fold로 나누고 index를 반환해줌.

In [35]:
# 교차수만큼 반복 처리한다.
for train_cv_no, test_cv_no in k_fold.split(row_no_list):    
    train_cv = train_data.iloc[train_cv_no,:]
    test_cv=train_data.iloc[test_cv_no,:]

In [37]:
len(train_cv)

600

In [47]:
len(test_cv)

200

In [48]:
test_cv_no

array([  0,   3,   6,   8,  14,  15,  17,  24,  26,  28,  31,  36,  40,
        44,  52,  57,  70,  74,  77,  83,  90,  92,  93,  94,  95,  97,
        99, 102, 105, 106, 107, 114, 115, 116, 117, 120, 124, 130, 131,
       137, 140, 141, 143, 144, 152, 153, 160, 164, 165, 170, 172, 176,
       178, 185, 186, 188, 197, 203, 207, 209, 210, 212, 214, 216, 217,
       218, 219, 221, 222, 225, 228, 229, 241, 243, 252, 253, 254, 259,
       267, 269, 285, 288, 291, 295, 312, 313, 314, 322, 323, 327, 331,
       332, 334, 335, 336, 337, 339, 341, 344, 347, 363, 369, 370, 372,
       376, 377, 380, 383, 384, 386, 388, 392, 394, 404, 410, 412, 418,
       421, 427, 428, 429, 435, 439, 441, 450, 451, 456, 457, 459, 465,
       469, 471, 475, 476, 499, 511, 515, 522, 524, 525, 528, 532, 538,
       546, 550, 554, 564, 571, 578, 580, 582, 595, 597, 617, 621, 629,
       635, 636, 640, 641, 642, 645, 648, 649, 650, 653, 654, 669, 671,
       672, 674, 682, 685, 689, 693, 698, 699, 701, 707, 713, 72

In [49]:
train_cv_no

array([  1,   2,   4,   5,   7,   9,  10,  11,  12,  13,  16,  18,  19,
        20,  21,  22,  23,  25,  27,  29,  30,  32,  33,  34,  35,  37,
        38,  39,  41,  42,  43,  45,  46,  47,  48,  49,  50,  51,  53,
        54,  55,  56,  58,  59,  60,  61,  62,  63,  64,  65,  66,  67,
        68,  69,  71,  72,  73,  75,  76,  78,  79,  80,  81,  82,  84,
        85,  86,  87,  88,  89,  91,  96,  98, 100, 101, 103, 104, 108,
       109, 110, 111, 112, 113, 118, 119, 121, 122, 123, 125, 126, 127,
       128, 129, 132, 133, 134, 135, 136, 138, 139, 142, 145, 146, 147,
       148, 149, 150, 151, 154, 155, 156, 157, 158, 159, 161, 162, 163,
       166, 167, 168, 169, 171, 173, 174, 175, 177, 179, 180, 181, 182,
       183, 184, 187, 189, 190, 191, 192, 193, 194, 195, 196, 198, 199,
       200, 201, 202, 204, 205, 206, 208, 211, 213, 215, 220, 223, 224,
       226, 227, 230, 231, 232, 233, 234, 235, 236, 237, 238, 239, 240,
       242, 244, 245, 246, 247, 248, 249, 250, 251, 255, 256, 25

* train_data와 train_target을 학습 데이터로, 
* test_data와 test_target을 검증 데이터로 머신러닝 모델을 구축하고 검증한다.

* 교차 검증 결과를 정리한다.

* train을 학습 데이터로, private_test를 검증 데이터로 머신러닝 모델을 구축하고 검증한다.

---------------
## 5.2 모델 검증을 위한 시간 데이터 분할
교차 검증으로 모델의 정확도가 부당하게 높아지는 경우가 많아 시간 데이터를 이용한 단순한 교차 검증은 유효하지 않다.

* 해결 방법 : 학습 데이터와 검증 데이터를 시간축을 기준으로 이동하면서 검증하는 방법.


### Q1. 학습 및 검증을 위한 시간 데이터 준비
학습 데이터와 검증 데이터를 시간축을 기준으로 한 달씩 이동하면서 생성한다.
* 학습 기간은 24개월, 검증 기간은 12개월, 이동하는 기간은 12개월로 한다.

In [13]:
monthly_index_tb=pd.read_csv('./data/monthly_index.csv',encoding='UTF-8')
monthly_index_tb.head()

Unnamed: 0,year_month,sales_amount,customer_number
0,2010-01,7191240,6885
1,2010-02,6253663,6824
2,2010-03,6868320,7834
3,2010-04,7147388,8552
4,2010-05,8755929,8171


In [14]:
# train_window_start 에 맨 처음 학습 데이터의 시작 행 번호를 지정한다.
train_window_start =1

# train_window_end에 맨 처음 학습 데이터의 종료 행 번호를 지정한다.
train_window_end=24

# horizon에 검증 데이터의 데이터 수를 지정한다.
horizon = 12

# skip 에 이동할 데이터 수를 설정한다.
skip=12

In [16]:
# 연월을 기준으로 데이터를 정렬한다.
monthly_index_tb.sort_values(by='year_month').head()

Unnamed: 0,year_month,sales_amount,customer_number
0,2010-01,7191240,6885
1,2010-02,6253663,6824
2,2010-03,6868320,7834
3,2010-04,7147388,8552
4,2010-05,8755929,8171


In [19]:
len(monthly_index_tb)

120

In [23]:
while True:
    # 검증 데이터의 종료 행 번호를 계산한다.
    test_window_end = train_window_end + horizon
    
    # 행 번호를 지정하여 원본 데이터에서 학습 데이터를 구한다.
    # train_window_start를 1로 고정하면 학습 데이터를 늘려가는 검증으로 변환할 수 있다. 
    train = monthly_index_tb[train_window_start:train_window_end]
    
    test = monthly_index_tb[(train_window_end + 1) : test_window_end]
    
    if test_window_end >= len(monthly_index_tb.index):
        break
    train_window_start += skip
    train_window_end += skip
    

In [20]:
monthly_index_tb[1:13]

Unnamed: 0,year_month,sales_amount,customer_number
1,2010-02,6253663,6824
2,2010-03,6868320,7834
3,2010-04,7147388,8552
4,2010-05,8755929,8171
5,2010-06,8373124,8925
6,2010-07,9916308,10104
7,2010-08,12393468,11236
8,2010-09,11116463,9983
9,2010-10,8933028,10477
10,2010-11,15456653,13283


In [21]:
monthly_index_tb[25:36]

Unnamed: 0,year_month,sales_amount,customer_number
25,2012-02,25463522,21875
26,2012-03,20119418,23667
27,2012-04,25893403,23565
28,2012-05,22022850,24826
29,2012-06,22059480,22390
30,2012-07,23467487,23515
31,2012-08,29272775,27095
32,2012-09,31017056,25984
33,2012-10,23617191,25813
34,2012-11,29220027,26596


In [22]:
monthly_index_tb.index

RangeIndex(start=0, stop=120, step=1)