# TimeSeriesSplit
* 時系列データをtrainとtestに分割する際のメソッド
* 時系列データはシャッフルしてtrainとtestに分割するのは、適さない。時系列データの場合、trainデータはtestデータより時間的に前である必要がある。
* TimeSeriesSplitはK+1個にデータを分割し、下記を返す。
    * 1番目をtrain,2番目をtest
    * 1~2番目をtrain,3番目をtest
    * 1~3番目をtrain,4番目をtest
    * ・・・
    * 1~K番目をtrain,K+1番目をtest
* K個のtrain, testの組み合わせを得ることができる
* testデータのn数は変わらないが、trainデータのn数は変わるため、注意が必要。

In [1]:
from datetime import datetime, timedelta
import numpy as np
import pandas as pd
from sklearn.model_selection import TimeSeriesSplit


start_time = datetime(2017, 11, 1, 10, 0, 0, 0)
time_list = []
for i in range(100):
    t = start_time + timedelta(seconds=i)
    time_list.append(t)
    
price = 50000
price_list = []
for _ in range(100):
    price += np.random.randint(-500,500)
    price_list.append(price)
    
df = pd.DataFrame(price_list,index=time_list,columns=["price"])
df.head(10)

Unnamed: 0,price
2017-11-01 10:00:00,49784
2017-11-01 10:00:01,49433
2017-11-01 10:00:02,49360
2017-11-01 10:00:03,49844
2017-11-01 10:00:04,49615
2017-11-01 10:00:05,50070
2017-11-01 10:00:06,50233
2017-11-01 10:00:07,50479
2017-11-01 10:00:08,50504
2017-11-01 10:00:09,50443


In [2]:
df.shape

(100, 1)

* 今回は100時点の時系列データを用いる。
* n_splitsで幾つのtrain,testの組み合わせを得るか指定できる。(冒頭のKを指定している)

In [3]:
tss = TimeSeriesSplit(n_splits=3)
for i, (train, test) in enumerate(tss.split(df)):
    print(str(i+1)+"つ目")
    print("train:",train)
    print("test:",  test)
    print("---")

1つ目
train: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24]
test: [25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]
---
2つ目
train: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]
test: [50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74]
---
3つ目
train: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74]
test: [75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99]
---


* 100時点のデータを4つに分割し、下記のtrain,testの組み合わせを得ている。
    * 0~24をtrain, 25~49をtest
    * 0~49をtrain, 50~74をtest
    * 0~74をtrain, 75~99をtest