## [教學目標]
學習使用 sklearn 中的 train_test_split 等套件，進行資料的切分  

## [範例重點]
了解函數中各個參數的意義

In [1]:
# 引入套件
from sklearn.model_selection import train_test_split, KFold
import numpy as np

In [2]:
# 使用 numpy 生成隨機資料

# 生成從 0~50 的 array，並 reshape成(10,5)的 matrix
x = np.arange(50).reshape(10,5)

# 生成全為 0 的 array
y = np.zeros(10)
y[:5] = 1   # 將前面一半的 0值改為 1 

print('Shape of x：',x.shape)
print('Shape of y：',y.shape)

Shape of x： (10, 5)
Shape of y： (10,)


In [3]:
print('x：shape：'+str(x.shape))
print(x)

print(' ')

print('y：shape：'+str(y.shape))
print(y)

x：shape：(10, 5)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]
 
y：shape：(10,)
[1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]


## 使用 train_test_split 函數進行切分
請參考 train_test_split 函數的[說明](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)，了解函數裡的參數意義

- test_size 一定只能小於 1 嗎？
- random_state 不設置會怎麼樣呢？

In [5]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=42)

In [6]:
x_train

array([[35, 36, 37, 38, 39],
       [10, 11, 12, 13, 14],
       [45, 46, 47, 48, 49],
       [20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [30, 31, 32, 33, 34]])

In [7]:
y_train

array([0., 1., 0., 1., 1., 0.])

## 使用 K-fold Cross-validation 來切分資料
請參考 kf 函數的[說明](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)，了解參數中的意義。K 可根據資料大小自行決定，K=5 是蠻常用的大小

- 如果使用 shuffle=True 會怎麼樣?

In [10]:
kf = KFold(n_splits=5)

i = 0
for train_index, test_index in kf.split(x):
    i += 1
    x_train, x_test = x[train_index], x[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    print('Fold {}：'.format(i))
    print('x_test：',x_test)
    print('y_test：',y_test)
    print('-'*30)

    
print('kf = ',kf)

Fold 1：
x_test： [[0 1 2 3 4]
 [5 6 7 8 9]]
y_test： [1. 1.]
------------------------------
Fold 2：
x_test： [[10 11 12 13 14]
 [15 16 17 18 19]]
y_test： [1. 1.]
------------------------------
Fold 3：
x_test： [[20 21 22 23 24]
 [25 26 27 28 29]]
y_test： [1. 0.]
------------------------------
Fold 4：
x_test： [[30 31 32 33 34]
 [35 36 37 38 39]]
y_test： [0. 0.]
------------------------------
Fold 5：
x_test： [[40 41 42 43 44]
 [45 46 47 48 49]]
y_test： [0. 0.]
------------------------------
kf =  KFold(n_splits=5, random_state=None, shuffle=False)
