## [教學目標]
學習使用 sklearn 中的 train_test_split 等套件，進行資料的切分

## [範例重點]
了解函數中各個參數的意義

## 引入我們需要的套件

In [1]:
from sklearn.model_selection import train_test_split, KFold
import numpy as np

## 用 numpy 生成隨機資料

In [2]:
X = np.arange(50).reshape(10, 5) # 生成從 0 到 50 的 array，並 reshape 成 (10, 5) 的 matrix
y = np.zeros(10) # 生成一個全零 arrary
y[:5] = 1 # 將一半的值改為 1
print("Shape of X: ", X.shape)
print("Shape of y: ", y.shape)

Shape of X:  (10, 5)
Shape of y:  (10,)


In [3]:
print('X: shape: ' + str(X.shape))
print(X)
print("")
print('y: shape: ' + str(y.shape))
print(y)

X: shape: (10, 5)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]

y: shape: (10,)
[1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]


## 使用 train_test_split 函數進行切分
請參考 train_test_split 函數的[說明](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)，了解函數裡的參數意義
- test_size 一定只能小於 1 嗎？
- random_state 不設置會怎麼樣呢？

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [5]:
X_train

array([[35, 36, 37, 38, 39],
       [10, 11, 12, 13, 14],
       [45, 46, 47, 48, 49],
       [20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [30, 31, 32, 33, 34]])

In [6]:
y_train

array([0., 1., 0., 1., 1., 0.])

## 使用 K-fold Cross-validation 來切分資料
請參考 kf 函數的[說明](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)，了解參數中的意義。K 可根據資料大小自行決定，K=5 是蠻常用的大小
- 如果使用 shuffle=True 會怎麼樣?

In [7]:
kf = KFold(n_splits=5)
i = 0
for train_index, test_index in kf.split(X):
    i +=1 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print("FOLD {}: ".format(i))
    print("X_test: ", X_test)
    print("Y_test: ", y_test)
    print("-"*30)

FOLD 1: 
X_test:  [[0 1 2 3 4]
 [5 6 7 8 9]]
Y_test:  [1. 1.]
------------------------------
FOLD 2: 
X_test:  [[10 11 12 13 14]
 [15 16 17 18 19]]
Y_test:  [1. 1.]
------------------------------
FOLD 3: 
X_test:  [[20 21 22 23 24]
 [25 26 27 28 29]]
Y_test:  [1. 0.]
------------------------------
FOLD 4: 
X_test:  [[30 31 32 33 34]
 [35 36 37 38 39]]
Y_test:  [0. 0.]
------------------------------
FOLD 5: 
X_test:  [[40 41 42 43 44]
 [45 46 47 48 49]]
Y_test:  [0. 0.]
------------------------------


## [作業重點]
觀察函數說明，要如何切出固定大小的測試集?

## 作業
假設我們資料中類別的數量並不均衡，在評估準確率時可能會有所偏頗，試著切分出 y_test 中，0 類別與 1 類別的數量是一樣的 (亦即 y_test 的類別是均衡的)

In [8]:
X = np.arange(1000).reshape(200, 5)
y = np.zeros(200)
y[:40] = 1

In [9]:
y

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

可以看見 y 類別中，有 160 個 類別 0，40 個 類別 1 ，請試著使用 train_test_split 函數，切分出 y_test 中能各有 10 筆類別 0 與 10 筆類別 1 。(HINT: 參考函數中的 test_size，可針對不同類別各自作切分後再合併)

In [29]:
from sklearn.model_selection import train_test_split, KFold
import numpy as np
X = np.arange(1000).reshape(200, 5)
y = np.zeros(200)
y[:40] = 1

In [30]:
#切成0跟1兩類
y0_index = range(40,200)
y1_index = range(40)
#各自取十筆作為test內容
X0_train, X0_test, y0_train, y0_test = train_test_split(X[y0_index], y[y0_index], test_size=10)
X1_train, X1_test, y1_train, y1_test = train_test_split(X[y1_index], y[y1_index], test_size=0.25)

In [31]:
X_test = np.append(X0_test,X1_test )
y_test = np.append(y0_test,y1_test )

In [32]:
X_test

array([845, 846, 847, 848, 849, 920, 921, 922, 923, 924, 455, 456, 457,
       458, 459, 970, 971, 972, 973, 974, 810, 811, 812, 813, 814, 805,
       806, 807, 808, 809, 515, 516, 517, 518, 519, 925, 926, 927, 928,
       929, 940, 941, 942, 943, 944, 390, 391, 392, 393, 394, 135, 136,
       137, 138, 139, 155, 156, 157, 158, 159, 190, 191, 192, 193, 194,
        30,  31,  32,  33,  34, 140, 141, 142, 143, 144,  50,  51,  52,
        53,  54,   0,   1,   2,   3,   4, 160, 161, 162, 163, 164,  70,
        71,  72,  73,  74, 100, 101, 102, 103, 104])

In [33]:
y_test

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1.])

In [34]:
X_train = np.append(X0_train,X1_train )
y_train = np.append(y0_train,y1_train )

In [35]:
X_train

array([510, 511, 512, 513, 514, 630, 631, 632, 633, 634, 580, 581, 582,
       583, 584, 285, 286, 287, 288, 289, 230, 231, 232, 233, 234, 785,
       786, 787, 788, 789, 885, 886, 887, 888, 889, 445, 446, 447, 448,
       449, 710, 711, 712, 713, 714, 725, 726, 727, 728, 729, 720, 721,
       722, 723, 724, 470, 471, 472, 473, 474, 340, 341, 342, 343, 344,
       950, 951, 952, 953, 954, 635, 636, 637, 638, 639, 525, 526, 527,
       528, 529, 880, 881, 882, 883, 884, 985, 986, 987, 988, 989, 430,
       431, 432, 433, 434, 835, 836, 837, 838, 839, 370, 371, 372, 373,
       374, 545, 546, 547, 548, 549, 485, 486, 487, 488, 489, 270, 271,
       272, 273, 274, 530, 531, 532, 533, 534, 705, 706, 707, 708, 709,
       400, 401, 402, 403, 404, 420, 421, 422, 423, 424, 780, 781, 782,
       783, 784, 820, 821, 822, 823, 824, 955, 956, 957, 958, 959, 765,
       766, 767, 768, 769, 850, 851, 852, 853, 854, 890, 891, 892, 893,
       894, 670, 671, 672, 673, 674, 295, 296, 297, 298, 299, 74

In [36]:
y_train

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])