## [教學目標]
學習使用 sklearn 中的 train_test_split 等套件，進行資料的切分

## [範例重點]
了解函數中各個參數的意義

## 引入我們需要的套件

In [1]:
from sklearn.model_selection import train_test_split, KFold
import numpy as np

## 用 numpy 生成隨機資料

In [2]:
X = np.arange(50).reshape(10, 5) # 生成從 0 到 50 的 array，並 reshape 成 (10, 5) 的 matrix
y = np.zeros(10) # 生成一個全零 arrary
y[:5] = 1 # 將一半的值改為 1
print("Shape of X: ", X.shape)
print("Shape of y: ", y.shape)

Shape of X:  (10, 5)
Shape of y:  (10,)


In [3]:
print('X: shape: ' + str(X.shape))
print(X)
print("")
print('y: shape: ' + str(y.shape))
print(y)

X: shape: (10, 5)
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]
 [25 26 27 28 29]
 [30 31 32 33 34]
 [35 36 37 38 39]
 [40 41 42 43 44]
 [45 46 47 48 49]]

y: shape: (10,)
[1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]


## 使用 train_test_split 函數進行切分
請參考 train_test_split 函數的[說明](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)，了解函數裡的參數意義
- test_size 一定只能小於 1 嗎？       
  使用介於 0.0 - 1.0 的浮點數表示 test dataset 的比例，使用整數表示 test set 的樣本數，   
  如果是 None ，則是 train set 的互補集合，如果 train_size 也是 None，test set 是 25% 的樣本數    
     
     
- random_state 不設置會怎麼樣呢？  
  np.random 產生出來的隨機數字

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

In [5]:
X_train

array([[35, 36, 37, 38, 39],
       [10, 11, 12, 13, 14],
       [45, 46, 47, 48, 49],
       [20, 21, 22, 23, 24],
       [15, 16, 17, 18, 19],
       [30, 31, 32, 33, 34]])

In [6]:
y_train

array([0., 1., 0., 1., 1., 0.])

## 使用 K-fold Cross-validation 來切分資料
請參考 kf 函數的[說明](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)，了解參數中的意義。K 可根據資料大小自行決定，K=5 是蠻常用的大小
- 如果使用 shuffle=True 會怎麼樣?    
  每次產生訓練/測試集前，資料會重新切割成 n_splits 塊，而不是沿用先前所切的方式

In [7]:
kf = KFold(n_splits=5)
i = 0
for train_index, test_index in kf.split(X):
    i +=1 
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    print("FOLD {}: ".format(i))
    print("X_test: ", X_test)
    print("Y_test: ", y_test)
    print("-"*30)

FOLD 1: 
X_test:  [[0 1 2 3 4]
 [5 6 7 8 9]]
Y_test:  [1. 1.]
------------------------------
FOLD 2: 
X_test:  [[10 11 12 13 14]
 [15 16 17 18 19]]
Y_test:  [1. 1.]
------------------------------
FOLD 3: 
X_test:  [[20 21 22 23 24]
 [25 26 27 28 29]]
Y_test:  [1. 0.]
------------------------------
FOLD 4: 
X_test:  [[30 31 32 33 34]
 [35 36 37 38 39]]
Y_test:  [0. 0.]
------------------------------
FOLD 5: 
X_test:  [[40 41 42 43 44]
 [45 46 47 48 49]]
Y_test:  [0. 0.]
------------------------------


## [作業重點]
觀察函數說明，要如何切出固定大小的測試集?

## 練習時間
假設我們資料中類別的數量並不均衡，在評估準確率時可能會有所偏頗，試著切分出 y_test 中，0 類別與 1 類別的數量是一樣的 (亦即 y_test 的類別是均衡的)

In [8]:
import numpy as np
X = np.arange(1000).reshape(200, 5)
y = np.zeros(200)
y[:40] = 1

In [9]:
y

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

可以看見 y 類別中，有 160 個 類別 0，40 個 類別 1 ，請試著使用 train_test_split 函數，切分出 y_test 中能各有 10 筆類別 0 與 10 筆類別 1 。(HINT: 參考函數中的 test_size，可針對不同類別各自作切分後再合併)

In [10]:
ind1 = y == 1
ind0 = y == 0
x0_train, x0_test, y0_train, y0_test = train_test_split(X[ind0], y[ind0], test_size = 10)  # y = 0
x1_train, x1_test, y1_train, y1_test = train_test_split(X[ind1], y[ind1], test_size = 10)  # y = 1
X_train = np.append(x0_train, x1_train, axis=0)
X_test = np.append(x0_test, x1_test, axis=0)
y_train = np.append(y0_train, y1_train)
y_test = np.append(y0_test, y1_test)
print('X_test shape:', X_test.shape, '\n', X_test, '\n')
print('y_test shape:', y_test.shape, ':', y_test)

X_test shape: (20, 5) 
 [[305 306 307 308 309]
 [770 771 772 773 774]
 [805 806 807 808 809]
 [650 651 652 653 654]
 [730 731 732 733 734]
 [935 936 937 938 939]
 [745 746 747 748 749]
 [695 696 697 698 699]
 [825 826 827 828 829]
 [880 881 882 883 884]
 [ 60  61  62  63  64]
 [ 45  46  47  48  49]
 [ 50  51  52  53  54]
 [155 156 157 158 159]
 [170 171 172 173 174]
 [ 25  26  27  28  29]
 [  5   6   7   8   9]
 [100 101 102 103 104]
 [195 196 197 198 199]
 [180 181 182 183 184]] 

y_test shape: (20,) : [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
