## Summary of D34 - Train/ Test Split

Commonly used method: [__train_test_split__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html), [__kfold__](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html)
```
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
```

## 練習時間
假設我們資料中類別的數量並不均衡，在評估準確率時可能會有所偏頗，試著切分出 y_test 中，0 類別與 1 類別的數量是一樣的 (亦即 y_test 的類別是均衡的)

In [1]:
import numpy as np
X = np.arange(1000).reshape(200, 5)
y = np.zeros(200)
y[:40] = 1

In [2]:
y

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

可以看見 y 類別中，有 160 個 類別 0，40 個 類別 1 ，請試著使用 train_test_split 函數，切分出 y_test 中能各有 10 筆類別 0 與 10 筆類別 1 。(HINT: 參考函數中的 test_size，可針對不同類別各自作切分後再合併)

In [22]:
from sklearn.model_selection import train_test_split
y_1_idx = np.where(y == 1)
y_0_idx = np.where(y == 0)
X_1 = X[y_1_idx]
X_0 = X[y_0_idx]
X_0_train, X_0_test, y_0_train, y_0_test = train_test_split(X_0, y[y_0_idx], test_size = 10)
X_1_train, X_1_test, y_1_train, y_1_test = train_test_split(X_1, y[y_1_idx], test_size = 10)
X_train = np.concatenate((X_0_train, X_1_train), axis = 0)
X_test = np.concatenate((X_0_test, X_1_test), axis = 0)
y_train = np.concatenate((y_0_train, y_1_train), axis = 0)
y_test = np.concatenate((y_0_test, y_1_test), axis = 0)

In [23]:
print(y_test)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [24]:
print(X_test)

[[325 326 327 328 329]
 [255 256 257 258 259]
 [720 721 722 723 724]
 [740 741 742 743 744]
 [925 926 927 928 929]
 [375 376 377 378 379]
 [585 586 587 588 589]
 [990 991 992 993 994]
 [500 501 502 503 504]
 [845 846 847 848 849]
 [  5   6   7   8   9]
 [160 161 162 163 164]
 [135 136 137 138 139]
 [ 70  71  72  73  74]
 [ 45  46  47  48  49]
 [145 146 147 148 149]
 [155 156 157 158 159]
 [ 65  66  67  68  69]
 [185 186 187 188 189]
 [ 25  26  27  28  29]]
