# 重採樣方法

機器學習建模的目標是創建能夠對新資料進行良好預測的模型；新資料的定義是在創造機器學習模型時還沒有被模型所"學習"的資料。換句話說就是在訓練資料以外的資料。因此我們必須使用統計方法來估計模型在預測新資料上的表現。

### 什麼是重採樣方法

重採樣方法的目標是充分利用訓練資料，估計機器學習模型在預測訓練資料以外的新資料的表現。重採樣方法可幫助機器學習的模型、特徵選擇。
以下是兩種常見的重採樣方法:
<li>train test split
<li>k-fold Cross-Validation Split

### 1.train test split

train test split是最廣泛使用的重採樣方法，分成訓練、測試兩部分：
<li>訓練資料集
<li>測試資料集
機器學習算法使用訓練數據集來訓練模型。並用測試資料於評估模型的性能。上述的兩種資料集是從現有資料中隨機抽樣，這是為了確保模型的訓練和評估是客觀的。常用的訓練、測試資料的比例為7:3、6:4、5:5。

In [21]:
from random import randrange
from random import seed

In [26]:
def train_test_split(data, train_size=0.6):
    """
    Split data into train and test sets.
    
    parameters:
    data(pandas.DataFrame):The input dataframe. 
    train_size(float):The ratio of training data.
    
    return:
    train_data(pandas.DataFrame), test_data(pandas.DataFrame):train and test sets.
    """
    train_data = []
    number_of_rows_for_train_data = len(data) * train_size
    data_clone = list(data)
    
    while len(train_data) < number_of_rows_for_train_data:
        random_index = randrange(len(data_clone))
        train_data.append(data_clone.pop(random_index))
        
    test_data = data_clone
    
    return train_data, test_data

In [27]:
seed(1)
dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10]]
train, test = train_test_split(dataset)
print(train)
print(test)

[[3], [2], [7], [1], [8], [9]]
[[4], [5], [6], [10]]


### 2.k-fold Cross-Validation Split

使用train test split的重採樣方法來估算模型對於新資料的預測估計通常是有許多的noise。k-fold Cross-Validation Split（交叉驗證）提供更準確的估計。通過首先將資料分成k組，每組資料稱為折疊(fold)，因此名稱為k-fold交叉驗證。它的原理是用k-1組資料訓練機器學習模型並用剩下的一組資料作為測試集進行評估。

為k選擇一個值，對於較小的數據集，k=3是不錯的常用數字，對於較大的數據集則使用k=10。驗證折疊尺寸(k)是否具有代表性的快速方法是計算統計敘述，例如平均值和標準差，並從整個數據集的相同統計數據中查看值的差異，取預測精度最高的折疊尺寸。

In [30]:
def k_fold_Cross_Validation_Split(data, k_folds):
    """
    Split data into k folds.
    
    parameters:
    data(pandas.DataFrame):The input dataframe. 
    k_folds(int):The number of data group after split.
    
    return:
    folds(list(list)):k_fold_Cross_Validation_Split.
    """
    fold_size = int(len(data) / k_folds)
    folds = []
    data_clone = list(data)
    
    for _ in range(k_folds):
        fold = []
        while len(fold) < fold_size:
            random_index = randrange(len(data_clone))
            fold.append(data_clone.pop(random_index))

        folds.append(fold)
    
    return folds

In [31]:
k_fold_Cross_Validation_Split(range(0, 100), k_folds=10)

[[65, 44, 75, 46, 60, 34, 90, 76, 84, 0],
 [53, 72, 17, 77, 83, 28, 62, 8, 73, 54],
 [92, 89, 29, 82, 64, 81, 55, 68, 52, 1],
 [98, 51, 86, 5, 37, 27, 31, 88, 9, 80],
 [49, 87, 95, 93, 22, 4, 99, 70, 10, 12],
 [3, 47, 2, 33, 30, 36, 18, 91, 24, 48],
 [41, 14, 25, 26, 43, 96, 32, 56, 58, 42],
 [69, 35, 57, 59, 13, 6, 39, 61, 45, 67],
 [21, 40, 16, 63, 38, 74, 50, 7, 20, 11],
 [79, 23, 15, 94, 66, 85, 97, 78, 19, 71]]