##### Chú ý:
_Phần này không có trong sách, được chính tui ghi ra để hướng dẫn làm sao để có các tập training data, val data và test data._

In [8]:
import os
import random
import pandas as pd
from sklearn.model_selection import train_test_split

random.seed = 42

* Trước tiên, ta sẽ định nghĩa hàm `safe_create_directory()` dùng để tạo ra folder.

In [9]:
def safe_create_directory(dir_name: str):
    '''Kiểm tra có tồn tại folder os.getcwd()/data/dir_name không'''
    if not os.path.isdir((os.path.join(os.getcwd(), 'data', dir_name))):
        os.mkdir(os.path.join(os.getcwd(), 'data', dir_name)) # nếu không thì tạo nó

* Hàm này dùng để tạo ra các folder train, val và test

In [10]:
def create_data_dir():
    [safe_create_directory(dir) for dir in ['train', 'val', 'test']]

* Bây giờ ta định nghĩa hàm `train_val_test_split` để tách dataset ban đầu thành 3 phần là training data, val data và test data.

In [11]:
def train_val_test_split(df, val_pct=0.1, test_pct=0.1):
    """
    Args:
        df ([pandas dataframe]): Dataset
        val_pct (float, optional): Phần trăm valuation data lấy từ training data. Defaults to 0.1.
        test_pct (float, optional): Phần trăm test data lấy từ dataset. Defaults to 0.1.
    """
    size = df.shape[0]
    val_pct = (val_pct * size) / ((1 - test_pct) * size) # tính phần trăm valuation data lấy từ training data
    train_val, test = train_test_split(df, test_size=test_pct) # tạo tập training data (bao gồm valuation data) và test data
    train, val = train_test_split(train_val, test_size=val_pct) # tách tập valuation data từ training data
    
    return train, val, test

* Hàm `serialize_dataset` dùng để ghi training data, val data và test data ra file csv.

In [12]:
def serialize_dataset(dataset):
    for name, data in dataset.items():
        out_filename = os.path.join(os.getcwd(), 'data', name, name + '_data.csv')
        data.to_csv(out_filename, sep=',', index=False)
        
        print('Writing {} to {}, shape: {}'.format(name, out_filename, data.shape))

* Bây giờ sẽ tao ta training data, val data và test data sau đó ghi nó ra file csv

In [13]:
df = pd.read_csv("./data/winequality-white.csv", sep=';')
create_data_dir()
dataset = dict()
dataset['train'], dataset['val'], dataset['test'] = train_val_test_split(df)
serialize_dataset(dataset)

Writing train to /home/manhcuong/Documents/Deep_Learning_Quick_Reference/Chapter 02. Using Deep Learning to Solve Regression Problems/data/train/train_data.csv, shape: (3918, 12)
Writing val to /home/manhcuong/Documents/Deep_Learning_Quick_Reference/Chapter 02. Using Deep Learning to Solve Regression Problems/data/val/val_data.csv, shape: (490, 12)
Writing test to /home/manhcuong/Documents/Deep_Learning_Quick_Reference/Chapter 02. Using Deep Learning to Solve Regression Problems/data/test/test_data.csv, shape: (490, 12)
