# Pytorch dataloader: 讀取結構化資料

如果你的資料集很小，可以直接讀到電腦的記憶體內，你可以採用這個方式。

<font size=3> 我們將利用**波士頓房價預測資料集**作為本課程的範例</font><br>

![image.png](attachment:image.png)
<font size=1> reference: https://en.wikipedia.org/wiki/Boston#/media/File:Boston_-_panoramio_(23).jpg</font><br>

    
步驟為<br>
- 1. 我們利用sklearn.datasets讀取波士頓房價預測資料集來得到架構化資料<br>
如果有忘記此處的運作方式可回顧[Class 1的教材database.ipynb](https://github.com/TommyHuang821/PytorchTutorial/blob/main/Code/01_database.ipynb)內的1.開源結構化數據範例: scikit-learn<br>
- 2. 將資料庫隨機切割成訓練集(training set)和測試集(test set)<br>
- 3. 將sklean讀到的資料為numpy array轉換成torch tensor。
- 4. 裡用torch.utils.data.TensorDataset將結構化資料打包為pytorch的Dataset讀取方式。
- 5. 將打包好的pytorch的Dataset利用pytorch的dataloader進行讀取。

Note: 下一份資料將會詳細介紹pytorch內的dataste和dataloader之間的關聯系。

---------------------------------------------------------------------------------


**1. 我們利用sklearn.datasets讀取波士頓房價預測資料集來得到架構化資料**<br>
**2. 將資料庫隨機切割成訓練集(training set)和測試集(test set)**<br>

In [1]:
import warnings
warnings.filterwarnings("ignore")
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
def load_boston_sklearn():
    X, Y = load_boston(return_X_y=True)
    X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state=2022)
    return  X_train, X_test, Y_train, Y_test
X_train, X_test, Y_train, Y_test = load_boston_sklearn()
print('X_train:{}'.format(X_train.shape))
print('X_test:{}'.format(X_test.shape))
print('Y_train:{}'.format(Y_train.shape))
print('Y_test:{}'.format(Y_test.shape))

X_train:(404, 13)
X_test:(102, 13)
Y_train:(404,)
Y_test:(102,)


sklearn內有提供函數sklearn.model_selection.train_test_split <br>
可根據你設定的測試樣本/訓練樣本的比例將資料隨機拆成訓練集和測試集。<br>

-----------------------------------------------------------
**3. 將sklean讀到的資料為numpy array轉換成torch tensor。**<br>
因為我們要將資料到pytorch，所以要將資料轉換成pytorch的tensor格式。

**4. 裡用torch.utils.data.TensorDataset將結構化資料打包為pytorch的Dataset讀取方式。**<br>
此函數的定義是<br>
```
class torch.utils.data.TensorDataset(data_tensor, target_tensor)
```
data_tensor (Tensor): torch tensor格式，結構資料。<br>
target_tensor (Tensor):torch tensor格式，資料對應的Target。<br>

In [2]:
import torch
X_train = torch.tensor(X_train, dtype=torch.float)
Y_train = torch.tensor(Y_train, dtype=torch.float)
print('X_train:{}'.format(X_train.shape))
print('Y_train:{}'.format(Y_train.shape))
mydatasets = torch.utils.data.TensorDataset(X_train, Y_train)

X_train:torch.Size([404, 13])
Y_train:torch.Size([404])


我們來觀察一下我們利用pytorch內建的torch.utils.data.TensorDataset建立出的 **mydatasets** 在幹什麼


In [3]:
for i, tmp  in enumerate(mydatasets):
    print('{}-th:{}'.format(i, tmp))
    if i==1:break
print('manually selection')
print('0-th:{}'.format(mydatasets[0]))    
print('1-th:{}'.format(mydatasets[1]))    

0-th:(tensor([1.5380e-02, 9.0000e+01, 3.7500e+00, 0.0000e+00, 3.9400e-01, 7.4540e+00,
        3.4200e+01, 6.3361e+00, 3.0000e+00, 2.4400e+02, 1.5900e+01, 3.8634e+02,
        3.1100e+00]), tensor(44.))
1-th:(tensor([4.5900e-02, 5.2500e+01, 5.3200e+00, 0.0000e+00, 4.0500e-01, 6.3150e+00,
        4.5600e+01, 7.3172e+00, 6.0000e+00, 2.9300e+02, 1.6600e+01, 3.9690e+02,
        7.6000e+00]), tensor(22.3000))
manually selection
0-th:(tensor([1.5380e-02, 9.0000e+01, 3.7500e+00, 0.0000e+00, 3.9400e-01, 7.4540e+00,
        3.4200e+01, 6.3361e+00, 3.0000e+00, 2.4400e+02, 1.5900e+01, 3.8634e+02,
        3.1100e+00]), tensor(44.))
1-th:(tensor([4.5900e-02, 5.2500e+01, 5.3200e+00, 0.0000e+00, 4.0500e-01, 6.3150e+00,
        4.5600e+01, 7.3172e+00, 6.0000e+00, 2.9300e+02, 1.6600e+01, 3.9690e+02,
        7.6000e+00]), tensor(22.3000))


由上面可以觀察到利用torch.utils.data.TensorDataset建立好的 **mydatasets**，將資料打包好後。<br>

我們用for loop去讀 **mydatasets**，它是依照資料擺放的順序，從第一筆開始一次把一筆資料拿出來使用。<br>

這樣我們根本無法一次拿多筆資料(例如10筆)出來訓練(batch learning)，而且要避免每一次學習過程中每次拿到的資料都一樣，所以每一次學習都希望資料的順序是隨機打亂的。<br>
因為我們需要利用pytorch的dataloader進行亂數和batch的處理。<br>
><font size=3> To avoid "the data, sampling in training phase, appear in fixed order, we need shuffle the data in each training epoch.</font><br><br>
<font size=3>
Q: Write the shuffle code by yourself, it's easy but "why do we not use a ready code?"<br><br>
Ans: using "torch.utils.data.DataLoader"<br>
</font>

------------------------------------------------------
5. 將打包好的pytorch的Dataset利用pytorch的dataloader進行讀取。

```
CLASS torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='')

```
![image.png](attachment:image.png)


這樣我們根本無法一次拿多筆資料(例如10筆)出來訓練(batch learning)，而且要避免每一次學習過程中每次拿到的資料都一樣，所以每一次學習都希望資料的順序是隨機打亂的。<br>
因為我們需要利用pytorch的dataloader進行亂數和batch的處理。<br>
1. batch的處理: 一次要取多少資料出來訓練，在
```
batch_size:設定即可
```
2. 每個Epoch訓練的batch資料順序都希望它不同的方式，在
```
shuffle:設定即可，設定為True則每次epoch都會打亂，設定為False則每次epoch都會依造順序。
```

In [4]:
dataloader_train = torch.utils.data.DataLoader(mydatasets, batch_size=3, shuffle=False, num_workers=0)
for i, tmp  in enumerate(dataloader_train):
    data  = tmp[0]
    target  = tmp[1]
    print('{}-th data:{}'.format(i, data))
    print('{}-th target:{}'.format(i, target))
    if i==1:break    

0-th data:tensor([[1.5380e-02, 9.0000e+01, 3.7500e+00, 0.0000e+00, 3.9400e-01, 7.4540e+00,
         3.4200e+01, 6.3361e+00, 3.0000e+00, 2.4400e+02, 1.5900e+01, 3.8634e+02,
         3.1100e+00],
        [4.5900e-02, 5.2500e+01, 5.3200e+00, 0.0000e+00, 4.0500e-01, 6.3150e+00,
         4.5600e+01, 7.3172e+00, 6.0000e+00, 2.9300e+02, 1.6600e+01, 3.9690e+02,
         7.6000e+00],
        [4.0202e-01, 0.0000e+00, 9.9000e+00, 0.0000e+00, 5.4400e-01, 6.3820e+00,
         6.7200e+01, 3.5325e+00, 4.0000e+00, 3.0400e+02, 1.8400e+01, 3.9521e+02,
         1.0360e+01]])
0-th target:tensor([44.0000, 22.3000, 23.1000])
1-th data:tensor([[3.2264e-01, 0.0000e+00, 2.1890e+01, 0.0000e+00, 6.2400e-01, 5.9420e+00,
         9.3500e+01, 1.9669e+00, 4.0000e+00, 4.3700e+02, 2.1200e+01, 3.7825e+02,
         1.6900e+01],
        [3.3147e-01, 0.0000e+00, 6.2000e+00, 0.0000e+00, 5.0700e-01, 8.2470e+00,
         7.0400e+01, 3.6519e+00, 8.0000e+00, 3.0700e+02, 1.7400e+01, 3.7895e+02,
         3.9500e+00],
        [1.

從上面可以看到batch_size=3，則在for loop可以明顯看到是三筆資料和target被輸出。<br>

--------------------------------------------
- shuffle設定

下面我們嘗試重複跑5次dataloader，當shuffle=False。<br>
可以發現五次出來的結果順序都是一樣的。<br>

In [5]:
dataloader_train = torch.utils.data.DataLoader(mydatasets, batch_size=3, shuffle=False,num_workers=0)
for i_repeat in range(5):
    for i, tmp  in enumerate(dataloader_train):
        target  = tmp[1]
        print('{}-iter :\n{}-th target:\n{}'.format(i_repeat, i, target))
        if i==0:break 

0-iter :
0-th target:
tensor([44.0000, 22.3000, 23.1000])
1-iter :
0-th target:
tensor([44.0000, 22.3000, 23.1000])
2-iter :
0-th target:
tensor([44.0000, 22.3000, 23.1000])
3-iter :
0-th target:
tensor([44.0000, 22.3000, 23.1000])
4-iter :
0-th target:
tensor([44.0000, 22.3000, 23.1000])


- shuffle設定

下面我們嘗試重複跑5次dataloader，當shuffle=True。<br>
可以發現五次出來的結果順序都是不一樣的。<br>

In [6]:
dataloader_train = torch.utils.data.DataLoader(mydatasets, batch_size=3, shuffle=True, num_workers=0)
for i_repeat in range(5):
    for i, tmp  in enumerate(dataloader_train):
        target  = tmp[1]
        print('{}-iter :\n{}-th target:\n{}'.format(i_repeat, i, target))
        if i==0:break 

0-iter :
0-th target:
tensor([29.4000, 17.8000, 50.0000])
1-iter :
0-th target:
tensor([17.4000, 31.7000, 15.4000])
2-iter :
0-th target:
tensor([20.3000, 22.6000, 17.1000])
3-iter :
0-th target:
tensor([22.2000, 20.1000,  7.2000])
4-iter :
0-th target:
tensor([15.2000, 43.8000, 14.3000])


------------------------ 
從本課程的上範例可以學到如何利用pytorch來讀取資料，並且打亂資料且取出batch的資料。<br>

但我們可以觀察一下"torch.utils.data.DataLoader"<br>

![image.png](attachment:image.png)

<br>
大家應該有看到 **sampler** ，但我們沒有在此介紹<br>
在下一堂課程，我們將詳細介紹如何利用Pytorch來建立私有資料庫方式<br>
並且詳述pytorch內dataset、dataloader和sampler之間的關聯。<br><br>
    
------------------------------------------    
本系列教學都可以從我的[GitHub](https://github.com/TommyHuang821/PytorchTutorial)來看對應的內容及範例程式！