In [1]:
import torch

https://deeplearninguniversity.com/pytorch/pytorch-dataloader-class/

In [2]:
from torch.utils.data import DataLoader

In [3]:
# train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)
# val_dataloader = DataLoader(val_dataset, batch_size=32, shuffle=False)
# test_dataloader = DataLoader(test_dataset, batch_size=32, shuffle=False)

- https://github.com/mctosima/pengantarDLpytorch/blob/main/IPYNB%20Code/10_DatasetDataloader.ipynb

# Dataset dan Dataloader
Pada percobaan ini kita tidak melakukan training apapun. Percobaan ini hanya untuk mengetahui bagaimana data yang diberikan dalam bentuk dataset dan dataloader.

### Perlu diketahui
- Satu epoch terdiri atas satu kali forward pass dan satu kali backward pass terhadap seluruh training samples
- batch_size adalah banyaknya training sample dalam satu kali forward & backward pass
- Jumlah iterasi adalah banyaknya pass dimana jumlah sampel setiap pass tergantung dari batch_size

- Misalnya Terdapat 100 samples, dengan batch_size = 20. Artinya adalah 100 dibagi 20, sehingga terdapat 5 iterasi dalam satu epoch

### Mengimport library
- torchvision berbeda dengan torch. torchvision adalah bagian dari PyTorch yang berisi popular datasets, model architecture, dan beberapa transformasi citra
- torch.utils.data berisi fungsi untuk dataloader
- torch.nn berisi fungsi untuk neural network

In [4]:
import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

## Tentang Dataset Wine
- Dataset ini berisi sampel data terkait kategori dari wine
- Terdapat 13 buah feature, yaitu: Alcohol, Malic.acid, Ash, Acl, Mg, Phenols, Flavanoids, Nonflavanoid.phenols, Proanth, Color.int, Hue, OD, Proline
- Terdapat 178 sampel terhadap tiga buah kelas

In [11]:
class WineDataset(Dataset):
    def __init__(self):
        xy = np.loadtxt('./11_wine_dataset/wine.csv', delimiter=',', dtype=np.float32, skiprows=1)  # skil row 1 karena row 1 adalah header
        self.x = xy[:, 1:]  # mengabaikan kolom indeks-0 karena kolom tersebut adalah kelasnya
        self.y = xy[:, [0]]

        # konversi menjadi tensor
        self.x = torch.from_numpy(self.x)
        self.y = torch.from_numpy(self.y)

        # mengambil banyaknya sampel
        self.n_samples = xy.shape[0]
    
    def __getitem__(self, index):
        return self.x[index], self.y[index]
    
    def __len__(self):
        return self.n_samples

Sedikit mengulang tentang konsep OOP di python:
- `__init__` adalah fungsi yang pertama kali dijalankan ketika class di-instansiasi.
- `__getitem__` adalah fungsi yang akan dijalankan ketika melakukan pengambilan data dari dataset.
- `__len__` adalah fungsi yang akan dijalankan ketika melakukan pengambilan jumlah data dari dataset.

In [13]:
'''ketika kode di bawah ini dijalankan, ```__init__``` akan dijalankan juga'''
dataset = WineDataset()
print(dataset)

<__main__.WineDataset object at 0x000002BB65211580>


In [14]:
dataPertama = dataset[0]
print(dataPertama)

(tensor([1.4230e+01, 1.7100e+00, 2.4300e+00, 1.5600e+01, 1.2700e+02, 2.8000e+00,
        3.0600e+00, 2.8000e-01, 2.2900e+00, 5.6400e+00, 1.0400e+00, 3.9200e+00,
        1.0650e+03]), tensor([1.]))


In [15]:
''' ketika kode di bawah ini dijalankan, ```__getitem___``` akan dijalankan, bahwa kembaliannya adalah tuple, yaitu x dan y'''
features, labels = dataPertama

''' mencoba untuk mencetak dataset indeks ke 0'''
print(features,labels)

tensor([1.4230e+01, 1.7100e+00, 2.4300e+00, 1.5600e+01, 1.2700e+02, 2.8000e+00,
        3.0600e+00, 2.8000e-01, 2.2900e+00, 5.6400e+00, 1.0400e+00, 3.9200e+00,
        1.0650e+03]) tensor([1.])


# Menggunakan DataLoader
Penjelasan tentang DataLoader di bawah ini:

- Argumen pertama adalah sumber dari dataset yaitu variabel dataset
- Argumen kedua menjelaskan besarnya batch, yakni 4
- Argumen ketiga (shuffle=True) bertujuan untuk mengacak urutan dataset
- Argumen keempat (num_workers=2) bertujuan untuk mengatur jumlah thread yang digunakan untuk membaca data. Apabila komputer anda tidak mendukung multiple thread, hapus bagian ini

In [8]:
dataloader = DataLoader(dataset, batch_size=4, shuffle=True)
print(dataloader)

<torch.utils.data.dataloader.DataLoader object at 0x000002BB65221E50>


# Training Loop

In [16]:
num_epochs = 2

''' Pada bagian di bawah inilah bagian __len__  dijalankan pada class WineDataset '''
total_samples = len(dataset)
print(f"total_samples {total_samples}")

''' Menggunakan 'double slash' // berarti melakukan pembulatan ke-bawah (flooring)'''
n_iterations = total_samples // 4
print(f'Jumlah Samples: {total_samples}, Jumlah Iterasi: {n_iterations}')

total_samples 178
Jumlah Samples: 178, Jumlah Iterasi: 44


In [10]:
for epoch in range(num_epochs):
    for i, (inputs, labels) in enumerate(dataloader):
        # forward pass
        print(f'Epoch {epoch + 1}/{num_epochs}, Iteration {i + 1}/{n_iterations}, inputs {inputs.shape}, labels {labels.shape}')

Epoch 1/2, Iteration 1/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 2/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 3/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 4/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 5/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 6/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 7/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 8/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 9/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 10/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 11/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 12/44, inputs torch.Size([4, 13]), labels torch.Size([4, 1])
Epoch 1/2, Iteration 13/4