# Dataset dan Dataloader
Pada percobaan ini kita tidak melakukan training apapun. Percobaan ini hanya untuk mengetahui bagaimana data yang diberikan dalam bentuk dataset dan dataloader.

### Perlu diketahui
- Satu epoch terdiri atas satu kali forward pass dan satu kali backward pass terhadap seluruh training samples
- ```batch_size``` adalah banyaknya training sample dalam satu kali forward & backward pass
- Jumlah iterasi adalah banyaknya pass dimana jumlah sampel setiap pass tergantung dari ```batch_size```

**Misalnya**
Terdapat 100 samples, dengan ```batch_size = 20```. Artinya adalah 100 dibagi 20, sehingga terdapat 5 iterasi dalam satu epoch

### Mengimport library
- ```torchvision``` berbeda dengan ```torch```. ```torchvision``` adalah bagian dari PyTorch yang berisi popular datasets, model architecture, dan beberapa transformasi citra
- ```torch.utils.data``` berisi fungsi untuk dataloader
- ```torch.nn``` berisi fungsi untuk neural network

In [None]:
import torch
from torch.utils.data import Dataset, DataLoader
import numpy as np

### Tentang Dataset Wine
- Dataset ini berisi sampel data terkait kategori dari wine
- Terdapat 13 buah feature, yaitu: Alcohol,Malic.acid,Ash,Acl,Mg,Phenols,Flavanoids,Nonflavanoid.phenols,Proanth,Color.int,Hue,OD,Proline
- Terdapat 178 sampel terhadap tiga buah kelas

In [None]:
class WineDataset(Dataset):
    def __init__(self):
        xy = np.loadtxt('wine_dataset/wine.csv', delimiter=',', dtype=np.float32,
                        skiprows=1)  # skip row 1 karena row 1 adalah header
        self.x = xy[:, 1:]  # mengabaikan kolom indeks-0 karena kolom tersebut adalah kelasnya
        self.y = xy[:, [0]]

        # konversi menjadi tensor
        self.x = torch.from_numpy(self.x)
        self.y = torch.from_numpy(self.y)

        # mengambil banyaknya sampel
        self.n_samples = xy.shape[0]

    def __getitem__(self, index):
        return self.x[index], self.y[index]

    def __len__(self):
        return self.n_samples

Sedikit mengulang tentang konsep OOP di python:
- ```__init__``` adalah fungsi yang pertama kali dijalankan ketika class di-instansiasi.
- ```__getitem__``` adalah fungsi yang akan dijalankan ketika melakukan pengambilan data dari dataset.
- ```__len__``` adalah fungsi yang akan dijalankan ketika melakukan pengambilan jumlah data dari dataset.

In [None]:
'''ketika kode di bawah ini dijalankan, ```__init__``` akan dijalankan juga'''
dataset = WineDataset()

dataPertama = dataset[0]
''' ketika kode di bawah ini dijalankan, ```__getitem___``` akan dijalankan, bahwa kembaliannya adalah tuple, yaitu x dan y'''
features, labels = dataPertama

''' mencoba untuk mencetak dataset indeks ke 0'''
print(features,labels)

### Menggunakan DataLoader
Dokumentasi terkait [```DataLoader```, silahkan klik di sini](https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader)

**Penjelasan tentang ```DataLoader``` di bawah ini:**
- Argumen pertama adalah sumber dari dataset yaitu variabel ```dataset```
- Argumen kedua menjelaskan besarnya batch, yakni 4
- Argumen ketiga (```shuffle=True```) bertujuan untuk mengacak urutan dataset
- Argumen keempat (```num_workers=2```) bertujuan untuk mengatur jumlah thread yang digunakan untuk membaca data. Apabila komputer anda tidak mendukung multiple thread, hapus bagian ini

In [None]:
dataloader = DataLoader(dataset, batch_size=4, shuffle=True)

### Training Loop

In [None]:
num_epochs = 2

''' Pada bagian di bawah inilah bagian __len__  dijalankan pada class WineDataset '''
total_samples = len(dataset)

''' Menggunakan 'double slash' // berarti melakukan pembulatan ke-bawah (flooring)'''
n_iterations = total_samples // 4
print(f'Jumlah Samples: {total_samples}, Jumlah Iterasi: {n_iterations}')

In [None]:
for epoch in range(num_epochs):
    for i, (inputs, labels) in enumerate(dataloader):
        # forward pass
        print(f'Epoch {epoch + 1}/{num_epochs}, Iteration {i + 1}/{n_iterations}, inputs {inputs.shape}, labels {labels.shape}')
