# Pytorch Dataset & DataLoader Class 연습 코드
Pytorch 코드에서 데이터 처리를 담당하는 두 가지 클래스를 이해해보기 위한 노트북 코드입니다. 아래 두 가지 항목을 이해하는 것을 목적으로 합니다.
- Pytorch Dataset Class의 역할을 이해합니다.
- DataLoader Class의 역할과 주요 파라미터를 이해합니다.

In [1]:
# 필요한 라이브러리를 임포트합니다.
import os
import pandas as pd
import numpy as np
from glob import glob 
import matplotlib.pyplot as plt
import seaborn as sns

# 중요!
from torch.utils.data import Dataset
from torch.utils.data import DataLoader

In [2]:
# 샘플 데이터 100개를 생성합니다.
total_sample = 100
X = np.arange(total_sample*2).reshape((total_sample, 2))
# 1과 0을 랜덤한 비율로 생성
zero_proportion = 0.3
y = np.random.choice([0, 1], size=total_sample, p=[zero_proportion, 1-zero_proportion])

print(f'input : \n {X[:5]} \n')
print(f'labels : \n {y[:5]} \n')
print(f'데이터 수량 : {len(X)} \n')

input : 
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]] 

labels : 
 [0 1 1 1 1] 

데이터 수량 : 100 



## 커스텀 데이터셋 클래스를 정의합니다.

In [3]:
# 커스텀 데이터셋 클래스를 정의합니다.
class CustomDataset(Dataset):
    def __init__(self, X, y):
        #필요한 변수들을 선언 및 저장합니다.
        self.X = X 
        self.y = y
        
    def __getitem__(self, index):
        # index에 해당하는 데이터를 X와 y로부터 가져옵니다.
        X = self.X[index]
        y = self.y[index]
        return X, y
    
    def __len__(self):
        # 데이터 샘플의 개수 리턴합니다.
        return len(self.X)

In [4]:
# 커스텀 데이터셋 클래스를 활용해 데이터셋 인스턴스를 생성합니다.
dataset = CustomDataset(X, y)

In [5]:
# 아래와 같이 데이터 샘플의 개수를 확인할 수 있습니다.
print(len(dataset))

100


In [6]:
# 아래와 같이 데이터 샘플 중 일부를 불러올 수 있습니다.
dataset[99]

(array([198, 199]), 1)

## 데이터 로더를 생성합니다.

In [7]:
# 데이터 로더를 생성합니다.
dataloader = DataLoader(dataset, batch_size=2, shuffle=True)

In [9]:
from tqdm import tqdm

for batch_idx, (inputs, labels) in enumerate(tqdm(dataloader)):
    print(f'batch_idx : {batch_idx}')
    print(f'X : {inputs}')
    print(f'y : {labels}')
    # if batch_idx == 2:
    #     break

100%|██████████| 50/50 [00:00<00:00, 8387.94it/s]

batch_idx : 0
X : tensor([[144, 145],
        [ 48,  49]])
y : tensor([1, 1])
batch_idx : 1
X : tensor([[34, 35],
        [38, 39]])
y : tensor([0, 1])
batch_idx : 2
X : tensor([[44, 45],
        [36, 37]])
y : tensor([0, 1])
batch_idx : 3
X : tensor([[112, 113],
        [180, 181]])
y : tensor([0, 1])
batch_idx : 4
X : tensor([[140, 141],
        [ 16,  17]])
y : tensor([1, 1])
batch_idx : 5
X : tensor([[124, 125],
        [ 62,  63]])
y : tensor([1, 1])
batch_idx : 6
X : tensor([[118, 119],
        [  4,   5]])
y : tensor([1, 1])
batch_idx : 7
X : tensor([[ 98,  99],
        [102, 103]])
y : tensor([1, 0])
batch_idx : 8
X : tensor([[190, 191],
        [128, 129]])
y : tensor([0, 1])
batch_idx : 9
X : tensor([[176, 177],
        [ 50,  51]])
y : tensor([1, 1])
batch_idx : 10
X : tensor([[ 78,  79],
        [104, 105]])
y : tensor([1, 1])
batch_idx : 11
X : tensor([[ 26,  27],
        [192, 193]])
y : tensor([0, 0])
batch_idx : 12
X : tensor([[ 96,  97],
        [114, 115]])
y : tensor


