# 011. PyTorch Dataset

### Dataset 클래스

 - PyTorch는 두 개의 데이터 관련 클라스를 제공하여 pre-loaded datasets 및 custom dataset 을 사용할 수 있도록 한다.

     - torch.utils.data.Dataset - 샘플 및 해당 레이블을 제공
     - torch.utils.data.DataLoader - 샘플에 쉽게 액세스 할 수 있도록 Dataset의 iterable 을 wrapping
     

- PyTorch domain library (Image, Text, Audio dataset) 들은 torch.utils.data.Dataset 을 상속 받은 pre-loaded dataset (ex. FashionMNIST)과 관련 함수 제공


- torch.utils.data.Dataset 은 데이터셋을 나타내는 추상클래스이다.


- custom 데이터셋은 Dataset 을 상속하고 아래와 같이 Dataset method 를 오버라이드 하여 작성


    - 생성자 __init__ 은 dataset 의 전처리를 해주는 부분
    - len(dataset) 에서 호출되는 __len__ 은 데이터셋의 크기를 리턴
    - dataset[i] 에서 호출되는 __getitem__ 은 𝑖 번째 샘플을 찾는데 사용

## 사용자 정의 Dataset 작성

- 특정 길이의 data를 생성하는 사용자 정의 Dataset class  
- transform object를 전달 받으면 data 변환을 하여 반환  
- iterable형태로 사용

In [None]:
# 사용자 정의 데이터셋 클래스 정의
class toy_set(Dataset):
    def __init__(self, length=10, transform=None):
        # 재현성을 위해 랜덤 시드 고정
        # 데이터 생성 (모든 입력값을 10으로 설정, 출력값을 1로 설정)
    def __getitem__(self, idx):
        # 주어진 인덱스(idx)에 해당하는 샘플(입력, 출력)을 가져오는 함수
        # 변환(transform)이 설정된 경우, 샘플에 적용
    def __len__(self):
        # 데이터셋의 총 샘플 수 반환

### iterable 형태로 사용
- len(dataset)  
- dataset[ i ]

In [None]:
# toy_set 인스턴스 생성 (기본 길이 10)
# 데이터셋의 총 샘플 개수 출력

In [None]:
# 데이터셋에서 처음 3개의 샘플을 가져와 출력

In [None]:
# 데이터셋을 순회하면서 첫 번째 샘플만 출력하고 반복 종료

In [None]:
# 데이터셋을 이터레이터로 변환하고 첫 번째 샘플을 가져오기

## Transform 적용

- 사용자 정의 transform module 을 Custom Dataset 에 적용

### Transform 함수 적용 예 : scaling

In [None]:
# 데이터 샘플을 스케일링하는 함수 정의
def scaling(sample):

In [None]:
# transform을 적용한 toy_set 데이터셋 생성
# 마지막 샘플 가져오기

### transform class 적용 예

In [None]:
# 샘플의 x와 y 값에 특정 값을 더하는 변환(transform) 클래스 정의
class add_ones:
    def __init__(self, added=1):
    def __call__(self, sample):

In [None]:
# add_ones 변환 객체 생성 (기본적으로 1을 더함)
# transform에 add_ones 적용하여 toy_set 데이터셋 생성
# 마지막 샘플 가져오기

### Transform 을 동시에 여러개 적용 : transform.Compose

In [None]:
# 여러 변환을 연속적으로 적용할 수 있도록 Compose 사용

In [None]:
# transform 없이 toy_set 데이터셋 생성 (샘플 5개)
# 첫 번째 샘플 가져오기 (이터레이터 사용)

In [None]:
# data_transforms(scaling & add_ones) 변환을 적용한 toy_set 생성 (샘플 5개)
# 첫 번째 샘플 가져오기 (이터레이터 사용)

<h1>pre-built Datasets and Transforms</h1>

In [None]:
# 이미지 변환을 위한 Compose 파이프라인 정의 (20x20 중앙 크롭 + 텐서 변환)
# MNIST 학습 데이터셋 다운로드 및 변환 적용
# MNIST 테스트 데이터셋 다운로드 및 변환 적용

In [None]:
# training_data의 첫 번째 샘플에서 이미지 텐서의 크기 출력

In [None]:
# 첫 번째 샘플의 이미지 데이터 가져오기
# 이미지 시각화

## DataLoader를 사용하여 training 데이터 준비

Dataset은 `한 번에 한 개씩 샘플`의 feature 와 label 을 retreive 합니다. 모델을 훈련하는 동안 일반적으로 `minibatch`로 샘플을 전달하고, 매 epoch 마다 데이터를 reshuffle 하여 overfitting을 줄이며, Python의 multiprocessing을 사용하여 읽는 속도를 높입니다.

DataLoader는 쉬운 API로 이러한 복잡성 내용을 추상화한 반복자(iterable) 입니다.

In [None]:
# 학습 데이터 로더 생성
# 테스트 데이터 로더 생성

## DataLoader를 통해 반복
해당 데이터 세트를 ``Dataloader``에 로드 했으며 반복할 수 있습니다. 아래의 각 반복은`` train_features`` 및 ``train_labels`` ( batch_size=64 의 feature 및 label) 의 배치를 반환합니다.  ``shuffle=True``를 지정했기 때문에 모든 배치를 반복한 후에 데이터가 섞입니다.

In [None]:
# train_dataloader에서 첫 번째 배치를 가져오기
# 배치 데이터의 크기 출력

In [None]:
# 첫 번째 이미지 가져오기 (채널 차원 제거)
# 첫 번째 이미지의 라벨 가져오기
# 이미지 시각화
# 해당 이미지의 레이블 출력

## TensorDataset
- PyTorch의 TensorDataset은 tensor를 감싸는 Dataset입니다.
- TensorDataset은 Dataset을 상속한 클래스로 학습 데이터 X와 레이블 Y를 묶어 놓는 컨테이너입니다.
- TensorDataset을 DataLoader에 전달하면 for 루프에서 데이터의 일부분만 간단히 추출할 수 있게 됩니다.  
- TensorDataset에는 텐서만 전달할 수 있으며, Variable은 전달할 수 없으니 주의
- Dataset은 직접 작성할 수도 있어서 대량의 이미지 파일을 한 번에 메모리에 저장하지 않고 필요할 때마다 읽어서 학습하는 등 다양하게 활용 가능

In [None]:
# 5x4 크기의 난수 행렬 생성 (정규 분포)
# 0 또는 1 값을 가지는 정수 배열 생성 (크기 5)
# NumPy 배열을 PyTorch 텐서로 변환
# 변환된 텐서 출력

In [None]:
# X_train(입력 데이터)와 y_train(레이블)을 하나의 데이터셋으로 묶기
# 생성된 TensorDataset 출력

In [None]:
# DataLoader 생성
# 생성된 DataLoader 출력

In [None]:
# DataLoader에서 첫 번째 배치 가져오기
# 배치 데이터 출력