# CH01.2. **Data Loader**

## 00. **작업 환경 설정**

#### 00.0. **사전 변수 설정**

In [1]:
SEED_NUM = 2025

#### 00.1. **라이브러리 호출 및 옵션 설정**

In [2]:
#(1) Import libraries
import numpy as np
import torch
import torchvision

#(2) Set options
np.random.seed(seed=SEED_NUM)
torch.manual_seed(seed=SEED_NUM)
torch.cuda.manual_seed_all(seed=SEED_NUM)

#### 00.2. **사용자정의함수 정의**

In [3]:
pass

#### 00.3. **클래스 정의**

In [4]:
pass

<b></b>

## 01. **데이터 로더(Data Loader)**

#### 01.1. **정의** : 모델 학습에 필요한 데이터의 전처리 및 학습 처리(배치, 셔플 등)을 지원하는 객체

#### 01.2. **특징** : 
##### $ \hspace{0.15cm} $ ① 데이터셋의 인덱스를 생성함으로써 셔플 및 배치 처리하고, 준비된 데이터는 큐(Queue;선입선출의 자료구조)를 통해 메인 프로세스에 전달
##### $ \hspace{0.15cm} $ ② generator 클래스로 정의되며, next() 메서드를 통해 차례로 값에 접근하기 때문에 메모리를 효율적으로 관리함 
##### $ \hspace{0.15cm} $ ③ `pin_memory`, `drop_last`, `sampler` 파라미터 등 다양한 옵션을 통해 세밀한 제어 가능

<b></b>

## 02. **데이터 불러오기 및 전처리**

#### 02.1. **이미지 전처리 파이프라인 정의** : `torchvision.transforms.Compose`

In [5]:
img_tf = torchvision.transforms.Compose(
    transforms=[
        torchvision.transforms.Resize(size=(16, 16)),
        torchvision.transforms.ToTensor()
    ]
)

#### **(`PLUS`)** 대표적인 이미지 전처리 함수들
#### $ \hspace{0.15cm} \cdot{} $ `torchvision.transforms.Resize()` : 
#### $ \hspace{0.15cm} \cdot{} $ `RandomAffine()` :
#### $ \hspace{0.15cm} \cdot{} $ `torchvision.transforms.Grayscale()` :
#### $ \hspace{0.15cm} \cdot{} $ `torchvision.transforms.Normalize()` : 
#### $ \hspace{0.15cm} \cdots{} $

#### 02.2. **내장 데이터셋 호출 및 전처리**

In [6]:
#(1) Download train dataset
train = torchvision.datasets.CIFAR10(root='../../data', train=True, download=True, transform=img_tf)

In [7]:
#(2) Check train dataset length
len(train)

50000

In [8]:
#(3) Check image shape
train[0][0].size()

torch.Size([3, 16, 16])

#### **(`PLUS`)** Dataset 클래스의 인덱스 구조 : 
#### $ \hspace{0.15cm} \cdot{} $ `Dataset[num][0]` : `num`번 째 데이터셋의 입력 데이터
#### $ \hspace{0.15cm} \cdot{} $ `Dataset[num][1]` : `num`번 째 데이터셋의 타겟 데이터

#### 02.3. **데이터로더 객체로 변환**

In [9]:
#(1)
train_loader = torch.utils.data.DataLoader(dataset=train, batch_size=50, shuffle=True)

#(2) Check batch count
len(train_loader)

1000

#### 02.4. **데이터로더 접근**

In [10]:
inputs, targets = next(iter(train_loader))

#### 02.5. **배치 단위 반복(iteration) 시행**

In [11]:
for inputs, targets in train_loader :
    pass # anything #