#### **모두를 위한 딥러닝**
slide
https://drive.google.com/drive/folders/1qVcF8-tx9LexdDT-IY6qOnHc8ekDoL03

git
https://github.com/deeplearningzerotoall/PyTorch?tab=readme-ov-file

youtube
https://www.youtube.com/watch?v=7eldOrjQVi0&list=PLQ28Nx3M4JrhkqBVIXg-i5_CVVoS1UzAv


## Loading Data from `.csv` file

In [4]:
import numpy as np
data = np.loadtxt('data-01-test-score.csv', delimiter=',', dtype=np.float32)

In [10]:
x_data = data[:, 0:-1]
y_data = data[:, [-1]]
print(x_data.shape)
print(y_data.shape)

(25, 3)
(25, 1)


## Pytorch Dataset

- torch.utils.data.Dataset 상속
- `__len__()` : 이 데이터셋의 총 데이터 수
- `__getitem__()` : 어떠한 idx로 호출하면, 그에 상응하는 입출력 데이터 반환

In [12]:
import torch
from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self):
        self.x_data = [[73, 80, 75],
                       [93, 88, 93],
                       [89, 91, 90],
                       [96, 98, 100],
                       [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]

    def __len__(self):   # 데이터셋의 총 길이
        return len(self.x_data)

    def __getitem__(self, idx):  # idx호출시 입출력데이터 반환
        x = torch.FloatTensor(self.x_data[idx])
        y = torch.FloatTensor(self.y_data[idx])
        return x, y


dataset = CustomDataset()

## Pytorch DataLoader

**DataLoader는 대량의 데이터를 효율적으로 학습할 수 있도록 원하는 크기(Batch Size)만큼 잘라서 섞고(Shuffle), 병렬로 불러와 모델에 넣어주는 도구**

- torch.utils.data.Dataset 상속
- batch_size
    - 각 minibatch의 크기
    - 2의 제곱수로 설정 (16, 32, 64, 128, ...)
- shuffle = True
    - Epoch마다 데이터 셋을 섞어서 데이터가 학습되는 순서를 바꿈.

In [13]:
from torch.utils.data import DataLoader


dataloader = DataLoader(  # data를 모델에 넣어주는 도구
    dataset, 
    batch_size=2, # 한 번에 2개씩 데이터를 가져옴
    shuffle=True  # epoch마다 데이터 순서를 섞음
)

In [14]:
# DataLoader와 PytorchDataset사용하여 Train

nb_epochs = 20
for epoch in range(nb_epochs + 1):
    # 데이터로더로부터 배치 단위로 데이터를 꺼내옵니다.
    for batch_idx, samples in enumerate(dataloader):
        
        x_train, y_train = samples  # (batch_size, input_dim) 크기의 텐서
        
        # 1. H(x) 계산 (예측)
        prediction = model(x_train)
        
        # 2. Cost 계산 (오차 측정)
        cost = F.mse_loss(prediction, y_train)
        
        # 3. Cost로 H(x) 개선 (최적화)
        optimizer.zero_grad()
        cost.backward()
        optimizer.step()
        
        # 배치마다 진행 상황 출력
        print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
            epoch, 
            nb_epochs, 
            batch_idx + 1, 
            len(dataloader), # 전체 배치 개수
            cost.item()
        ))

Epoch    0/20 Batch 1/3 Cost: 0.121746
Epoch    0/20 Batch 2/3 Cost: 0.020353
Epoch    0/20 Batch 3/3 Cost: 1.032827
Epoch    1/20 Batch 1/3 Cost: 0.057134
Epoch    1/20 Batch 2/3 Cost: 0.335377
Epoch    1/20 Batch 3/3 Cost: 0.976398
Epoch    2/20 Batch 1/3 Cost: 0.315290
Epoch    2/20 Batch 2/3 Cost: 0.362969
Epoch    2/20 Batch 3/3 Cost: 0.274226
Epoch    3/20 Batch 1/3 Cost: 0.042171
Epoch    3/20 Batch 2/3 Cost: 0.541578
Epoch    3/20 Batch 3/3 Cost: 0.010293
Epoch    4/20 Batch 1/3 Cost: 0.047486
Epoch    4/20 Batch 2/3 Cost: 0.089867
Epoch    4/20 Batch 3/3 Cost: 1.070885
Epoch    5/20 Batch 1/3 Cost: 0.393946
Epoch    5/20 Batch 2/3 Cost: 0.045609
Epoch    5/20 Batch 3/3 Cost: 0.409384
Epoch    6/20 Batch 1/3 Cost: 0.520381
Epoch    6/20 Batch 2/3 Cost: 0.149437
Epoch    6/20 Batch 3/3 Cost: 0.055981
Epoch    7/20 Batch 1/3 Cost: 0.590465
Epoch    7/20 Batch 2/3 Cost: 0.187564
Epoch    7/20 Batch 3/3 Cost: 0.050223
Epoch    8/20 Batch 1/3 Cost: 0.048726
Epoch    8/20 Batch 2/3 C