In [1]:
import torch
import torch.optim as optim

# Loading Data

## Data in the Real World
#### 복잡한 머신러닝 모델을 학습하려면 엄청난 양의 데이터 필요
#### 대부분 데이터셋은 적어도 수십만 개의 데이터를 제공함

## Data in the Real World : Problem
#### 엄청난 양의 데이터를 한 번에 학습시킬 수 없음
- 너무 느림
- 하드웨어적으로 불가능

#### => 일부분의 데이터로 학습하면 어떨까?

### 

## Minibatch Gradient Descent
### 전체 데이터를 균일하게 나눠서 학습하자!

### Effects (효과)
- 업데이트를 좀 더 빠르게 할 수 있음
- 전체 데이터를 쓰지 않아 잘못된 방향으로 업데이트 할 수도 있음
- 단점은 cost가 거칠게 줄어들 수 있다는 것

## PyTorch Dataset
- torch.utils.data.Dataset 상속
- __ len __() : 이 데이터셋의 총 데이터 수 반환
- __ getitem __() : 어떠한 idx 를 받았을 때, 그에 상응하는 입출력 데이터 반환

In [2]:
from torch.utils.data import Dataset
# 이 모듈을 상속해 새로운 클래스를 만듦으로써 우리가 원하는 dataset을 지정할 수 있음

class CustomDataset(Dataset): # CustomDataSet을 만들 때 두 가지 magic 메소드를 구현해야 됨
    def __init__(self):
        self.x_data =  [[73, 80, 75],
                        [93, 88, 93],
                        [89, 91, 90],
                        [96, 98, 100],
                        [73, 66, 70]]
        self.y_data = [[152], [185], [180], [196], [142]]
        
    def __len__(self): # len() 함수의 구조
        return len(self.x_data)
    
    def __getitem__(self, idx): # getitem() 함수의 구조
        x = torch.FloatTensor(self.x_datap[idx])
        y = torch.FloatTensor(self.y_datap[idx])
        # data를 torch.tensor의 형태로 바꾸어 반환
        
        return x, y
    
dataset = CustomDataset()

## PyTorch DataLoader
PyTorch의 Dataset을 만들어주면 PyTorch의 DataLoader 사용 가능

DataLoader의 인스턴스를 만들려면 2개를 지정해야 함 => dataset과 각 Minibatch의 크기
- torch.utils.data.DataLoader 사용
- batch_size = 2 : 각 mininbatch의 크기 / 통상적으로 2의 제곱수로 설정
- shuffle = True : Epoch마다 데이터셋을 섞어서, 데이터가 학습되는 순서를 바꿈

__shuffle은 통상적으로 사용하는 옵션으로, 매번 데이터의 학습 순서를 바꾸는 옵션이다.__

-> shuffle을 체크해 모델이 dataset의 순서를 외우는 것은 방지할 수 있음(때문에 항상 True로 설정하는 것을 권장함)

In [3]:
from torch.utils.data import DataLoader

dataloader = DataLoader(
    dataset,
    batch_size = 2,
    shuffle = True,
)

### 

## Full Code with Dataset and DataLoader
#### Dataset과 DataLoader를 이용한 학습 구현
- enumerate(dataloader) : minibatch 인덱스와 데이터를 받음 -> data를 x와 y로 나누어서 gradient descent 시행 가능
- len(dataloader) : 한 epoch당 minibatch 개수

In [6]:
nb_epochs = 20
for epoch in range(nb_epochs + 1):
    for batch_idx, samples in enumerate(dataloader): # Minibatch를 위한 for문 -> enumerate dataloader 사용
        x_train, y_train = samples
    
    # H(x) 계산
    prediction = model(x_train)
    
    # cost 계산
    cost = F.mse_loss(prediction, y_train)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    print('Epoch {:4d}/{} Batch {}/{} Cost: {:.6f}'.format(
        epoch, nb_epochs, batch_idx+1, len(dataloader), cost.item()
    ))

AttributeError: 'CustomDataset' object has no attribute 'x_datap'

### 

## 다음주
앞에서는 어떠한 숫자 하나를 예측하는 모델을 만들었다. 다음부터는 분류하는 모델을 만드는 방법을 배울 것이다.