- CUDA 사용

In [1]:
import torch

if torch.cuda.is_available():
    DEVICE = torch.device('cuda')
else:
    DEVICE = torch.device('cpu')
    
print(DEVICE)

cuda


- BATCH_SIZE : 배치 사이즈 
- INPUT_SIZE : 입력 데이터의 크기 (Vector 크기)
- HIDDEN_SIZE : 은닉층의 Node 수
- OUTPUT_SIZE : 출력 데이터의 크기 (Vector 크기)

In [2]:
BATCH_SIZE = 64
INPUT_SIZE = 1000
HIDDEN_SIZE = 100
OUTPUT_SIZE = 10

- x는 (64,1000) 크기의 입력 데이터 / autograd 기능 off (입력 데이터이기 때문)
- y는 (64,10) 크기의 출력 데이터 / autograd 기능 off (출력 데이터이기 때문) 
- w1은 (1000,100)크기의 텐서 / 입력층의 크기 1000짜리 벡터가 은닉층의 100개의 파라미터를 모두 내적하기 위해 (1000,100) 크기의 텐서로 생성 / autograd 기능 on (파라미터 업데이트 필요) 
- w2는 (100,10) 크기의 텐서 / w1을 통해 나온 (1,100) 크기의 결과를 출력 데이터 크기 10에 맞추어 내적 / autograd 기능 on (파라미터 업데이트 필요)

In [3]:
x = torch.randn(BATCH_SIZE,
               INPUT_SIZE,
               device = DEVICE,
               dtype = torch.float,
               requires_grad = False)
y = torch.randn(BATCH_SIZE,
               OUTPUT_SIZE,
               device = DEVICE,
               dtype = torch.float,
               requires_grad = False)
w1 = torch.randn(INPUT_SIZE,
                HIDDEN_SIZE,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = True)
w2 = torch.randn(HIDDEN_SIZE,
                OUTPUT_SIZE,
                device = DEVICE,
                dtype = torch.float,
                requires_grad = True)

- learning_rate는 경사하강법에서 gradient에 break를 주는 것

In [4]:
learning_rate = 1e-6

for t in range(1,501):
    # x와 w1을 mm(내적)하고 .clamp(min=0)(relu 함수)적용하여 w2와 .mm(내적)하여 예측값을 뽑음 
    y_pred = x.mm(w1).clamp(min=0).mm(w2)
    
    # 예측값에서 실제값을 빼고 .pow(2) 제곱하여 .sum() 합계내어 loss를 계산 
    loss = (y_pred-y).pow(2).sum()
    
    # 100번 반복할 때마다 반복횟수와 loss 출력
    if t % 100 == 0:
        print("Iteration: ", t, "\t", "Loss: ", loss.item())
    # 계산된 loss값에 각 파라미터들을 back propagation 함 
    loss.backward()
    
    # gradient를 고정하고 
    with torch.no_grad():
        # 고정한 상태에서 w1의 gradient에 learning_rate를 곱하여 기존 w1에서빼줌 (경사하강법) -> 파라미터 업데이트
        w1 -= learning_rate * w1.grad
        # 고정한 상태에서 w2의 gradient에 learning_rate를 곱하여 기존 w2에서빼줌 (경사하강법) -> 파라미터 업데이트
        w2 -= learning_rate * w2.grad
        
        # 고정한 상태에서 w1의 gradient를 0으로 초기화
        w1.grad.zero_()
        # 고정한 상태에서 w2의 gradient를 0으로 초기화
        w2.grad.zero_()

Iteration:  100 	 Loss:  518.716064453125
Iteration:  200 	 Loss:  2.6068835258483887
Iteration:  300 	 Loss:  0.026561588048934937
Iteration:  400 	 Loss:  0.0006639282219111919
Iteration:  500 	 Loss:  8.776868344284594e-05
