학습목표

경사하강법(Gradient descent)에 대해 더 자세히 알아본다.
핵심키워드

* 가설 함수(Hypothesis Function)
* 평균 제곱 오차(Mean Squared Error)
* 경사하강법(Gradient descent)

In [2]:
import torch
from torch import optim

## Simplier Hypothesis Function
H(x) = Wx

In [6]:
# 모델 파라미터 초기화
W = torch.zeros(1, requires_grad = True)
# b = torch.zeros(1, requires_grad = True)

# 데이터셋 정의
x_train = torch.FloatTensor([[1,2,3]])
y_train = torch.FloatTensor([[1,2,3]])

# 예측 모델 정의
hypothesis = x_train * W

In [7]:
cost = torch.mean((hypothesis - y_train) ** 2)  # W = 1에서 최저값을 가지는 cost에 대한 2차 곡선

## Gradient Descent: Code

In [9]:
# cost함수를 W(변수)에 대해 미분한 gradient 함수 정의
gradient = 2 * torch.sum((hypothesis - y_train) * x_train)
lr = 0.1
# Gradient 갱신
W = -lr * gradient

## Gradient Descent: Full Code(w/o optimizer)

gradient = 2 * torch.sum((hypothesis - y_train)* x_train) 에서 torch.mean보다 torch.sum으로 할때 수렴이 훨씬 빠르게 된다.\
왜? 손실 기울기는 '평균값'인 mse라는 loss값을 미분하여 얻어진 값인 만큼 수식에 m으로 나누는 부분이 포함된다. m으로 나누는 것이 W의 파라미터를 loss값이 줄어드는 방향으로 갱신하는데 직접적으로 어떤 역할을 가지는 것은 없다. 오히려 갱신되는 폭을 감소시키는 것이기에 변화 속도를 늦출 뿐이다. 그래서 아래 코드에서는 torch.sum함수를 사용했다.

In [1]:
import torch
from torch import optim

# 데이터셋 정의
x_train = torch.FloatTensor([[1,2,3]])
y_train = torch.FloatTensor([[1,2,3]])


# 모델 파라미터 초기화
W = torch.zeros(1) #requires_grad = True:[RuntimeError]a leaf Variable that requires grad is being used in an in-place operation.

# learning rate 설정
lr = 0.01

# for loops 돌아가며 파라미터 갱신
nb_epochs = 10
for epoch in range(1, nb_epochs+1):
    # 예측(H(x) 계산)
    hypothesis = x_train * W
    # loss와 loss gradient 계산
    loss = torch.mean((hypothesis - y_train)**2) # 텐서들이므로 x = [1,2,3], y = [1,2,3] 통째로 연산
    gradient = 2 * torch.sum((hypothesis - y_train)* x_train)
    
    print('Epoch: {:4d}/{} W: {:.3f}, Cost: {:.6f}'.format(epoch, nb_epochs, W.item(), loss.item()))
    # loss gradient로 W 파라미터 갱신해주어 loss값 줄이기
    W -= lr * gradient

Epoch:    1/10 W: 0.000, Cost: 4.666667
Epoch:    2/10 W: 0.280, Cost: 2.419200
Epoch:    3/10 W: 0.482, Cost: 1.254113
Epoch:    4/10 W: 0.627, Cost: 0.650132
Epoch:    5/10 W: 0.731, Cost: 0.337029
Epoch:    6/10 W: 0.807, Cost: 0.174716
Epoch:    7/10 W: 0.861, Cost: 0.090573
Epoch:    8/10 W: 0.900, Cost: 0.046953
Epoch:    9/10 W: 0.928, Cost: 0.024340
Epoch:   10/10 W: 0.948, Cost: 0.012618


Epoch: 데이터로 학습한 횟수\
학습하면서 점점:
   * 1에 수렴하는 W
   * 줄어드는 cost

## Gradient Descent w/ torch.optim 
torch.optim 사용하면 loss gradient 직접적으로 계산해줄 필요 없음

torch.optim 을 사용함으로서 gradient descent를 더 편하게 할 수 있다!
  * 시작할 때 optimizer 정의
  * optimizer.zero_grad()로 gradient를 0으로 초기화
  * cost.bacward()로 loss gradient 계산
  * optimizer.step()으로 gradient descent(실질적으로 W, b 파라미터 갱신하고 로스값 낮춤)  

In [3]:
import torch
from torch import optim


# 데이터셋 정의
x_train = torch.FloatTensor([[1,2,3]])
y_train = torch.FloatTensor([[1,2,3]])

# 모델 파라미터 초기화
W = torch.zeros(1, requires_grad = True)
# b = torch.zeros(1, requires_grad = True)

# optimizer 설정
optimizer = optim.SGD([W], lr = 0.15)

# for loops 돌아가며 파라미터 갱신
nb_epochs = 10
for epoch in range(1, nb_epochs+1):
    # 예측 및 loss값 계산
    hypothesis = W * x_train
    loss = torch.mean((hypothesis - y_train)**2)
    
    print('Epoch: {:4d}/{} W: {:.3f}, Cost: {:.6f}'.format(epoch, nb_epochs, W.item(), loss.item()))
    
    # backward()매서드에 loss값 넣어 loss gradient값 계산하고 이 값을 optimizer.step()매서드에 넣어
    # 결과적으로 loss 감소시키기(모델 학습)
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


Epoch:    1/10 W: 0.000, Cost: 4.666667
Epoch:    2/10 W: 1.400, Cost: 0.746667
Epoch:    3/10 W: 0.840, Cost: 0.119467
Epoch:    4/10 W: 1.064, Cost: 0.019115
Epoch:    5/10 W: 0.974, Cost: 0.003058
Epoch:    6/10 W: 1.010, Cost: 0.000489
Epoch:    7/10 W: 0.996, Cost: 0.000078
Epoch:    8/10 W: 1.002, Cost: 0.000013
Epoch:    9/10 W: 0.999, Cost: 0.000002
Epoch:   10/10 W: 1.000, Cost: 0.000000


  allow_unreachable=True)  # allow_unreachable flag


Epoch: 데이터로 학습한 횟수\
학습하면서 점점:
   * 1에 수렴하는 W
   * 줄어드는 cost

지금까지 한 종류의 정보만을 이용해 예측하는 모델을 만들었다.\
다음 수업 부터는? 다양한 정보를 추합해서 예측하는 모델 만들어 볼 것