In [7]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optm

In [8]:
torch.manual_seed(1)

<torch._C.Generator at 0x7fd9dfc49690>

In [9]:
X_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

# 가중치와 편향의 초기화

In [10]:
# 가중치를 0 으로 초기화한다. (zeros)
# 학습을 통해 값이 변경되는 변수임을 명시한다. (requires_grad = True 임을 통해서)
# size 가 1 인 zeros 의 tensor 를 형성하자.
W = torch.zeros(1,requires_grad=True) ; print(W)

tensor([0.], requires_grad=True)


In [12]:
# 편향(b) 역시 0으로 초기화하고, 학습을 통해서 변하는 변수임을 명시해주자.
# size 가 1 인 zero 의 tensor 를 형성하자.
b = torch.zeros(1,requires_grad=True) ; print(b)

tensor([0.], requires_grad=True)


# y_pred 모델 형성

In [17]:
# linear regression 이므로 y_pred 모델은 아래와 같다.
y_pred = X_train*W + b ; print(y_pred) 
# 처음의 값은 아직 gradient method 를 쓰지 않아서 초기화된 W,b 를 계산한 0,0,0 임을 볼 수 있다.

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


# cost 정의

In [20]:
cost = torch.mean((y_hat - y_train)**2)
# cost 를 정해준다. 이 떄의 cost 는 mse 를 사용한다.
# 어짜피 계산하는 부분이므로 굳이 변한다는(required_grad = True) 는 쓰지 않는다.

# optimizer 정의



In [23]:
optimizer = torch.optim.SGD([W,b] ,lr=0.01)
# 맨 앞은 optimizer의 update 대상을 list 형태로 입력받는다
# lr 은 학습률

In [24]:
optimizer.zero_grad()
# optimizer.zero_grad()를 실행함으로서 미분을 통해 얻은 기울기를 0으로 초기화한다.
# 파이토치는 기울기를 계속 누적(전에 구한값이 초기화 되지 않고 계속 남아있음) 시키려고 하기 떄문에 초기화시키는 작업이 꼭 필요하다.
# 기울기를 초기화 해야함 새로운 가중치 편향에 대하여 새로운 기울기를 구할 수 있다.

In [25]:
cost.backward()
# cost.backward() 를 호출하면 가중치 W 와 편향 b 에 대한 기울기가 계산된다.

In [None]:
optimizer.step()
# 그 다음에는 우리가 정한 경사하강법 optimizer 의 step 함수를 호출하여, 인수로 들어갔던 W 와 b 에서 리턴되는 변수들의 기울기에 학습률 0.01 을 곱하여 뺴줌으로서 업데이트된다.
# W 와 b를 업데이트

# 전체 code

In [None]:
# 데이터
X_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = torch.optim.SGD([W,b],lr=0.05)

# epochs 설정
n_epochs = 2000

for epoch in range(n_epochs +1 ) :

    # y_hat 계산
    y_hat = X_train * W + b
    # cost 계산
    cost = torch.mean((y_hat-y_train)**2)
    # cost 를 토대로 update
    optimizer.zero_grad() # gradient 를 0 으로 초기화
    cost.backward() # W,b 에 대한 gradient 계산
    optimizer.step() # update W,b

    # 100번마다 기록 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, n_epochs, W.item(), b.item(), cost.item()))


Epoch    0/2000 W: 0.933, b: 0.400 Cost: 18.666666
Epoch  100/2000 W: 1.904, b: 0.217 Cost: 0.006942
Epoch  200/2000 W: 1.971, b: 0.065 Cost: 0.000618
Epoch  300/2000 W: 1.991, b: 0.019 Cost: 0.000055
Epoch  400/2000 W: 1.997, b: 0.006 Cost: 0.000005
Epoch  500/2000 W: 1.999, b: 0.002 Cost: 0.000000
Epoch  600/2000 W: 2.000, b: 0.001 Cost: 0.000000
Epoch  700/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch  800/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch  900/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1000/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1100/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1200/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1300/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1400/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1500/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1600/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1700/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1800/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1900/2000 W: 2.000, b: 0.000 Cost: 0.000000

In [None]:
# 최종 훈련 결과를 보면 최적의 기울기 W 는 2에 가깝고 b 는 0 에 가까운 것을 볼 수 있다.
# 우리 데이터의 관계를 생각해보면, 제대로 정답을 찾은것 같다.

# optimizer.zero_grad() 가 필요한 이유

In [None]:
# 파이토치는 미분을 통해 얻은 기울기를 이전에 기울기 값에 누적시키는 특징이 있다.

In [None]:
W = torch.tensor(2.0,requires_grad=True)

n_epochs = 20
for epoch in range(n_epochs + 1):
    z = 2*W
    z.backward()
    print('수식을 w 로 미분한 값 : {}'.format(W.grad)) 

수식을 w 로 미분한 값 : 2.0
수식을 w 로 미분한 값 : 4.0
수식을 w 로 미분한 값 : 6.0
수식을 w 로 미분한 값 : 8.0
수식을 w 로 미분한 값 : 10.0
수식을 w 로 미분한 값 : 12.0
수식을 w 로 미분한 값 : 14.0
수식을 w 로 미분한 값 : 16.0
수식을 w 로 미분한 값 : 18.0
수식을 w 로 미분한 값 : 20.0
수식을 w 로 미분한 값 : 22.0
수식을 w 로 미분한 값 : 24.0
수식을 w 로 미분한 값 : 26.0
수식을 w 로 미분한 값 : 28.0
수식을 w 로 미분한 값 : 30.0
수식을 w 로 미분한 값 : 32.0
수식을 w 로 미분한 값 : 34.0
수식을 w 로 미분한 값 : 36.0
수식을 w 로 미분한 값 : 38.0
수식을 w 로 미분한 값 : 40.0
수식을 w 로 미분한 값 : 42.0


In [None]:
# 계속해서 미분값인 2가 누적되고 있다! 
# 그렇기 떄문에 중간중간 optimizer.zero_grad() 를 통해서 미분값을 계속 0으로 초기화 시켜주어야한다.