# 라이브러리 호출

In [3]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 랜덤 시드 고정

In [4]:
torch.manual_seed(1)

<torch._C.Generator at 0x21b07068590>

# 데이터 선언

In [2]:
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])

In [6]:
print(x_train.shape)
print(x_train.dim())
print(y_train.shape)
print(y_train.dim())

torch.Size([3, 1])
2
torch.Size([3, 1])
2


# 가중치와 편향 초기화

In [8]:
# requires_grad=True가 인자로 주어진 것을 확인할 수 있습니다. 이는 이 변수는 학습을 통해 계속 값이 변경되는 변수임을 의미합니다.
W = torch.zeros(1,requires_grad =True)

In [9]:
print(W)

tensor([0.], requires_grad=True)


In [10]:
b = torch.zeros(1, requires_grad=True)
print(b)

tensor([0.], requires_grad=True)


# 가설 세우기

In [11]:
hypothesis = x_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


# 비용함수 선언

In [12]:
cost = torch.mean((hypothesis-y_train)**2)

In [13]:
cost

tensor(18.6667, grad_fn=<MeanBackward0>)

# 경사 하강법 구현하기

In [15]:
opt = optim.SGD([W,b],lr=0.01)

In [17]:
# gradient를 0으로 초기화
opt.zero_grad() 
# 비용 함수를 미분하여 gradient 계산
cost.backward() 
# W와 b를 업데이트
opt.step() 

In [20]:
epochs = 2000

In [21]:
for epoch in range(epochs+1):
    hypothesis = W * x_train + b
    cost = torch.mean((hypothesis-y_train)**2)
    # gradient를 0으로 초기화
    opt.zero_grad() 
    # 비용 함수를 미분하여 gradient 계산
    cost.backward() 
    # W와 b를 업데이트
    opt.step()
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f}, Cost: {:.6f}'.format(epoch,epochs,W.item(),b.item(),cost.item()))

Epoch    0/2000 W: 1.801, b: 0.452, Cost: 0.029481
Epoch  100/2000 W: 1.844, b: 0.356, Cost: 0.018218
Epoch  200/2000 W: 1.877, b: 0.279, Cost: 0.011257
Epoch  300/2000 W: 1.903, b: 0.220, Cost: 0.006956
Epoch  400/2000 W: 1.924, b: 0.173, Cost: 0.004299
Epoch  500/2000 W: 1.940, b: 0.136, Cost: 0.002656
Epoch  600/2000 W: 1.953, b: 0.107, Cost: 0.001641
Epoch  700/2000 W: 1.963, b: 0.084, Cost: 0.001014
Epoch  800/2000 W: 1.971, b: 0.066, Cost: 0.000627
Epoch  900/2000 W: 1.977, b: 0.052, Cost: 0.000387
Epoch 1000/2000 W: 1.982, b: 0.041, Cost: 0.000239
Epoch 1100/2000 W: 1.986, b: 0.032, Cost: 0.000148
Epoch 1200/2000 W: 1.989, b: 0.025, Cost: 0.000091
Epoch 1300/2000 W: 1.991, b: 0.020, Cost: 0.000056
Epoch 1400/2000 W: 1.993, b: 0.016, Cost: 0.000035
Epoch 1500/2000 W: 1.995, b: 0.012, Cost: 0.000022
Epoch 1600/2000 W: 1.996, b: 0.010, Cost: 0.000013
Epoch 1700/2000 W: 1.997, b: 0.008, Cost: 0.000008
Epoch 1800/2000 W: 1.997, b: 0.006, Cost: 0.000005
Epoch 1900/2000 W: 1.998, b: 0.

# optimizer.zero_grad()가 필요한 이유

계속해서 미분값인 2가 누적되는 것을 볼 수 있습니다. 그렇기 때문에 optimizer.zero_grad()를 통해 미분값을 계속 0으로 초기화시켜줘야 합니다.

In [24]:
w = torch.tensor(2.0,requires_grad = True)

In [32]:
epochs = 20
for epoch in range(epochs+1):
    z = 2*w
    z.backward()
    print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0


# 자동 미분(Autograd)

In [48]:
w = torch.tensor(2.0, requires_grad= True)

In [49]:
y = w**2
z = 2*y+5

In [50]:
z.backward()

In [51]:
print('w로 미분한 값: {}'.format(w.grad))

w로 미분한 값: 8.0


In [55]:
test = torch.tensor(1.0)

In [56]:
test.item()

1.0