In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optm

In [13]:
torch.manual_seed(1)

<torch._C.Generator at 0x7f5dedcbfdb0>

In [14]:
# 변수 선언

In [15]:
X_train = torch.FloatTensor([[1],[2],[3]])

In [16]:
y_train = torch.FloatTensor([[2],[4],[6]])

In [17]:
print(X_train)

tensor([[1.],
        [2.],
        [3.]])


In [18]:
X_train.shape

torch.Size([3, 1])

In [19]:
y_train.shape

torch.Size([3, 1])

# 가중치와 편향의 초기화

In [31]:
# 가중치를 0 으로 두고 (zeros)
# 학습을 통해 값이 변경되는 변수임을 명시한다. (requires_grad = True 임을 통해서)
# size 가 1 인 zeros 의 tensor 를 형성하자.
W = torch.zeros(1,requires_grad=True) 

In [32]:
# 가중치 W 가 0 으로 초기화되었으므로, 0이 출력된 모습을 볼 수 있다.
# requires_grad 가 True 로 주어진 것을 통해 학습을 통해 계속 값이 변하는 변수임을 명시한다.
print(W)

tensor([0.], requires_grad=True)


In [33]:
# 편향(b) 역시 0으로 초기화하고, 학습을 통해서 변하는 변수임을 명시해주자.
# size 가 1 인 zero 의 tensor 를 형성하자.
b = torch.zeros(1,requires_grad=True)

In [34]:
print(b)

tensor([0.], requires_grad=True)


# 가설 세우기

In [45]:
y_hat = X_train*W + b

In [46]:
print(y_hat) # 처음의 값이야 아직 gradient method 를 쓰지 않아서 0,0,0 이다.

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


# 비용함수선언하기

In [48]:
cost = torch.mean((y_hat - y_train)**2)
# cost 를 정해준다. 이 떄의 cost 는 mse 를 사용한다.

In [50]:
print(cost) 
y_train

tensor(18.6667, grad_fn=<MeanBackward0>)


tensor([[2.],
        [4.],
        [6.]])

In [53]:
(4 + 16 + 36)/3
# 아직 gradient descent method 를 통해서 제대로 계산을 해주지 않았기 떄문에 값은 그냥 4+16+36 / 3 = 18.666 의 값이 나왔다.

18.666666666666668

# 경사 하강법 구현하기



In [56]:
optimizer = torch.optim.SGD([W,b] ,lr=0.01)
# lr 은 학습률
# 학습 대상인 W,b 가 SGD 의 입력이 된다.

In [58]:
# optimizer.zero_grad() 를 실행함으로서 미분을 통해 얻은 기울기를 0으로 초기화한다.
# 파이토치는 기울기를 계속 누적(전에 구한값이 초기화 되지 않고 계속 남아있음) 시키려고 하기 떄문에 초기화시키는 작업이 꼭 필요하다.
# 기울기를 초기화 해야함 새로운 가중치 편향에 대하여 새로운 기울기를 구할 수 있다.
# gradient 를 0으로 초기화
optimizer.zero_grad()

In [59]:
# cost.backward() 를 호출하면 가중치 W 와 편향 b 에 대한 기울기가 계산된다.
cost.backward()

In [61]:
# 그 다음에는 우리가 정한 경사하강법 optimizer 의 step 함수를 호출하여, 인수로 들어갔던 W 와 b 에서 리턴되는 변수들의 기울기에 학습률 0.01 을 곱하여 뺴줌으로서 업데이트된다.
# W 와 b를 업데이트
optimizer.step()

# 전체 code

In [67]:
# 데이터
X_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

# 모델 초기화
W = torch.zeros(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)

# optimizer 설정
optimizer = torch.optim.SGD([W,b],lr=0.05)

# epochs 설정
n_epochs = 2000

for epoch in range(n_epochs +1 ) :

    # y_hat 계산
    y_hat = X_train * W + b
    
    # cost 계산
    cost = torch.mean((y_hat-y_train)**2)

    # cost 를 토대로 update
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 기록 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, n_epochs, W.item(), b.item(), cost.item()))


Epoch    0/2000 W: 0.933, b: 0.400 Cost: 18.666666
Epoch  100/2000 W: 1.904, b: 0.217 Cost: 0.006942
Epoch  200/2000 W: 1.971, b: 0.065 Cost: 0.000618
Epoch  300/2000 W: 1.991, b: 0.019 Cost: 0.000055
Epoch  400/2000 W: 1.997, b: 0.006 Cost: 0.000005
Epoch  500/2000 W: 1.999, b: 0.002 Cost: 0.000000
Epoch  600/2000 W: 2.000, b: 0.001 Cost: 0.000000
Epoch  700/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch  800/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch  900/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1000/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1100/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1200/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1300/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1400/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1500/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1600/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1700/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1800/2000 W: 2.000, b: 0.000 Cost: 0.000000
Epoch 1900/2000 W: 2.000, b: 0.000 Cost: 0.000000

In [68]:
# 최종 훈련 결과를 보면 최적의 기울기 W 는 2에 가깝고 b 는 0 에 가까운 것을 볼 수 있다.
# 우리 데이터의 관계를 생각해보면, 제대로 정답을 찾은것 같다.

# optimizer.zero_grad() 가 필요한 이유

In [69]:
# 파이토치는 미분을 통해 얻은 기울기를 이전에 기울기 값에 누적시키는 특징이 있다.

In [73]:
W = torch.tensor(2.0,requires_grad=True)

n_epochs = 20
for epoch in range(n_epochs + 1):
    z = 2*W
    z.backward()
    print('수식을 w 로 미분한 값 : {}'.format(W.grad)) 

수식을 w 로 미분한 값 : 2.0
수식을 w 로 미분한 값 : 4.0
수식을 w 로 미분한 값 : 6.0
수식을 w 로 미분한 값 : 8.0
수식을 w 로 미분한 값 : 10.0
수식을 w 로 미분한 값 : 12.0
수식을 w 로 미분한 값 : 14.0
수식을 w 로 미분한 값 : 16.0
수식을 w 로 미분한 값 : 18.0
수식을 w 로 미분한 값 : 20.0
수식을 w 로 미분한 값 : 22.0
수식을 w 로 미분한 값 : 24.0
수식을 w 로 미분한 값 : 26.0
수식을 w 로 미분한 값 : 28.0
수식을 w 로 미분한 값 : 30.0
수식을 w 로 미분한 값 : 32.0
수식을 w 로 미분한 값 : 34.0
수식을 w 로 미분한 값 : 36.0
수식을 w 로 미분한 값 : 38.0
수식을 w 로 미분한 값 : 40.0
수식을 w 로 미분한 값 : 42.0


In [74]:
# 계속해서 미분값인 2가 누적되고 있다! 
# 그렇기 떄문에 중간중간 optimizer.zero_grad() 를 통해서 미분값을 계속 0으로 초기화 시켜주어야한다.