In [5]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

In [6]:
torch.manual_seed(1)

<torch._C.Generator at 0x7fd5c0917f90>

- random_state와 같다

In [13]:
X_train = torch.FloatTensor([[1],[2],[3]])
y_train = torch.FloatTensor([[2],[4],[6]])

In [17]:
y_train.shape

torch.Size([3, 1])

### 가중치와 편향의 초기화

- 선형 회귀란 학습 데이터와 가장 잘 맞는 하나의 직선 찾는 것
- 그 직선 정의하는 것이 W(가중치)와 b(편향)

In [22]:
W = torch.zeros(1,requires_grad = True)
b = torch.zeros(1,requires_grad = True)

- requires_grad = Ture 로 설정하면 이제 이 텐서에 대한 기울기를 저장, 학습을 통해 계속 값이 변경되는 변수임을 의미

In [23]:
print(W)
print(b)

tensor([0.], requires_grad=True)
tensor([0.], requires_grad=True)


### 가설 세우기

In [24]:
hypothesis = X_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


In [26]:
cost = torch.mean((hypothesis - y_train) ** 2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


### 경사 하강법 구현하기

In [27]:
optimizer = optim.SGD([W,b],lr = 0.01)

In [28]:
optimizer

SGD (
Parameter Group 0
    dampening: 0
    lr: 0.01
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)

In [29]:
optimizer.zero_grad()
cost.backward()
optimizer.step()

- zero_grad()를 실행하면서 미분을 통해 얻은 기울기를 0으로 초기화
- 기울기를 초기화해야지 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있다.
- cost.backward() -> 가중치 W와 편향 b에 대한 기울기 계산
- step을 통해 W&b 리턴되는 변수들의 기울기에 학습률 0.01 계산하여 빼줌으로서 업데이트

#### optimizer.zero_grad()가 필요한 이유

### 전체 코드

In [38]:
nb_epochs = 2000

for epoch in range(1,nb_epochs+1) :
    hypothesis = X_train * W + b
    cost = torch.mean((hypothesis - y_train)**2)
    
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()
    
    if epoch % 100 == 0 :
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()))

Epoch  100/2000 W: 1.977, b: 0.052 Cost: 0.000391
Epoch  200/2000 W: 1.982, b: 0.041 Cost: 0.000242
Epoch  300/2000 W: 1.986, b: 0.032 Cost: 0.000149
Epoch  400/2000 W: 1.989, b: 0.025 Cost: 0.000092
Epoch  500/2000 W: 1.991, b: 0.020 Cost: 0.000057
Epoch  600/2000 W: 1.993, b: 0.016 Cost: 0.000035
Epoch  700/2000 W: 1.995, b: 0.012 Cost: 0.000022
Epoch  800/2000 W: 1.996, b: 0.010 Cost: 0.000013
Epoch  900/2000 W: 1.997, b: 0.008 Cost: 0.000008
Epoch 1000/2000 W: 1.997, b: 0.006 Cost: 0.000005
Epoch 1100/2000 W: 1.998, b: 0.005 Cost: 0.000003
Epoch 1200/2000 W: 1.998, b: 0.004 Cost: 0.000002
Epoch 1300/2000 W: 1.999, b: 0.003 Cost: 0.000001
Epoch 1400/2000 W: 1.999, b: 0.002 Cost: 0.000001
Epoch 1500/2000 W: 1.999, b: 0.002 Cost: 0.000000
Epoch 1600/2000 W: 1.999, b: 0.001 Cost: 0.000000
Epoch 1700/2000 W: 2.000, b: 0.001 Cost: 0.000000
Epoch 1800/2000 W: 2.000, b: 0.001 Cost: 0.000000
Epoch 1900/2000 W: 2.000, b: 0.001 Cost: 0.000000
Epoch 2000/2000 W: 2.000, b: 0.001 Cost: 0.000000


## 자동미분

- 경사하강법 : 비용 함수(cost function)을 미분하여 이 함수의 기울기를 구해서 비용이 최소화되는 방향을 찾아내는 알고리즘

- 모델이 복잡해질수록 경사 하강법을 직접 코딩하는 것은 어려운 일 -> 파이토치에서 이런 수고를 하지 않도록 자동 미분 지원

### 자동 미분 실습

In [48]:
w = torch.tensor(2.0,requires_grad = True)

In [51]:
y = w ** 2
z = 2*y + 5

In [52]:
z.backward()

In [46]:
print(f'수식을 w로 미분한 값 : {w.grad}')

수식을 w로 미분한 값 : 8.0
