# 기본 셋팅

In [15]:
import torch
import torch.nn as nn
import torch.nn.functional as F  # 활성화 함수, 손실 함수 대체 
import torch.optim as optim  # 옵티마이저

In [16]:
# 재시작해도 같은 결과가 나오도록 마치 random_state = 0 과 같다.
torch.manual_seed(1)

<torch._C.Generator at 0x23bf16e96f0>

# 변수 선언(X_train, Y_train)

In [17]:
X_train = torch.FloatTensor([[1], [2], [3]])
Y_train = torch.FloatTensor([[2], [4], [6]])

X_train과 Y_train의 값과 모양 확인

In [18]:
print(X_train)
print(X_train.shape)

tensor([[1.],
        [2.],
        [3.]])
torch.Size([3, 1])


In [19]:
print(Y_train)
print(Y_train.shape)

tensor([[2.],
        [4.],
        [6.]])
torch.Size([3, 1])


당연한거지만 X_train과 Y_train의 shape는 같아야함

# 가중치와 편향의 초기화

Y = Wx + b 라고 했을 때, 가중치는 W 편향은 b이다.

In [20]:
# 가중치 W를 0으로 초기화 하고 값 출력(이 경우에는 이렇게 사용했지만 무조건 가중치를 0으로 초기화해서는 안된다))
W = torch.zeros(1, requires_grad = True)
# 가중치 W 출력
print(W)

tensor([0.], requires_grad=True)


requires_grad = True는 이 변수는 학습을 통해 계속 값이 변경되는 변수임을 의미한다.

가중치의 크기(size)를 1로 한 것은 행렬 곱셈에 의해서다
Y = Wx + h 일때 이미 Y와 x는 3 by 1 행렬임을 확인하였다.
이를 위해서 W또한 특정 크기의 행렬이 되어야한다고 생각했지만 스칼라값의 크기를 가지게 되었다. 
이는 텐서가 브로드 캐스팅이 가능하기 때문이다. 
또, 우리는 가중치를 곱해도 크기가 보존되어야하기 때문에 브로드 캐스팅을 사용한다.

![nn](img/BroadCast.png)

In [21]:
# 편향 b도 0으로 초기화하고 학습을 통해 값이 변경되는 변수임을 명시
b = torch.zeros(1, requires_grad = True)
print(b)

tensor([0.], requires_grad=True)


# 가설 세우기

H(x) = Wx + b

In [22]:
hypothesis = X_train * W + b
print(hypothesis)

tensor([[0.],
        [0.],
        [0.]], grad_fn=<AddBackward0>)


# 비용 함수 선언하기

비용함수는 우리가 이전에 공부한 것과 같다.
![nn](img/CostFunction.png)

In [23]:
# torch.mean 으로 평균을 구한다.
cost = torch.mean((hypothesis - Y_train) ** 2)
print(cost)

tensor(18.6667, grad_fn=<MeanBackward0>)


# 경사 하강법 구현하기

SGD 사용

In [24]:
optimizer = optim.SGD([W, b], lr = 0.01)

In [25]:
"""
optimzer.zero_grad()을 사용하여 미분을 통해 얻은 기울기를 0으로 초기화
기울기를 초기화해야만 새로운 가중치 편향에 대해서 새로운 기울기를 구할 수 있음
"""
optimizer.zero_grad()

# cost.backward() 함수를 호출하면 가중치 W와 편향 b에 대한 기울기가 자동적으로 계산
cost.backward()

# 가중치와 편항을 업데이트
optimizer.step()


# 전체 학습

In [27]:
nb_epochs = 1999 # 원하는만큼 경사 하강법을 반복
for epoch in range(nb_epochs + 1):

    # H(x) 계산
    hypothesis = X_train * W + b

    # cost 계산
    cost = torch.mean((hypothesis - Y_train) ** 2)

    # cost로 H(x) 개선
    optimizer.zero_grad()
    cost.backward()
    optimizer.step()

    # 100번마다 로그 출력
    if epoch % 100 == 0:
        print('Epoch {:4d}/{} W: {:.3f}, b: {:.3f} Cost: {:.6f}'.format(
            epoch, nb_epochs, W.item(), b.item(), cost.item()
        ))

Epoch    0/1999 W: 0.353, b: 0.151 Cost: 14.770963
Epoch  100/1999 W: 1.746, b: 0.577 Cost: 0.047939
Epoch  200/1999 W: 1.801, b: 0.453 Cost: 0.029624
Epoch  300/1999 W: 1.843, b: 0.356 Cost: 0.018306
Epoch  400/1999 W: 1.877, b: 0.280 Cost: 0.011312
Epoch  500/1999 W: 1.903, b: 0.220 Cost: 0.006990
Epoch  600/1999 W: 1.924, b: 0.173 Cost: 0.004319
Epoch  700/1999 W: 1.940, b: 0.136 Cost: 0.002669
Epoch  800/1999 W: 1.953, b: 0.107 Cost: 0.001649
Epoch  900/1999 W: 1.963, b: 0.084 Cost: 0.001019
Epoch 1000/1999 W: 1.971, b: 0.066 Cost: 0.000630
Epoch 1100/1999 W: 1.977, b: 0.052 Cost: 0.000389
Epoch 1200/1999 W: 1.982, b: 0.041 Cost: 0.000240
Epoch 1300/1999 W: 1.986, b: 0.032 Cost: 0.000149
Epoch 1400/1999 W: 1.989, b: 0.025 Cost: 0.000092
Epoch 1500/1999 W: 1.991, b: 0.020 Cost: 0.000057
Epoch 1600/1999 W: 1.993, b: 0.016 Cost: 0.000035
Epoch 1700/1999 W: 1.995, b: 0.012 Cost: 0.000022
Epoch 1800/1999 W: 1.996, b: 0.010 Cost: 0.000013
Epoch 1900/1999 W: 1.997, b: 0.008 Cost: 0.000008

COST가 작아지면서 가중치와 편항이 업데이트 된 것을 확인 할 수 있음.

# optimizer.zero_grad()가 필요한 이유

파이토치는 미분을 통해 얻은 기울기를 이전에 계산된 기울기 값에 누적시키는 특징이 있음

In [29]:
import torch
w = torch.tensor(2.0, requires_grad = True)

nb_epochs = 20
for epoch in range(nb_epochs + 1) :
    z = 2 * w
    
    z.backward() # 기울기 계산
    print('수식을 w로 미분한 값 : {}'.format(w.grad))

수식을 w로 미분한 값 : 2.0
수식을 w로 미분한 값 : 4.0
수식을 w로 미분한 값 : 6.0
수식을 w로 미분한 값 : 8.0
수식을 w로 미분한 값 : 10.0
수식을 w로 미분한 값 : 12.0
수식을 w로 미분한 값 : 14.0
수식을 w로 미분한 값 : 16.0
수식을 w로 미분한 값 : 18.0
수식을 w로 미분한 값 : 20.0
수식을 w로 미분한 값 : 22.0
수식을 w로 미분한 값 : 24.0
수식을 w로 미분한 값 : 26.0
수식을 w로 미분한 값 : 28.0
수식을 w로 미분한 값 : 30.0
수식을 w로 미분한 값 : 32.0
수식을 w로 미분한 값 : 34.0
수식을 w로 미분한 값 : 36.0
수식을 w로 미분한 값 : 38.0
수식을 w로 미분한 값 : 40.0
수식을 w로 미분한 값 : 42.0
