In [1]:
# -*- coding: utf-8 -*-
import numpy as np
import math

# 무작위로 입력과 출력 데이터를 생성합니다
x = np.linspace(-math.pi, math.pi, 2000)
y = np.sin(x)

# 무작위로 가중치를 초기화합니다
a = np.random.randn()
b = np.random.randn()
c = np.random.randn()
d = np.random.randn()

learning_rate = 1e-6
for t in range(2000):
    # 순전파 단계: 예측값 y를 계산합니다
    # y = a + b x + c x^2 + d x^3
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # 손실(loss)을 계산하고 출력합니다
    loss = np.square(y_pred - y).sum()
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 a, b, c, d의 변화도(gradient)를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # 가중치를 갱신합니다.
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d

print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')

99 3472.784088656839
199 2378.646500085366
299 1631.9705040417275
399 1121.8293258364363
499 772.891757591188
599 533.9432505377972
699 370.12620380130966
799 257.6890498290987
899 180.429306309487
999 127.2815487878463
1099 90.68000153979266
1199 65.44575661980836
1299 48.029686584806434
1399 35.99677519154814
1499 27.674484173970338
1599 21.9127014549904
1699 17.919675209089945
1799 15.149752266761617
1899 13.226475159035143
1999 11.889840618714494
Result: y = 0.051795427535165514 + 0.8314254489701306 x + -0.008935573129450475 x^2 + -0.08972949467774548 x^3


In [2]:
import torch
import torch.nn as nn
import torch.nn.functional as F
 
# 데이터 생성 
x_train = torch.FloatTensor([[1], [2], [3]])
y_train = torch.FloatTensor([[2], [4], [6]])
 
# 모델을 선언 및 초기화 
model = nn.Linear(1,1)
 
#모델 파라미터 출력
print(list(model.parameters()))
 
#옵티마이저 설정 
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
 
#학습 : 경사하강법 
epochs = 3000
for epoch in range(epochs+1):
    prediction = model(x_train)  #H(x)계산, 클래스에 그냥 입력하면 됨 
    
    cost = F.mse_loss(prediction, y_train) #cost 계산 
    
    #cost로 H(x) 개선 
    optimizer.zero_grad()  #gradient=0 초기
    cost.backward()  # 비용함수 미분해서 gradient 계산 
    optimizer.step()  # 파라미터 업데이트 
    
    if epoch % 100 == 0:
    # 100번마다 로그 출력
      print('Epoch {:4d}/{} Cost: {:.6f}'.format(
          epoch, epochs, cost.item()))

[Parameter containing:
tensor([[-0.9431]], requires_grad=True), Parameter containing:
tensor([-0.6558], requires_grad=True)]
Epoch    0/3000 Cost: 48.572453
Epoch  100/3000 Cost: 0.025402
Epoch  200/3000 Cost: 0.015697
Epoch  300/3000 Cost: 0.009700
Epoch  400/3000 Cost: 0.005994
Epoch  500/3000 Cost: 0.003704
Epoch  600/3000 Cost: 0.002289
Epoch  700/3000 Cost: 0.001414
Epoch  800/3000 Cost: 0.000874
Epoch  900/3000 Cost: 0.000540
Epoch 1000/3000 Cost: 0.000334
Epoch 1100/3000 Cost: 0.000206
Epoch 1200/3000 Cost: 0.000127
Epoch 1300/3000 Cost: 0.000079
Epoch 1400/3000 Cost: 0.000049
Epoch 1500/3000 Cost: 0.000030
Epoch 1600/3000 Cost: 0.000019
Epoch 1700/3000 Cost: 0.000011
Epoch 1800/3000 Cost: 0.000007
Epoch 1900/3000 Cost: 0.000004
Epoch 2000/3000 Cost: 0.000003
Epoch 2100/3000 Cost: 0.000002
Epoch 2200/3000 Cost: 0.000001
Epoch 2300/3000 Cost: 0.000001
Epoch 2400/3000 Cost: 0.000000
Epoch 2500/3000 Cost: 0.000000
Epoch 2600/3000 Cost: 0.000000
Epoch 2700/3000 Cost: 0.000000
Epoch 

In [13]:
# -*- coding: utf-8 -*-

import torch
import math


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요

# 무작위로 입력과 출력 데이터를 생성합니다
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# 무작위로 가중치(기울기)를 초기화합니다
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(5000):
    # 순전파 단계: 예측값 y를 계산합니다
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # 손실(loss)을 계산하고 출력합니다
    loss = (y_pred - y).pow(2).sum().item()
   
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 a, b, c, d의 변화도(gradient)를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # 가중치를 갱신합니다.
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d


print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

99 357.70330810546875
199 248.1020965576172
299 173.11932373046875
399 121.76091003417969
499 86.54341125488281
599 62.366546630859375
699 45.75006866455078
799 34.31718826293945
899 26.44194793701172
999 21.011404037475586
1099 17.262649536132812
1199 14.672078132629395
1299 12.880046844482422
1399 11.63912582397461
1499 10.778993606567383
1599 10.182223320007324
1699 9.767788887023926
1799 9.479717254638672
1899 9.279304504394531
1999 9.139759063720703
2099 9.042513847351074
2199 8.974692344665527
2299 8.927353858947754
2399 8.894292831420898
2499 8.871182441711426
2599 8.855020523071289
2699 8.843708992004395
2799 8.835786819458008
2899 8.830236434936523
2999 8.82634449005127
3099 8.823615074157715
3199 8.821700096130371
3299 8.820353507995605
3399 8.819408416748047
3499 8.818743705749512
3599 8.818276405334473
3699 8.817949295043945
3799 8.817717552185059
3899 8.817554473876953
3999 8.817440032958984
4099 8.817359924316406
4199 8.817303657531738
4299 8.81726360321045
4399 8.8172349

In [15]:
# -*- coding: utf-8 -*-
import torch
import math

# 입력값과 출력값을 갖는 텐서들을 생성합니다.
x = torch.linspace(-math.pi, math.pi, 2000)
y = torch.sin(x)

# 이 예제에서, 출력 y는 (x, x^2, x^3)의 선형 함수이므로, 선형 계층 신경망으로 간주할 수 있습니다.
# (x, x^2, x^3)를 위한 텐서를 준비합니다.
p = torch.tensor([1, 2, 3])
xx = x.unsqueeze(-1).pow(p)

# 위 코드에서, x.unsqueeze(-1)은 (2000, 1)의 shape을, p는 (3,)의 shape을 가지므로,
# 이 경우 브로드캐스트(broadcast)가 적용되어 (2000, 3)의 shape을 갖는 텐서를 얻습니다.

# nn 패키지를 사용하여 모델을 순차적 계층(sequence of layers)으로 정의합니다.
# nn.Sequential은 다른 Module을 포함하는 Module로, 포함되는 Module들을 순차적으로 적용하여 
# 출력을 생성합니다. 각각의 Linear Module은 선형 함수(linear function)를 사용하여 입력으로부터
# 출력을 계산하고, 내부 Tensor에 가중치와 편향을 저장합니다.
# Flatten 계층은 선형 계층의 출력을 `y` 의 shape과 맞도록(match) 1D 텐서로 폅니다(flatten).
model = torch.nn.Sequential(
    torch.nn.Linear(3, 1),
    torch.nn.Flatten(0, 1)
)

# 또한 nn 패키지에는 주로 사용되는 손실 함수(loss function)들에 대한 정의도 포함되어 있습니다;
# 여기에서는 평균 제곱 오차(MSE; Mean Squared Error)를 손실 함수로 사용하겠습니다.
loss_fn = torch.nn.MSELoss(reduction='sum')

learning_rate = 1e-6
for t in range(2000):

    # 순전파 단계: x를 모델에 전달하여 예측값 y를 계산합니다. Module 객체는 __call__ 연산자를 
    # 덮어써서(override) 함수처럼 호출할 수 있도록 합니다. 이렇게 함으로써 입력 데이터의 텐서를 Module에 전달하여
    # 출력 데이터의 텐서를 생성합니다.
    y_pred = model(xx)

    # 손실을 계산하고 출력합니다. 예측한 y와 정답인 y를 갖는 텐서들을 전달하고,
    # 손실 함수는 손실(loss)을 갖는 텐서를 반환합니다.
    loss = loss_fn(y_pred, y)
    if t % 100 == 99:
        print(t, loss.item())

    # 역전파 단계를 실행하기 전에 변화도(gradient)를 0으로 만듭니다.
    model.zero_grad()

    # 역전파 단계: 모델의 학습 가능한 모든 매개변수에 대해 손실의 변화도를 계산합니다.
    # 내부적으로 각 Module의 매개변수는 requires_grad=True일 때 텐서에 저장되므로,
    # 아래 호출은 모델의 모든 학습 가능한 매개변수의 변화도를 계산하게 됩니다.
    loss.backward()

    # 경사하강법을 사용하여 가중치를 갱신합니다.
    # 각 매개변수는 텐서이므로, 이전에 했던 것처럼 변화도에 접근할 수 있습니다.
    with torch.no_grad():
        for param in model.parameters():
            param -= learning_rate * param.grad

# list의 첫번째 항목에 접근하는 것처럼 `model` 의 첫번째 계층(layer)에 접근할 수 있습니다.
linear_layer = model[0]

# 선형 계층에서, 매개변수는 `weights` 와 `bias` 로 저장됩니다.
print(f'Result: y = {linear_layer.bias.item()} + {linear_layer.weight[:, 0].item()} x + {linear_layer.weight[:, 1].item()} x^2 + {linear_layer.weight[:, 2].item()} x^3')

99 343.1071472167969
199 230.51002502441406
299 155.86732482910156
399 106.37649536132812
499 73.55638885498047
599 51.787410736083984
699 37.345603942871094
799 27.762496948242188
899 21.402023315429688
999 17.179405212402344
1099 14.375329971313477
1199 12.51278018951416
1299 11.275218963623047
1399 10.452695846557617
1499 9.905832290649414
1599 9.5421142578125
1699 9.30013370513916
1799 9.139077186584473
1899 9.031829833984375
1999 8.96038818359375
Result: y = -0.004667290486395359 + 0.8459258675575256 x + 0.0008051855838857591 x^2 + -0.0917920470237732 x^3
