3차 다항식(third order polynomial)을 사용하여 y=$sin(x)$ 에 근사(fit)하는 문제를 다뤄보겠습니다. 신경망은 4개의 매개변수를 가지며, 정답과 신경망이 예측한 결과 사이의 유클리드 거리(Euclidean distance)를 최소화하여 임의의 값을 근사할 수 있도록 경사하강법(gradient descent)을 사용하여 학습

In [1]:
# numpy를 통해 신경망 구축 

import numpy as np
import math 

# 무작위로 입력과 출력 데이터 생성 

x = np.linspace(-math.pi, math.pi, 2000)
y = np.sin(x)

# 무작위로 가중치 초기화
a = np.random.randn()
b = np.random.randn()
c = np.random.randn()
d = np.random.randn()

learning_rate = 1e-6
for t in range(2000) :
    # 순전파 단계 예측값 계산 
    # y = a + b x + c x^2 + d x^3
    y_pred = a + b*x + c* x ** 2 + d *x **3
    
    # loss 계산 
    loss = np.square(y_pred -y).sum()
    if t % 100 ==99 :
        print(t, loss)
        
    # loss에 따른 a,b,c,d의 변화도를 계산하고 역전파 
    grad_y_pred = 2.0* (y_pred -y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # 가중치를 갱신합니다.
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d

print(f'Result: y = {a} + {b} x + {c} x^2 + {d} x^3')

99 2932.532119601867
199 1986.2864742160687
299 1347.670787848512
399 916.2497464753031
499 624.507163867261
599 427.0171040012009
699 293.1890901809671
799 202.40413715516607
899 140.75122545565745
999 98.83587481223249
1099 70.30741339504765
1199 50.86839866003989
1299 37.60775364294483
1399 28.551422427313526
1499 22.359310296823786
1599 18.120688477379243
1699 15.215935548177704
1799 13.223012236658677
1899 11.854130591726099
1999 10.912823991835229
Result: y = -0.03865737475457288 + 0.8299095808833444 x + 0.006669040406656332 x^2 + -0.08951387564269557 x^3


In [3]:
import torch
import math


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요

# 무작위로 입력과 출력 데이터를 생성합니다
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# 무작위로 가중치를 초기화합니다
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(2000):
    # 순전파 단계: 예측값 y를 계산합니다
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # 손실(loss)을 계산하고 출력합니다
    loss = (y_pred - y).pow(2).sum().item()
    if t % 100 == 99:
        print(t, loss)

    # 손실에 따른 a, b, c, d의 변화도(gradient)를 계산하고 역전파합니다.
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # 가중치를 갱신합니다.
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d


print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

99 918.99267578125
199 643.1675415039062
299 451.278076171875
399 317.66790771484375
499 224.56072998046875
599 159.6270751953125
699 114.3072280883789
799 82.65354919433594
899 60.52942657470703
999 45.05559539794922
1099 34.22602081298828
1199 26.642215728759766
1299 21.328210830688477
1399 17.60262107849121
1499 14.989233016967773
1599 13.155094146728516
1699 11.867243766784668
1799 10.962565422058105
1899 10.326764106750488
1999 9.879744529724121
Result: y = 0.03316112980246544 + 0.8479872345924377 x + -0.005720846820622683 x^2 + -0.09208526462316513 x^3


In [4]:
import torch
import math

dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # GPU에서 실행하려면 이 주석을 제거하세요

# 입력값과 출력값을 갖는 텐서들을 생성합니다.
# requires_grad=False가 기본값으로 설정되어 역전파 단계 중에 이 텐서들에 대한 변화도를
# 계산할 필요가 없음을 나타냅니다.
x = torch.linspace(-math.pi, math.pi, 2000, device=device, dtype=dtype)
y = torch.sin(x)

# 가중치를 갖는 임의의 텐서를 생성합니다. 3차 다항식이므로 4개의 가중치가 필요합니다:
# y = a + b x + c x^2 + d x^3
# requires_grad=True로 설정하여 역전파 단계 중에 이 텐서들에 대한 변화도를 계산할 필요가
# 있음을 나타냅니다.
a = torch.randn((), device=device, dtype=dtype, requires_grad=True)
b = torch.randn((), device=device, dtype=dtype, requires_grad=True)
c = torch.randn((), device=device, dtype=dtype, requires_grad=True)
d = torch.randn((), device=device, dtype=dtype, requires_grad=True)

learning_rate = 1e-6
for t in range(2000):
    # 순전파 단계: 텐서들 간의 연산을 사용하여 예측값 y를 계산합니다.
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # 텐서들간의 연산을 사용하여 손실(loss)을 계싼하고 출력합니다.
    # 이 때 손실은 (1,) shape을 갖는 텐서입니다.
    # loss.item() 으로 손실이 갖고 있는 스칼라 값을 가져올 수 있습니다.
    loss = (y_pred - y).pow(2).sum()
    if t % 100 == 99:
        print(t, loss.item())

    # autograd 를 사용하여 역전파 단계를 계산합니다. 이는 requires_grad=True를 갖는
    # 모든 텐서들에 대한 손실의 변화도를 계산합니다.
    # 이후 a.grad와 b.grad, c.grad, d.grad는 각각 a, b, c, d에 대한 손실의 변화도를
    # 갖는 텐서가 됩니다.
    loss.backward()

    # 경사하강법(gradient descent)를 사용하여 가중치를 직접 갱신합니다.
    # torch.no_grad()로 감싸는 이유는, 가중치들이 requires_grad=True 지만
    # autograd에서는 이를 추적하지 않을 것이기 때문입니다.
    with torch.no_grad():
        a -= learning_rate * a.grad
        b -= learning_rate * b.grad
        c -= learning_rate * c.grad
        d -= learning_rate * d.grad

        # 가중치 갱신 후에는 변화도를 직접 0으로 만듭니다.
        a.grad = None
        b.grad = None
        c.grad = None
        d.grad = None

print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')

99 76.56168365478516
199 56.52638244628906
299 42.42686080932617
399 32.50070571899414
499 25.510486602783203
599 20.58633804321289
699 17.116626739501953
799 14.671102523803711
899 12.94703197479248
999 11.731285095214844
1099 10.873804092407227
1199 10.268880844116211
1299 9.842055320739746
1399 9.540827751159668
1499 9.328204154968262
1599 9.178104400634766
1699 9.072122573852539
1799 8.99728012084961
1899 8.944422721862793
1999 8.907085418701172
Result: y = -0.009929759427905083 + 0.8553959131240845 x + 0.0017130509950220585 x^2 + -0.09313908219337463 x^3
