# LinearRegression from Scratch


# 구현할 것
- 공부시간과 성적간의 관계를 모델링한다.
    - **머신러닝 모델(모형)이란** 수집한 데이터를 기반으로 입력값(Feature)와 출력값(Target)간의 관계를 하나의 공식으로 정의한 함수이다. 그 공식을 찾는 과정을 **모델링**이라고 한다.
    - 이 예제에서는 공부한 시험시간으로 점수를 예측하는 모델을 정의한다.
    - 입력값과 출력값 간의 관계를 정의할 수있는 다양한 함수(공식)이 있다. 여기에서는 딥러닝과 관계가 있는 **Linear Regression** 을 사용해본다.

# 데이터 확인
- 입력데이터: 공부시간
- 출력데이터: 성적

|공부시간|점수|
|-|-|
|1|20|
|2|40|
|3|60|

우리가 수집한 공부시간과 점수 데이터를 바탕으로 둘 간의 관계를 식으로 정의 할 수 있으면 **내가 몇시간 공부하면 점수를 얼마 받을 수 있는지 예측할 수 있게 된다.**   

- X가 시간 y가 점수!

수집한 데이터를 기반으로 앞으로 예측할 수있는 모형을 만드는 것이 머신러닝 모델링이다.

  

## 학습(훈련) 데이터셋 만들기
- 모델을 학습시키기 위한 데이터셋을 구성한다.
- 입력데이터와 출력데이터을 각각 다른 행렬로 구성한다.
- 하나의 데이터 포인트의 입력/출력 값은 같은 index에 정의한다.

### 선형회귀 (Linear Regression)
- Feature들의 가중합을 이용해 Target을 추정한다.
- Feature에 곱해지는 가중치(weight)들은 각 Feature가 Target 얼마나 영향을 주는지 영향도가 된다.
    - 음수일 경우는 target값을 줄이고 양수일 경우는 target값을 늘린다.
    - 가중치가 0에 가까울 수록 target에 영향을 주지 않는 feature이고 0에서 멀수록 target에 많은 영향을 준다.
- 모델 학습과정에서 가장 적절한 Feature의 가중치를 찾아야 한다.
      

\begin{align}
&\large \hat{y} = W\cdot X + b\\
&\small \hat{y}: \text{모델추정값}\\
&\small W: \text{가중치}\\
&\small X: \text{Feature(입력값)}\\
&\small b: \text{bias(편향)}
\end{align}



## Train dataset 구성
- Train data는 feature(input)와 target(output) 각각 2개의 행렬로 구성한다.
- Feature의 행은 관측치(개별 데이터)를 열을 Feature(특성, 변수)를 표현한다. 이 문제에서는 `공부시간` 1개의 변수를 가진다.
- Target은 모델이 예측할 대상으로 행은 개별 관측치, 열은 각 항목에 대한 정답으로 구성한다.   
  이 문제에서 예측할 항목은 `시험점수` 한개이다.

In [2]:
import torch

In [5]:
study_time = [[1],[2],[3]] # 2차원 리스트로 생성
score = [[20], [30], [40]]

# dataset 구성 -> torch.Tensor
X_train = torch.tensor(study_time, dtype=torch.float32)
y_train = torch.tensor(score, dtype=torch.float32)
print(X_train.dtype,X_train.size(), y_train.size())

torch.float32 torch.Size([3, 1]) torch.Size([3, 1])


In [19]:
study_time, score, X_train, y_train

([[1], [2], [3]],
 [[20], [30], [40]],
 tensor([[1.],
         [2.],
         [3.]]),
 tensor([[20.],
         [30.],
         [40.]]))

## 파라미터 (weight, bias) 정의
- 학습대상/최적화 대상

In [25]:
# X * weight + bias
torch.manual_seed(0)

# weight/bias 정의
## feature는 1개라서 w값도 1개를 갖고, x는 2x1이므로 shape이 1로 시작하여야하므로 w는 1x1 shape을 갖도록 해야한다.(행렬 내적곱)
## weight는 표준정규분포의 랜덤값을 사용.
weight = torch.randn(1,1,requires_grad=True)
bias = torch.randn(1,requires_grad=True)

print("초기 파라미터")
print(weight, weight.shape)
print(bias,bias.shape)

초기 파라미터
tensor([[1.5410]], requires_grad=True) torch.Size([1, 1])
tensor([-0.2934], requires_grad=True) torch.Size([1])


In [26]:
# 모델 정의
def linear_model(X):
  return X @ weight + bias # 2x1 @ 1x1

# 손실 함수(loss) 정의 -> MSE
def loss_fn(y_pred, y): # (y예측, y정답) 파이토치에서는 예측값을 먼저 적는다.
  return torch.mean((y_pred - y)**2)

In [27]:
y_pred = linear_model(X_train)
y_pred
# 오차 확인, y_pred에 대한 X의 도함수를 grad_fn로 저장

tensor([[1.2476],
        [2.7886],
        [4.3296]], grad_fn=<AddBackward0>)

In [28]:
loss_fn(y_pred, y_train) # 손실함수값 확인
# 출력: tensor(788.1655, grad_fn=<MeanBackward0>)

tensor(788.1655, grad_fn=<MeanBackward0>)

### 모델링

### 학습
1. 모델을 이용해 추정한다.
   - pred = model(input)
1. loss를 계산한다.
   - loss = loss_fn(pred, target)
1. 계산된 loss를 파라미터에 대해 미분하여 계산한 gradient 값을 각 파라미터에 저장한다.
   - loss.backward()
1. optimizer를 이용해 파라미터를 update한다.
   - optimizer.step()  
1. 파라미터의 gradient(미분값)을 0으로 초기화한다.
   - optimizer.zero_grad()
- 위의 단계를 반복한다.   

In [None]:
# 학습

LEARNING_RATE = 0.01
EPOCHS = 2000 # 반복횟수. 전체 train dataset을 한 번 다 학습하면 1회 epoch이라고 한다.

for epoch in range(EPOCHS):
    # 1. 모델을 이용한 추론
    pred = linear_model(X_train)

    # 2. loss 계산
    loss = loss_fn(pred, y_train)

    # 3. gradient 계산
    loss.backward() # weight/bias의 grad값이 계산되서 각각의 grad 속성에 저장.

    # 4. parameter(weight/bias) 업데이트
    weight.data = weight.data - weight.grad * LEARNING_RATE
    bias.data = bias.data - bias.grad * LEARNING_RATE

    # 5. 파라미터 grad값 초기화
    weight.grad = None
    bias.grad = None
    if epoch % 100 == 0 or epoch == EPOCHS - 1: # 조건문의 의미: 100번에 한번씩, 마지막 에폭이라면.
        print(f"[{epoch}/{EPOCHS}] loss: {loss.item()}")

# 아래 결과보면, 오차가 788에서 점점 작아진다. 작아지는 폭도 점점 작아지는데, grad값이 점점 작아지기 때문(변화율이 점점 줄어드는 것을 확인할 수 있다.)

[0/2000] loss: 788.16552734375
[100/2000] loss: 2.688096046447754
[200/2000] loss: 1.6610833406448364
[300/2000] loss: 1.0264500379562378
[400/2000] loss: 0.6342833042144775
[500/2000] loss: 0.39194726943969727
[600/2000] loss: 0.2421988993883133
[700/2000] loss: 0.14966492354869843
[800/2000] loss: 0.09248432517051697
[900/2000] loss: 0.05714975297451019
[1000/2000] loss: 0.035314735025167465
[1100/2000] loss: 0.021822037175297737
[1200/2000] loss: 0.013484767638146877
[1300/2000] loss: 0.00833258405327797
[1400/2000] loss: 0.005149104166775942
[1500/2000] loss: 0.0031818505376577377
[1600/2000] loss: 0.0019661858677864075
[1700/2000] loss: 0.001214961288496852
[1800/2000] loss: 0.0007507337140850723
[1900/2000] loss: 0.00046395635581575334
[1999/2000] loss: 0.00028808476054109633


In [38]:
# 추론
pred2 = linear_model(X_train)
pred2

tensor([[19.9750],
        [29.9946],
        [40.0143]], grad_fn=<AddBackward0>)

In [33]:
weight, bias

(tensor([[10.0197]], requires_grad=True), tensor([9.9553], requires_grad=True))

# 다중 입력, 다중 출력
- 다중입력: Feature가 여러개인 경우
- 다중출력: Output 결과가 여러개인 경우

다음 가상 데이터를 이용해 사과와 오렌지 수확량을 예측하는 선형회귀 모델을 정의한다.  
[참조](https://www.kaggle.com/code/aakashns/pytorch-basics-linear-regression-from-scratch)


|온도(F)|강수량(mm)|습도(%)|사과생산량(ton)|오렌지생산량|
|-|-|-|-:|-:|
|73|67|43|56|70|
|91|88|64|81|101|
|87|134|58|119|133|
|102|43|37|22|37|
|69|96|70|103|119|

```
사과수확량  = w11 * 온도 + w12 * 강수량 + w13 * 습도 + b1
오렌지수확량 = w21 * 온도 + w22 * 강수량 + w23 *습도 + b2
```

- `온도`, `강수량`, `습도` 값이 **사과**와, **오렌지 수확량**에 어느정도 영향을 주는지 가중치를 찾는다.
    - 모델은 사과의 수확량, 오렌지의 수확량 **두개의 예측결과를 출력**해야 한다.
    - 사과에 대해 예측하기 위한 weight 3개와 오렌지에 대해 예측하기 위한 weight 3개 이렇게 두 묶음, 총 6개의 weight를 정의하고 학습을 통해 가장 적당한 값을 찾는다.
        - `개별 과일를 예측하기 위한 weight들 @ feature들` 의 계산 결과를  **Node, Unit, Neuron** 이라고 한다.
        - 두 과일에 대한 Unit들을 묶어서 **Layer** 라고 한다.
- 목적은 우리가 수집한 train 데이터셋을 이용해 **정확한 예측을 위한 weight와 bias 들**을 찾는 것이다.

## Train Dataset
- Train data는 feature(input)와 target(output) 각각 2개의 행렬로 구성한다.
- Feature의 행은 관측치(개별 데이터)를 열을 Feature(특성, 변수)를 표현한다. 이 문제에서는 `온도, 강수량, 습도` 세개의 변수를 가진다.
- Target은 모델이 예측할 대상으로 행은 개별 관측치, 열은 각 항목에 대한 정답으로 구성한다. 이 문제에서 예측할 항목은 `사과수확량, 오렌지 수확량` 2개의 값이다.

In [45]:
#  input: 생산환경 (temp, rainfall, humidity) : (5, 3)
environs = [
    [73, 67, 43],
    [91, 88, 64],
    [87, 134, 58],
    [102, 43, 37],
    [69, 96, 70]
]

# Targets: 생산량 - (apples, oranges) - (5, 2)
apple_orange_output = [
    [56, 70],
    [81, 101],
    [119, 133],
    [22, 37],
    [103, 119]
]

In [46]:
import torch
# list Dataset을 torch.Tensor로 생성
X = torch.tensor(environs, dtype=torch.float32)
y = torch.tensor(apple_orange_output, dtype=torch.float32)
X.shape, y.shape # X.shape: 속성이 3개, y.shape: 사과생산량, 오렌지생산량 2개

(torch.Size([5, 3]), torch.Size([5, 2]))

In [47]:
X

tensor([[ 73.,  67.,  43.],
        [ 91.,  88.,  64.],
        [ 87., 134.,  58.],
        [102.,  43.,  37.],
        [ 69.,  96.,  70.]])

In [48]:
y

tensor([[ 56.,  70.],
        [ 81., 101.],
        [119., 133.],
        [ 22.,  37.],
        [103., 119.]])

## weight와 bias
- weight: 각 feature들이 생산량에 영향을 주었는지의 가중치로 feature에 곱해줄 값.
    - 사과, 오렌지의 생산량을 구해야 하므로 가중치가 두개가 된다.
    - weight의 shape: `(3, 2)`
- bias는 모든 feature들이 0일때 생산량이 얼마일지를 나타내는 값으로 feature와 weight간의 가중합 결과에 더해줄 값이다.
    - 사과, 오렌지의 생산량을 구하므로 bias가 두개가 된다.
    - bias의 shape: `(2, )`

### Linear Regression model
모델은 weights `w`와 inputs `x`의 내적(dot product)한 값에 bias `b`를 더하는 함수.

$$
\hspace{2.5cm} X \hspace{1.1cm} \cdot \hspace{1.2cm} W \hspace{1.2cm}  + \hspace{1cm} b \hspace{2cm}
$$

$$
\left[ \begin{array}{cc}
73 & 67 & 43 \\
91 & 88 & 64 \\
\vdots & \vdots & \vdots \\
69 & 96 & 70
\end{array} \right]
%
\cdot
%
\left[ \begin{array}{cc}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23}
\end{array} \right]
%
+
%
\left[ \begin{array}{cc}
b_{1} & b_{2} \\
b_{1} & b_{2} \\
\vdots & \vdots \\
b_{1} & b_{2} \\
\end{array} \right]
$$


<center style="font-size:0.9em">

$w_{11},\,w_{12},\,w_{13}$: 사과 생산량 계산시 각 feature들(생산환경)에 곱할 가중치   <br>
$w_{21},\,w_{22},\,w_{23}$: 오렌지 생산량 계산시 각 feature들(생산환경)에 곱할 가중치    
</center>

<center>
<img src="https://raw.githubusercontent.com/kgmyhGit/image_resource/main/deeplearning/figures/3_unit_layer.png">
</center>

In [53]:
# weight/bias 를 정의 -> 초기값은 random 값을 이용해서 생성.
weight = torch.randn(3, 2, requires_grad=True) # 3은 feature 입력값 개수, 2는 예측할 값의 개수
bias = torch.randn(2, requires_grad=True) # 2는 예측할 값의 개수

weight.size(), bias.size()
# weight: (3:input feature개수  ,  2:output 개수)
# bias  : (2:output 개수, )

(torch.Size([3, 2]), torch.Size([2]))

In [54]:
#random으로 나온 초기값 weight
weight

tensor([[-0.8920, -1.5091],
        [ 0.3704,  1.4565],
        [ 0.9398,  0.7748]], requires_grad=True)

In [55]:
#random으로 나온 초기값 bias
bias

tensor([0.1919, 1.2638], requires_grad=True)

In [56]:
X

tensor([[ 73.,  67.,  43.],
        [ 91.,  88.,  64.],
        [ 87., 134.,  58.],
        [102.,  43.,  37.],
        [ 69.,  96.,  70.]])

In [57]:
# 한번 학습(최적화)
## 추론
pred = X @ weight + bias

In [58]:
pred # 예측한 값

tensor([[  0.3044,  22.0031],
        [ 11.7628,  41.6975],
        [ 26.7300, 110.0840],
        [-40.0918, -61.3662],
        [ 39.9887,  91.1990]], grad_fn=<AddBackward0>)

In [59]:
y # 정답

tensor([[ 56.,  70.],
        [ 81., 101.],
        [119., 133.],
        [ 22.,  37.],
        [103., 119.]])

In [60]:
## loss 계산(MSE)
loss = torch.mean((pred - y)**2) # 전체 추론한 결과의 평균오차를 계산.
loss

tensor(4102.9790, grad_fn=<MeanBackward0>)

In [61]:
# loss를 가지고 파라미터들(weight들, bias들)의 gradient 계산.
loss.backward()

In [62]:
weight.data, weight.grad

(tensor([[-0.8920, -1.5091],
         [ 0.3704,  1.4565],
         [ 0.9398,  0.7748]]),
 tensor([[-5815.0000, -4569.1216],
         [-6181.5396, -3680.7585],
         [-3777.1885, -2554.7939]]))

In [63]:
bias.data, bias.grad

(tensor([0.1919, 1.2638]), tensor([-68.4612, -51.2765]))

In [64]:
# 파라미터 업데이트
lr = 0.00001 # learning rate
weight.data = weight.data - lr * weight.grad
bias.data = bias.data - lr * bias.grad

In [65]:
weight.data

tensor([[-0.8338, -1.4634],
        [ 0.4322,  1.4933],
        [ 0.9776,  0.8004]])

In [66]:
## 업데이트된 파라미터로 추정 -> loss 계산
pred2 = X @ weight + bias
loss2 = torch.mean((pred2 - y)**2)

In [67]:
print(loss.item(), loss2.item())
# 아래의 loss는 사과와 오렌지에 관한 loss 정보가 함께 있다.
# 사과와 오렌지에 대한 각각의 loss를 구할 수 있다. 이때는 사과와 오렌지에 대한 중요도가 다를때 나눠서 구하기도 한다.
# 결국엔 total loss를 구해야하기는 하지만, 따로 구하는건 나중에 배울 예정이고 지금은 전체 loss를 구하여 진행하는 것만 배움

4102.97900390625 2943.798583984375


##  모델링

In [71]:
weight = torch.randn(3, 2, requires_grad=True)
bias = torch.randn(2, requires_grad=True)

## 모델 정의
def model(X):
    return X @ weight + bias

## loss 함수(MSE)
def loss_fn(pred, y):
    return torch.mean((pred - y)**2) # 전체 오차의 평균.

In [72]:
X.shape

torch.Size([5, 3])

In [73]:
epochs = 5000
lr = 0.00001  # 1e-5
for epoch in range(epochs):
    # 1. 추론
    pred = model(X)

    # 2. loss 계산
    loss = loss_fn(pred, y)

    # 3. 파라미터 들의 gradient 계산
    loss.backward()

    # 4. 파라미터 업데이트
    weight.data = weight.data - lr * weight.grad
    bias.data = bias.data - lr * bias.grad

    # 5. gradient 초기화
    weight.grad = None
    bias.grad = None

    ## 100 epoch, 마지막 epoch에서 loss를 출력 => 학습 과정 log를 출력
    if epoch % 500 == 0 or epoch == epochs-1:
        print(f"[{epoch+1:04d}/{epochs}] - {loss.item():.5f}")


  # loss가 점점 줄어드는것 확인!

[0001/5000] - 73433.14844
[0501/5000] - 42.25288
[1001/5000] - 16.48940
[1501/5000] - 6.79529
[2001/5000] - 2.98609
[2501/5000] - 1.48901
[3001/5000] - 0.90062
[3501/5000] - 0.66938
[4001/5000] - 0.57850
[4501/5000] - 0.54277
[5000/5000] - 0.52875


In [75]:
pred

tensor([[ 57.1556,  70.3683],
        [ 82.2541, 100.5551],
        [118.6009, 133.1258],
        [ 21.0561,  37.0582],
        [102.0124, 118.9706]], grad_fn=<AddBackward0>)

In [74]:
# 새로운 데이터로 추론
p = model(X)
p

tensor([[ 57.1556,  70.3683],
        [ 82.2541, 100.5552],
        [118.6010, 133.1257],
        [ 21.0561,  37.0581],
        [102.0123, 118.9708]], grad_fn=<AddBackward0>)

In [40]:
y # 새로운 데이터로 추론한 p의 값들과 정답인 y값들의 차이를 보면 차이가 매우 적어졌다!

tensor([[ 56.,  70.],
        [ 81., 101.],
        [119., 133.],
        [ 22.,  37.],
        [103., 119.]])

In [77]:
new_x = torch.tensor([68, 82, 56], dtype=torch.float32)
new_x = new_x.unsqueeze(dim=0)
X.shape, new_x.shape # shape은 3으로 맞춰줘야한다. 하나의 지역에 대해서만 보려는 것이므로 0축은 1이 들어가도록 unsqueeze(dim=0) 넣어주고, 1축은 3이 들어가야함

(torch.Size([5, 3]), torch.Size([1, 3]))

In [78]:
model(new_x)

tensor([[80.8643, 95.5258]], grad_fn=<AddBackward0>)

# pytorch built-in 모델을 사용해 Linear Regression 구현

In [79]:
inputs = torch.tensor(
    [[73, 67, 43],
     [91, 88, 64],
     [87, 134, 58],
     [102, 43, 37],
     [69, 96, 70]], dtype=torch.float32)

In [80]:
targets = torch.tensor(
    [[56, 70],
    [81, 101],
    [119, 133],
    [22, 37],
    [103, 119]], dtype=torch.float32)

## torch.nn.Linear
Pytorch는 torch.nn.Linear 클래스를 통해 Linear Regression 모델을 제공한다.  
torch.nn.Linear에 입력 feature의 개수와 출력 값의 개수를 지정하면 random 값으로 초기화한 weight와 bias들을 생성해 모델을 구성한다. (ex. 위에서의 경우, 3과 2를 지정해준것을 말함)
- 위에서 만든 y = w*X + b 에 관한 모델을 만드는 객체
- `torch.nn.Linear(input feature의 개수 , output 값의 개수)`

## Optimizer와 Loss 함수 정의
- **Optimizer**: 계산된 gradient값을 이용해 파라미터들을 업데이트 하는 함수
- **Loss 함수**: 정답과 모델이 예측한 값사이의 차이(오차)를 계산하는 함수.
  - 모델을 최적화하는 것은 이 함수의 값을 최소화하는 것을 말한다.
- `torch.optim` 모듈에 다양한 Optimizer 클래스가 구현되있다.
- `torch.nn` 또는 `torch.nn.functional` 모듈에 다양한 Loss 함수가 제공된다.

In [81]:
# 선형회귀 모델을 정의. torch.nn.Linear 클래스
import torch
import torch.nn as nn

model = nn.Linear(3, 2)  # 3: input feature 개수, 2: output 수

In [82]:
# loss 함수
loss_fn = torch.nn.MSELoss()  # 클래스
# loss_fn = torch.nn.functional.mse_loss # 함수

In [83]:
# optimizer (torch.optim 모듈에 정의): weight.data = weight.data - lr * weight.grad
# optimizer : 파라미터를 업데이트하는 로직 or 초기화하는 로직을 가지고 있다.
# 많은 optimizer 중에서 SGD를 쓰는 것. SGD가 가장 기본의 것이다.
optimizer = torch.optim.SGD(
    model.parameters(), # 최적화 대상 파라미터들을 model에서 조회해서 전달. optimizer와 파라미터들을 함께 넘겨주어 진행함. 우리가 아까 직접계산하던걸 optimizer에게 맡기는 것.
    lr = 0.00001,       # Learning Rage
)

In [84]:
list(model.parameters())

[Parameter containing:
 tensor([[ 0.1081, -0.0973, -0.0950],
         [-0.2643,  0.2220, -0.3420]], requires_grad=True),
 Parameter containing:
 tensor([0.2117, 0.2920], requires_grad=True)]

## Model Train

In [85]:
epochs = 5000

for epoch in range(epochs):

    # 추론
    pred = model(inputs)

    # loss 계산
    loss = loss_fn(pred, targets) # torch.nn.functional.mse_loss(pred, targets) # (모델추정값, 정답)

    # gradient 계산
    loss.backward()

    # 파라미터 업데이트: optimizer.step()
    optimizer.step()

    # 파라미터 초기화 w.grad=None, b.grad=None
    optimizer.zero_grad()

    # 현재 epoch 학습 결과를 log로 출력
    if epoch % 500 == 0 or epoch == epochs-1:
        print(f"[{epoch+1:04d}/{epochs}] - {loss.item()}")

[0001/5000] - 10908.4794921875
[0501/5000] - 21.733016967773438
[1001/5000] - 8.561811447143555
[1501/5000] - 3.681931972503662
[2001/5000] - 1.764573335647583
[2501/5000] - 1.0110294818878174
[3001/5000] - 0.7148568034172058
[3501/5000] - 0.5984665155410767
[4001/5000] - 0.5527141690254211
[4501/5000] - 0.5347356796264648
[5000/5000] - 0.5276749134063721


In [86]:
# 추론 => gradient 계산을 할 필요가 없다. ==> grad_fn을 만들 필요가 없다. 그래서 with torch.no_grad() 블록에서 추론 작업을 실행한다.
with torch.no_grad():
    pred = model(inputs)

In [88]:
pred

tensor([[ 57.2042,  70.3661],
        [ 82.1541, 100.5789],
        [118.7511, 133.0751],
        [ 21.0949,  37.0439],
        [101.8624, 119.0212]])

In [87]:
targets

tensor([[ 56.,  70.],
        [ 81., 101.],
        [119., 133.],
        [ 22.,  37.],
        [103., 119.]])

In [91]:
# 학습 로직을 함수 구현
def train(inputs, targets, epochs, model, loss_fn, optimizer):

    for epoch in range(epochs):

        # 추론
        pred = model(inputs)

        # loss 계산
        loss = loss_fn(pred, targets) # torch.nn.functional.mse_loss(pred, targets) # (모델추정값, 정답)

        # gradient 계산
        loss.backward()
        # 파라미터 업데이트: optimizer.step()

        optimizer.step()
        # 파라미터 초기화 w.grad=None, b.grad=None
        optimizer.zero_grad()

        # 현재 epoch 학습 결과를 log로 출력
        if epoch % 500 == 0 or epoch == epochs-1:
            print(f"[{epoch+1:04d}/{epochs}] - {loss.item()}")

In [90]:
model = nn.Linear(3, 2)
optimizer = torch.optim.SGD(model.parameters(), lr=0.0001)

In [92]:
train(inputs, targets, 5000, model, nn.functional.mse_loss, optimizer)

[0001/5000] - 6734.3701171875
[0501/5000] - 0.5093660354614258
[1001/5000] - 0.5035384297370911
[1501/5000] - 0.5035175085067749
[2001/5000] - 0.5035022497177124
[2501/5000] - 0.5034852027893066
[3001/5000] - 0.5034717917442322
[3501/5000] - 0.5034547448158264
[4001/5000] - 0.5034385919570923
[4501/5000] - 0.5034195780754089
[5000/5000] - 0.5034052133560181
