# 오차 역전파 Backpropagation
오차 역전파는 출력층에서 입력층으로 오차를 전파하면서 가중치를 업데이트하는 방법




**역사적 배경**
1969년에 마빈 민스키(Marvin Minsky)와 세이무어 페퍼트(Seymour Papert)는 저서 Perceptrons에서 단층 퍼셉트론이 XOR 문제와 같은 선형적으로 구분할 수 없는 문제를 해결하지 못한다는 점을 지적했고, 이로 인해 신경망 연구는 잠시 정체기에 들어섰다.


다층 신경망의 경우에는 학습이 잘 이루어지지 않았는데, 이는 다층 구조에서 오차를 효율적으로 전달하는 방법이 부족했기 때문이다.


1986년에 인지과학자 데이비드 럼멜하트(David Rumelhart), 제프리 힌튼(Geoffrey Hinton), 로널드 윌리엄스(Ronald Williams)가 논문 "Learning Representations by Back-Propagating Errors"를 발표하면서 오차역전파 알고리즘을 대중화했다. 이 논문은 다층 신경망이 기울기를 통해 효과적으로 학습할 수 있도록 오차를 계층을 거꾸로 전달하는 방식을 설명했다.


데이빗 럼멜하트 오차역전파 https://brunch.co.kr/@hvnpoet/70


제프리 힌튼 볼츠만머신 CNN https://brunch.co.kr/@hvnpoet/46




https://machinelearningknowledge.ai/animated-explanation-of-feed-forward-neural-network-architecture/




![](https://d.pr/i/4nYlr4+)




오차역전파에는 미분의 연쇄법칙이 적용되고 이는 마치 러시아의 전통인형 마트료시카와 비슷하다.


![](https://www.sungyujin.co.kr/files/attach/images/166/811/001/3a4824b8d04766105bd016779daddbe1.jpg)


**오차역전파의 단계**
1. **순전파(Forward Propagation)**: 입력 데이터가 네트워크를 통과하며 예측값을 생성한다.
2. **오차 계산(Error Calculation)**: 예측값과 실제 목표값 사이의 오차를 계산한다. 대표적인 오차 함수는 평균 제곱 오차(MSE)이다.
3. **오차 역전파(Backpropagation)**: 오차를 네트워크의 각 가중치로 전파하여 가중치를 조정한다.
4. **가중치 갱신(Update Weights)**: 경사하강법을 통해 오차가 감소하도록 각 가중치를 갱신한다.




**간단히 단일 계층(입력 $ x $ -> 은닉층 $ h $ -> 출력 $ y $) 신경망에서 오차역전파 설명**


![](https://d.pr/i/juFjHc+)


1. **순전파 단계**


    - 가중치 $ w_1 $와 $ w_2 $가 각각 입력과 은닉층, 은닉층과 출력층 사이에 존재한다고 하자.
    - 입력 $ x $가 은닉층 $ h $에 도달하면서 가중치 $ w_1 $을 곱한 뒤 활성화 함수를 적용:
      $
      h = f(x \cdot w_1)
      $
    - 은닉층 출력 $ h $가 출력층 $ y $로 전달되며 가중치 $ w_2 $를 곱한 뒤 활성화 함수를 적용하여 최종 출력:
      $
      y = f(h \cdot w_2)
      $


2. **오차 계산**


    - 예측된 출력 $ y $와 목표 값 $ t $ 사이의 오차 $ E $를 계산한다. 여기서 평균 제곱 오차(MSE)를 사용하면:
      $
      E = \frac{1}{2}(t - y)^2
      $


3. **오차의 기울기 계산**


    - 오차 $ E $를 최소화하기 위해 각 가중치 $ w_1 $과 $ w_2 $에 대한 편미분을 구해야 한다.
    - 출력층의 오차 기울기:
      $
      \frac{\partial E}{\partial w_2} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial w_2}
      $
    - 은닉층의 오차 기울기:
      $
      \frac{\partial E}{\partial w_1} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w_1}
      $


4. **가중치 갱신**


    - 각 가중치는 학습률 $ \eta $와 오차 기울기를 사용해 갱신한다:
      $
      w_2 = w_2 - \eta \cdot \frac{\partial E}{\partial w_2}
      $
      $
      w_1 = w_1 - \eta \cdot \frac{\partial E}{\partial w_1}
      $


## 순전파 / 역전파

In [1]:
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

In [3]:
# 단층 순전파/ 역전파
def forward(x):
    return x ** 2

def backward(x):
    """forward함수의 도함수(기울기를 계산하는 식)"""
    return 2 * x

x = 3.0

print(forward(x))

# forward 함수를 x로 미분하면?
# x가 변할때, forward 함수는 얼마나 변할까?
print(backward(x))


9.0
6.0


In [7]:
# 다층 순전파/역전파
layer1 = lambda x: x ** 2
layer2 = lambda y: 2 * y

def forward(x):
    y = layer1(x)
    z = layer2(y)
    return z


layer2_derivative = lambda y : 2
layer1_derivative = lambda x : 2 * x

def backward(x):
    """forward함수의 도함수"""
    dz_dy = layer2_derivative(x) # layer2 도함수
    dy_dx = layer1_derivative(x) # layer1 도함수
    dz_dx = dz_dy * dy_dx
    return dz_dx

x = 3.0
print(forward(x))

# forward 함수(z)를 x로 미분하면?
# x가 변할때 forward 함수(z)는 얼마나 변할까?
print(backward(x))

18.0
12.0


In [8]:
# torch
# 다층 순전파/역전파
layer1 = lambda x: x ** 2
layer2 = lambda y: 2 * y

def forward(x):
    y = layer1(x)
    z = layer2(y)
    return z

x = torch.tensor([3.0], requires_grad=True)
z = forward(x)
print(z)

z.backward()
print(x.grad.item())

tensor([18.], grad_fn=<MulBackward0>)
12.0


## 손실함수/활성화함수의 도함수


### 손실 함수 (Loss Functions)의 도함수


| 손실 함수 | 공식 | 도함수 | 비고 |
|-----------|------|--------|------|
| **MSELoss** (Mean Squared Error) | $L = \frac{1}{n} \sum (y - \hat{y})^2$ | $\frac{dL}{d\hat{y}} = \frac{2}{n} (\hat{y} - y)$ | 예측값과 정답의 차이를 제곱해 평균, **이상치에 민감함** |
| **L1Loss** (Mean Absolute Error) | $L = \frac{1}{n} \sum \|y - \hat{y}\|$ | $\frac{dL}{d\hat{y}} = \frac{1}{n} \cdot \text{sign}(\hat{y} - y)$ | 절댓값 오차 평균, **이상치에 덜 민감**하지만 미분 불연속 |
| **HuberLoss** | $L = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } \|y - \hat{y}\| \leq \delta \\ \delta \cdot (\|y - \hat{y}\| - \frac{1}{2} \delta) & \text{otherwise} \end{cases}$ | $\frac{dL}{d\hat{y}} = \begin{cases} \hat{y} - y & \text{if } \|\hat{y} - y\| \leq \delta \\ \delta \cdot \text{sign}(\hat{y} - y) & \text{otherwise} \end{cases}$ | MSE와 MAE의 장점 결합, **이상치에 덜 민감하면서 부드러운 미분** |
| **BCELoss** (Binary Cross Entropy) | $L = - \left( y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right)$ | $\frac{dL}{d\hat{y}} = -\left( \frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}} \right)$ | **이진 분류**에서 사용, 출력에 **sigmoid**를 적용해야 함 |
| **BCEWithLogitsLoss** | $L = \max(z, 0) - z \cdot y + \log(1 + e^{-\|z\|})$ | $\frac{dL}{dz} = \sigma(z) - y$ | sigmoid + BCELoss 결합 형태, **수치적으로 안정적** |
| **CrossEntropyLoss** | $L = - \log \left( \frac{e^{z_y}}{\sum_j e^{z_j}} \right )$ | $\frac{dL}{dz_i} = \text{softmax}(z_i) - y_i$ | 다중 클래스 분류용, 내부에서 softmax 포함, **출력에 softmax 불필요** |




### 활성화 함수 (Activation Functions)의 도함수


| 함수 이름 | 공식 | 도함수 | 비고 |
|-----------|------|--------|------|
| **Sigmoid** | $\sigma(x) = \frac{1}{1 + e^{-x}}$ | $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ | 이진 분류 확률 출력에 주로 사용 |
| **Softmax** | $\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$ | $\frac{\partial s_i}{\partial x_j} = s_i (\delta_{ij} - s_j)$ | 다중 클래스 확률 출력, 출력 간 상호작용 있음 |
| **ReLU** | $ReLU(x) = \max(0, x)$ | $ReLU'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases}$ | 계산 간단하고 많이 사용됨 |
| **LeakyReLU** | $LeakyReLU(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{otherwise} \end{cases}$ | $LeakyReLU'(x) = \begin{cases} 1 & \text{if } x > 0 \\ \alpha & \text{otherwise} \end{cases}$ | 음수 영역도 일부 통과시켜 죽은 ReLU 문제 완화 |
| **Tanh** | $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ | $\tanh'(x) = 1 - \tanh^2(x)$ | 출력이 -1~1 범위로 중심 정규화 효과 |
| **Softmax + CrossEntropy** | $L = -\sum_i y_i \log(s_i)$ | $\frac{\partial L}{\partial x_i} = s_i - y_i$ | softmax와 cross-entropy를 결합한 경우, 도함수가 매우 간단해짐 |


## 선형층-Sigmoid-BCELoss의 역전파


**순전파 (Forward)**


1. **선형 결합:**
   $z = wx + b$


2. **시그모이드 활성화 함수:**
   $\hat{y} = \sigma(z) = \frac{1}{1 + e^{-z}}$


3. **이진 크로스 엔트로피 손실 (Binary Cross Entropy):**
   $L = -[y \cdot \log(\hat{y}) + (1 - y) \cdot \log(1 - \hat{y})]$




**역전파 (Backward)**


1. **BCE 손실의 출력에 대한 도함수:**
   $\frac{\partial L}{\partial \hat{y}} = -\left( \frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}} \right)$


2. **시그모이드 함수의 도함수:**
   $\frac{\partial \hat{y}}{\partial z} = \hat{y}(1 - \hat{y})$


3. **연쇄법칙 (Chain Rule):**


   * 출력에서 z까지:


     $$
     \frac{\partial L}{\partial z} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z}
     $$


   * z에서 w, b에 대해:


     $$
     \frac{\partial L}{\partial w} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w} = \frac{\partial L}{\partial z} \cdot x
     $$


     $$
     \frac{\partial L}{\partial b} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial b} = \frac{\partial L}{\partial z} \cdot 1
     $$




* $dL/dw = \left( \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \right) \cdot x$
* $dL/db = \left( \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \right) \cdot 1$


In [14]:
# 선형층-Sigmoid-BCELoss

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def bce_loss(y_hat, y):
    # - ((y=1일때 손실) + (y=0일때 손실))
    return -((y * np.log(y_hat)) + ((1 - y) * np.log(1 - y_hat)))

def sigmoid_derivative(x):
    """시그모이드 함수의 도함수"""
    p = sigmoid(x)
    return p*(1 - p)

def bce_loss_derivative(y_hat, y):
    """bce_loss 함수의 도함수"""
    # -((y=1일때 기울기) + (y=0일때 기울기))
    return -((y / y_hat) - ((1 - y) / (1 - y_hat)))


# 변수 선언
x = 3.5 # 입력
y = 0   # 타겟(정답)
w = 2.0 # 출력층 가중치
b = 1.0 # 출력층 절편


# 순전파
z = w * x + b # 출력층의 출력(logit)
y_hat = sigmoid(z) # 이진분류 출력층 활성화 함수(확률값)
loss = bce_loss(y_hat, y) # 이진분류 손실함수
print(f'순전파 : y_hat={y_hat}, loss={loss}')


# 역전파
dL_dyhat = bce_loss_derivative(y_hat, y)
dyhat_dz = sigmoid_derivative(z)


dz_dw = x
dz_db = 1

dL_dz = dL_dyhat * dyhat_dz
dL_dw = dL_dz * dz_dw
dL_db = dL_dz * dz_db

print(f'역전파 : w기울기 ={dL_dw}')
print(f'역전파 : b기울기 ={dL_db}')


순전파 : y_hat=0.9996646498695336, loss=8.000335406373212
역전파 : w기울기 =3.4988262745433674
역전파 : b기울기 =0.9996646498695335


In [18]:
# torch 버전
# 1. 변수 선언
x = torch.tensor(3.5) # 입력
y = torch.tensor(0.0)   # 타겟(정답)
w = torch.tensor(2.0, requires_grad=True) # 출력층 가중치(미분 대상)
b = torch.tensor(1.0, requires_grad=True) # 출력층 절편(미분 대상)

# 2. 순전파
# - F.sigmoid(z)
# - F.binary_cross_entropy(y_hat, y)
z = w * x + b
y_hat = F.sigmoid(z)
loss = F.binary_cross_entropy(y_hat, y)
print(f'순전파 : y_hat={y_hat}, loss={loss}')

# 3. 역전파 (기울기 계산)
loss.backward()

# 4. w/b 기울기 확인
print(f'역전파 : w기울기={w.grad.item()}')
print(f'역전파 : b기울기={b.grad.item()}')

순전파 : y_hat=0.9996646642684937, loss=8.000378608703613
역전파 : w기울기=3.498826265335083
역전파 : b기울기=0.9996646642684937


## 출력층-Softmax-CrossEntropyLoss의 역전파


softmax 함수와 cross-entropy loss를 **함께 사용할 때**의 도함수는 다음과 같이 **아주 간단한 형태**로 정리된다:


**1. 전제**


* 모델 출력 (로짓): **x**
* softmax 출력:


  $$
  s_i = \frac{e^{x_i}}{\sum_j e^{x_j}}
  $$
* 정답 라벨 (원-핫 인코딩): **y**
* cross-entropy loss:


  $$
  L = -\sum_i y_i \log(s_i)
  $$


**2. 도함수 결과**


softmax와 cross-entropy를 **연속으로 쓴 뒤 미분하면**,
**놀랍게도** 도함수는 이렇게 단순해진다:


$$
\frac{\partial L}{\partial x_i} = s_i - y_i
$$


즉,


* $s_i$: softmax 확률 출력
* $y_i$: 정답값 (one-hot이면 0 또는 1)

In [27]:
# 선형출력층 - softmax - cross_entropy_loss
def softmax(x, axis=1):
    exp_x = np.exp(x - np.max(x, axis=axis)) # overflow방지 (값안정화)
    return exp_x / np.sum(exp_x, axis=axis)

def cross_entropy_loss(y_hat, y_true_index):
    print(y_hat.shape) # (n, n_classes)
    return np.mean([-np.log(y_hat_[y_true_index]) for y_hat_ in y_hat])

def cross_entropy_loss_derivative(y_hat, y_true_index):
    """
    cross_entory_loss, softmax 통합된 도함수
    """
    grad = y_hat.copy()
    grad[:, y_true_index] -= 1
    return grad

# 변수
X = np.array([[2.0, -1.0]]) # batch 차원
y_true_index = 0 # 0 1 2 클래스 중에서 0번지 클래스
# 입력2 -> 출력3 : W.shape(3,2), b.shape(3,)
W = np.array([[0.1, 0.3],
              [0.2, -0.2],
              [-0.1, 0.4]])

b = np.array([0.0, 0.0, 0.0])


# 순전파
z = X @ W.T + b
y_hat = softmax(z, axis=1)
loss = cross_entropy_loss(y_hat, y_true_index)
print(f'순전파: y_hat={y_hat}, loss={loss}')


# 역전파
dL_dz = cross_entropy_loss_derivative(y_hat, y_true_index)
print(dL_dz.shape)

# 도함수 도출
dz_dW = X
dz_db = 1


dL_dW = np.outer(dL_dz, dz_dW) # (3,) (2,) 곱해서 (3, 2)
dL_db = dL_dz * dz_db # 서로 달라서 곱셈할 수 없음


print(f'역전파 : w기울기={dL_dW}') # 3행 2열의 결과가 나옴
print(f'역전파 : b기울기={dL_db}')


(1, 3)
순전파: y_hat=[[0.27622147 0.55624174 0.16753679]], loss=1.2865523010014777
(1, 3)
역전파 : w기울기=[[-1.44755706  0.72377853]
 [ 1.11248347 -0.55624174]
 [ 0.33507358 -0.16753679]]
역전파 : b기울기=[[-0.72377853  0.55624174  0.16753679]]


In [None]:
# np.outer() 두 행렬의 외적 -> 행렬
a = np.array([1, 2])  # (2,)
b = np.array([10, 20, 30]) # (3, )
c = np.outer(a, b) # (2,3)
print(c.shape)

# np.dot() 두행렬 내적 -> 스칼라
d = np.array([3, 4]) # (2,)
e = np.dot(a, d)
print(e)

In [33]:
# torch 자동미분
# 변수
X = torch.tensor([[2.0, -1.0]])
y_true_index = torch.tensor([0], dtype=torch.long)
W = torch.tensor([[0.1, 0.3],
                  [0.2, -0.2],
                  [-0.1, 0.4]], requires_grad=True)
b = torch.tensor([0.0, 0.0, 0.0], requires_grad=True)

# 순전파
# - F.softmax()
# - F.cross_entropy(y_hat, y_true_index)
x = X @ W.T + b
y_hat = F.softmax(x, dim=1)
loss = F.cross_entropy(y_hat, y_true_index) # cross_entropy에는 선형출력층 결과(z)를 전달해야한다!
print(f'순전파: y_hat={y_hat}, loss={loss}')

# 역전파
loss.backward()

# w,b 기울기 확인
print(f'역전파 : w기울기={w.grad}')
print(f'역전파 : b기울기={b.grad}')




순전파: y_hat=tensor([[0.2762, 0.5562, 0.1675]], grad_fn=<SoftmaxBackward0>), loss=1.1694340705871582
역전파 : w기울기=3.498826265335083
역전파 : b기울기=tensor([-0.2139,  0.1814,  0.0325])


## 선형층-ReLU-MSELoss의 역전파


**1. 구조 요약**


* 입력: $x$
* 은닉층 선형: $z\_1 = w\_1 \cdot x + b\_1$
* 은닉층 활성화: $h = \text{ReLU}(z\_1)$
* 출력층 선형: $z\_2 = w\_2 \cdot h + b\_2$
* 예측값: $\hat{y} = z\_2$
* 손실: $L = (\hat{y} - y)^2$


**2. 순전파**


1. **은닉층 선형 계산**
   $z\_1 = w\_1 \cdot x + b\_1$


2. **ReLU 적용**
   $h = \text{ReLU}(z\_1) = \max(0, z\_1)$


3. **출력층 선형 계산**
   $z\_2 = w\_2 \cdot h + b\_2$


4. **예측값 및 손실**
   $\hat{y} = z\_2$
   $L = (\hat{y} - y)^2 = (z\_2 - y)^2$


**5. 역전파 (Chain Rule)**




(1) 출력층 가중치 $w\_2$, 편향 $b\_2$


* $\frac{\partial L}{\partial \hat{y}} = 2 (\hat{y} - y)$
* $\frac{\partial \hat{y}}{\partial z\_2} = 1$
* $\frac{\partial z\_2}{\partial w\_2} = h$
* $\frac{\partial z\_2}{\partial b\_2} = 1$


**연쇄법칙 적용:**


* $\frac{\partial L}{\partial w\_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z\_2} \cdot \frac{\partial z\_2}{\partial w\_2} = 2 (\hat{y} - y) \cdot h$


* $\frac{\partial L}{\partial b\_2} = 2 (\hat{y} - y) \cdot 1 = 2 (\hat{y} - y)$


(2) 은닉층 가중치 $w\_1$, 편향 $b\_1$


* $\frac{\partial L}{\partial z\_2} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z\_2} = 2 (\hat{y} - y)$
* $\frac{\partial z\_2}{\partial h} = w\_2$
* $\frac{\partial h}{\partial z\_1} = \text{ReLU}'(z\_1) = \begin{cases} 1 & z\_1 > 0 \ 0 & \text{else} \end{cases}$
* $\frac{\partial z\_1}{\partial w\_1} = x$
* $\frac{\partial z\_1}{\partial b\_1} = 1$


**연쇄법칙 적용:**


* $\frac{\partial L}{\partial z\_1} = \frac{\partial L}{\partial z\_2} \cdot \frac{\partial z\_2}{\partial h} \cdot \frac{\partial h}{\partial z\_1} = 2 (\hat{y} - y) \cdot w\_2 \cdot \text{ReLU}'(z\_1)$


* $\frac{\partial L}{\partial w\_1} = \frac{\partial L}{\partial z\_1} \cdot \frac{\partial z\_1}{\partial w\_1} = 2 (\hat{y} - y) \cdot w\_2 \cdot \text{ReLU}'(z\_1) \cdot x$


* $\frac{\partial L}{\partial b\_1} = 2 (\hat{y} - y) \cdot w\_2 \cdot \text{ReLU}'(z\_1) \cdot 1$

In [41]:
def relu(x):
    return np.maximum(0, x)

def mse_loss(y_hat, y):
    return np.mean((y_hat - y) ** 2)

def relu_derivative(x):
    return (x > 0).astype(float)

def mse_loss_derivative(y_hat, y):
    return 2 * (y_hat - y)

# 변수선언
x = np.array([3.5])
y = np.array([10.0])

w1 = np.array([2.0])
b1 = np.array([1.0])

w2 = np.array([1.5])
b2 = np.array([0.5])

# 순전파
z1 = w1 * x + b1
h = relu(z1)
z2 = w2 * h + b2 # 예측값
loss = mse_loss(z2, y)
print(f'순전파: y_hat={z2}, loss={loss}')



# 역전파
# - 출력층 w2, b2
dL_dz2 = mse_loss_derivative(z2, y)

dz2_dw2 = h
dz2_db2 = 1

dL_dw2 = dL_dz2 * dz2_dw2
dL_db2 = dL_dz2 * dz2_db2

# w2, b2 기울기
print(f'출력층 w2 기울기: {dL_dw2}')
print(f'출력층 b2 기울기: {dL_db2}')


# 은닉층 w1, b1
dz2_dh = w2
dh_dz1 = relu_derivative(z1)

dL_dz1 = dL_dz2 * dz2_dh * dh_dz1
dz1_dw1 = x
dz1_db1 = 1

dL_dw1 = dL_dz1 * dz1_dw1
dL_db1 = dL_dz1 * dz1_db1


# w1, b1 기울기
print(f'은닉층 w1 기울기: {dL_dw1}')
print(f'은닉층 b1 기울기 : {dL_db1}')


순전파: y_hat=[12.5], loss=6.25
출력층 w2 기울기: [40.]
출력층 b2 기울기: [5.]
은닉층 w1 기울기: [26.25]
은닉층 b1 기울기 : [7.5]


In [44]:
# torch 자동미분
# 변수선언
x = torch.tensor([3.5])
y = torch.tensor([10.0])

w1 = torch.tensor([2.0], requires_grad=True)
b1 = torch.tensor([1.0], requires_grad=True)

w2 = torch.tensor([1.5], requires_grad=True)
b2 = torch.tensor([0.5], requires_grad=True)

# 순전파
z1 = w1 * x + b1
h = F.relu(z1)
z2 = w2 * h + b2 # 예측값
loss = F.mse_loss(z2, y)
print(f'순전파: y_hat={z2}, loss={loss}')


# 역전파
loss.backward()

# 기울기/절편
print(f'출력층 w2 기울기 : {w2.grad}')
print(f'출력층 b2 기울기 : {b2.grad}')

print(f'은닉층 w1 기울기: {dL_dw1}')
print(f'은닉층 b1 기울기 : {dL_db1}')


순전파: y_hat=tensor([12.5000], grad_fn=<AddBackward0>), loss=6.25
출력층 w2 기울기 : tensor([40.])
출력층 b2 기울기 : tensor([5.])
은닉층 w1 기울기: [26.25]
은닉층 b1 기울기 : [7.5]
