### 미분
- 미분의 기본은 함수의 변화율을 구하는거

**오차역전파의 단계**
1. **순전파(Forward Propagation)**: 입력 데이터가 네트워크를 통과하며 예측값을 생성한다.
2. **오차 계산(Error Calculation)**: 예측값과 실제 목표값 사이의 오차를 계산한다. 대표적인 오차 함수는 평균 제곱 오차(MSE)이다.
3. **오차 역전파(Backpropagation)**: 오차를 네트워크의 각 가중치로 전파하여 가중치를 조정한다.
4. **가중치 갱신(Update Weights)**: 경사하강법을 통해 오차가 감소하도록 각 가중치를 갱신한다.


**간단히 단일 계층(입력 $ x $ -> 은닉층 $ h $ -> 출력 $ y $) 신경망에서 오차역전파 설명**

![](https://d.pr/i/juFjHc+)

1. **순전파 단계**

    - 가중치 $ w_1 $와 $ w_2 $가 각각 입력과 은닉층, 은닉층과 출력층 사이에 존재한다고 하자.
    - 입력 $ x $가 은닉층 $ h $에 도달하면서 가중치 $ w_1 $을 곱한 뒤 활성화 함수를 적용:
      $
      h = f(x \cdot w_1)
      $
    - 은닉층 출력 $ h $가 출력층 $ y $로 전달되며 가중치 $ w_2 $를 곱한 뒤 활성화 함수를 적용하여 최종 출력:
      $
      y = f(h \cdot w_2)
      $

2. **오차 계산**

    - 예측된 출력 $ y $와 목표 값 $ t $ 사이의 오차 $ E $를 계산한다. 여기서 평균 제곱 오차(MSE)를 사용하면:
      $
      E = \frac{1}{2}(t - y)^2
      $

3. **오차의 기울기 계산**

    - 오차 $ E $를 최소화하기 위해 각 가중치 $ w_1 $과 $ w_2 $에 대한 편미분을 구해야 한다.
    - 출력층의 오차 기울기:
      $
      \frac{\partial E}{\partial w_2} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial w_2}
      $
    - 은닉층의 오차 기울기:
      $
      \frac{\partial E}{\partial w_1} = \frac{\partial E}{\partial y} \cdot \frac{\partial y}{\partial h} \cdot \frac{\partial h}{\partial w_1}
      $

4. **가중치 갱신**

    - 각 가중치는 학습률 $ \eta $와 오차 기울기를 사용해 갱신한다:
      $
      w_2 = w_2 - \eta \cdot \frac{\partial E}{\partial w_2}
      $
      $
      w_1 = w_1 - \eta \cdot \frac{\partial E}{\partial w_1}
      $

## 손실함수/활성화함수의 도함수


### 손실 함수 (Loss Functions)의 도함수

| 손실 함수 | 공식 | 도함수 | 비고 |
|-----------|------|--------|------|
| **MSELoss** (Mean Squared Error) | $L = \frac{1}{n} \sum (y - \hat{y})^2$ | $\frac{dL}{d\hat{y}} = \frac{2}{n} (\hat{y} - y)$ | 예측값과 정답의 차이를 제곱해 평균, **이상치에 민감함** |
| **L1Loss** (Mean Absolute Error) | $L = \frac{1}{n} \sum \|y - \hat{y}\|$ | $\frac{dL}{d\hat{y}} = \frac{1}{n} \cdot \text{sign}(\hat{y} - y)$ | 절댓값 오차 평균, **이상치에 덜 민감**하지만 미분 불연속 |
| **HuberLoss** | $L = \begin{cases} \frac{1}{2}(y - \hat{y})^2 & \text{if } \|y - \hat{y}\| \leq \delta \\ \delta \cdot (\|y - \hat{y}\| - \frac{1}{2} \delta) & \text{otherwise} \end{cases}$ | $\frac{dL}{d\hat{y}} = \begin{cases} \hat{y} - y & \text{if } \|\hat{y} - y\| \leq \delta \\ \delta \cdot \text{sign}(\hat{y} - y) & \text{otherwise} \end{cases}$ | MSE와 MAE의 장점 결합, **이상치에 덜 민감하면서 부드러운 미분** |
| **BCELoss** (Binary Cross Entropy) | $L = - \left( y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \right)$ | $\frac{dL}{d\hat{y}} = -\left( \frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}} \right)$ | **이진 분류**에서 사용, 출력에 **sigmoid**를 적용해야 함 |
| **BCEWithLogitsLoss** | $L = \max(z, 0) - z \cdot y + \log(1 + e^{-\|z\|})$ | $\frac{dL}{dz} = \sigma(z) - y$ | sigmoid + BCELoss 결합 형태, **수치적으로 안정적** |
| **CrossEntropyLoss** | $L = - \log \left( \frac{e^{z_y}}{\sum_j e^{z_j}} \right )$ | $\frac{dL}{dz_i} = \text{softmax}(z_i) - y_i$ | 다중 클래스 분류용, 내부에서 softmax 포함, **출력에 softmax 불필요** |



### 활성화 함수 (Activation Functions)의 도함수


| 함수 이름 | 공식 | 도함수 | 비고 |
|-----------|------|--------|------|
| **Sigmoid** | $\sigma(x) = \frac{1}{1 + e^{-x}}$ | $\sigma'(x) = \sigma(x)(1 - \sigma(x))$ | 이진 분류 확률 출력에 주로 사용 |
| **Softmax** | $\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$ | $\frac{\partial s_i}{\partial x_j} = s_i (\delta_{ij} - s_j)$ | 다중 클래스 확률 출력, 출력 간 상호작용 있음 |
| **ReLU** | $ReLU(x) = \max(0, x)$ | $ReLU'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases}$ | 계산 간단하고 많이 사용됨 |
| **LeakyReLU** | $LeakyReLU(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{otherwise} \end{cases}$ | $LeakyReLU'(x) = \begin{cases} 1 & \text{if } x > 0 \\ \alpha & \text{otherwise} \end{cases}$ | 음수 영역도 일부 통과시켜 죽은 ReLU 문제 완화 |
| **Tanh** | $\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$ | $\tanh'(x) = 1 - \tanh^2(x)$ | 출력이 -1~1 범위로 중심 정규화 효과 |
| **Softmax + CrossEntropy** | $L = -\sum_i y_i \log(s_i)$ | $\frac{\partial L}{\partial x_i} = s_i - y_i$ | softmax와 cross-entropy를 결합한 경우, 도함수가 매우 간단해짐 |




### 연쇄 법칙
- 기본 수식의 역전파 & 연쇄법칙 적용

In [1]:
import numpy as np

def forward(x):
    y = x ** 2
    return y

def backward(x):
    dy_dx = 2 * x
    return dy_dx

x = 3.0
print(forward(x))
print(backward(x))

9.0
6.0


- 다층 신경망에서 연쇄법칙 적용

In [2]:
import numpy as np

# x -> y -> z
def forward(x):
    y = x ** 2
    z = 2 * y
    return z

def backward(x):
    dy_dx = 2 * x
    dz_dy = 2
    dz_dx =  dy_dx * dz_dy
    return dz_dx

x = 3.0
print(forward(x))
print(backward(x))

18.0
12.0


### 신경망에서의 활용
- 단순 신경망 학습

In [None]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_d(x):
    return sigmoid(x) * (1 - sigmoid(x))

X = np.array([0.5, 0.8])
y = np.array([1])

W = np.array([0.2, 0.4])

# 순전파
z = np.dot(X, W)
r = sigmoid(z)

# 오차 계산
loss = 0.5 * ((y - r) ** 2)

# 역전파 (기울기 계산)
delta = (r - y) * sigmoid_d(z)
grad_w = delta * x


# 가중치 갱신
W -= 0.1 * grad_w # 0.1 == learning_rate

print(W)

- 은닉층 추가

In [None]:
def relu(x):
    return np.maximum(0, x)

def relu_d(x):
    return np.where(x > 0, 1, 0)

X = np.array([0.5, 0.8]) # (2,)
y = np.array([1])        # (1,)

W1 = np.array([[0.2, 0.4], [0.1, 0.3]]) # (2, 2)
b1 = np.array([0.1, 0.2])               # (2,)
W2 = np.array([[0.5], [0.6]])           # (2, 1)
b2 = np.array([0.3]) # (1,)             # (1,)

# 순전파
z1 = np.dot(X, W1) + b1
r1 = relu(z1)

z2 = np.dot(r1, W2) + b2
r2 = relu(z2) 

# 손실 계산 -> 역전파 (기울기 계산)
delta2 = (r2 - y) * relu_d(z2)
grad_W2 = np.outer(r1, delta2)
delta1 = np.dot(W2, delta2) * relu_d(z1)
grad_W1 = grad_W1 = np.outer(X, delta1)

# 가중치 갱신
learning_rate = 0.01
W2 -= learning_rate * grad_W2
W1 -= learning_rate * grad_W1

In [4]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5])

print(np.outer(arr1, arr2))


[[ 4  5]
 [ 8 10]
 [12 15]]


### 수치미분과 역전파

In [16]:
def f(x):
    return x ** 2

def num_d_gradient(f, x):
    h = 1e-5
    return (f(x + h) - f(x - h)) / (2 * h)

def backward_gradient(x):
    return 2 * x

print(num_d_gradient(f, 3.0))
print(backward_gradient(3.0))


6.000000000039306
6.0


##### 숫자 맞추기 AI

In [None]:
target_number = 42
guess = np.random.randn()
learning_rate = 0.1
epochs = 500

for epoch in range(epochs):
    # 오차계산
    loss = (guess - target_number) ** 2 / 2
    
    # 역전파 (기울기 계산)
    grad = (guess - target_number)

    # 업데이트 (guess 업데이트)
    guess -= learning_rate * grad

    # epoch 100마다 예측값과 손실 출력
    if (epoch + 1) % 100 == 0:
        print(f'epoch {epoch + 1} | 예측값 {guess} | 손실 {loss}')

# 최종 예측값 guess 출력
print(f'최종 예측값 {guess}')

epoch 100 | 예측값 41.99884279997745 | 손실 8.266122791221897e-07
epoch 200 | 예측값 41.99999996926315 | 손실 5.831813228917597e-16
epoch 300 | 예측값 41.99999999999918 | 손실 4.1359030627651384e-25
epoch 400 | 예측값 41.99999999999997 | 손실 4.0389678347315804e-28
epoch 500 | 예측값 41.99999999999997 | 손실 4.0389678347315804e-28
최종 예측값 41.99999999999997


In [15]:
print(guess)

0.3159468043686356
