### 역전파란?(Backpropagation)
- 인공신경망에서 가중치 업데이트를 위해 사용하는 알고리즘
- 학습 과정에서 발새앟는 오차를 각 노드의 가중치를 업데이트하는 방법
- 경사하강법과 같이 사용되면서, 출력값(예측값)과 실제 값의 차이를 최소화하는데 중점을 두고 있다

### 연쇄법칙(Chain Rule)
- 연쇄 법칙은 함수 $y = f(g(x)) $의 미분을 구할 때 사용
- $y $가 $( u = g(x) $)라는 중간 변수를 거쳐 계산된다고 생각하면, 연쇄 법칙에 의해 다음과 같이 표현
$$
\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx}
$$

- 여러 층을 거쳐서 하나의 입력값이 출력값으로 변환댈 때, 
- 각층의 출력은 다시 다음 층의 입력이 됩니다. 
- input, layer1, layer2, output 이 있을 때, 
    - 첫번째 미분은 layer2에 대하여 output 을 미분을 실행
    - 두번째 미분은 layer1에 대하여 layer2 를 미분 실행
1. **첫 번째 층**:
   $$
   Z_1 = W_1 \cdot X + b_1
   $$
   $$
   A_1 = f(Z_1)
   $$
2. **두 번째 층**:
   $$
   Z_2 = W_2 \cdot A_1 + b_2
   $$
   $$
   A_2 = f(Z_2)
   $$
3. **출력층**:
   $$
   Z_3 = W_3 \cdot A_2 + b_3
   $$
   $$
   \hat{Y} = A_3 = f(Z_3)
   $$

### 미분 실행해보기 - 역전파를 통해서 실행
1. **출력층에서의 기울기**:
   $$
   \frac{\partial L}{\partial Z_3} = \frac{\partial L}{\partial \hat{Y}} \cdot \frac{\partial \hat{Y}}{\partial Z_3}
   $$
   $$
   \frac{\partial L}{\partial W_3} = \frac{\partial L}{\partial Z_3} \cdot \frac{\partial Z_3}{\partial W_3}
   $$
   $$
   \frac{\partial L}{\partial b_3} = \frac{\partial L}{\partial Z_3}
   $$

2. **두 번째 은닉층에서의 기울기**:
   $$
   \frac{\partial L}{\partial Z_2} = \frac{\partial L}{\partial Z_3} \cdot \frac{\partial Z_3}{\partial A_2} \cdot \frac{\partial A_2}{\partial Z_2}
   $$
   $$
   \frac{\partial L}{\partial W_2} = \frac{\partial L}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial W_2}
   $$
   $$
   \frac{\partial L}{\partial b_2} = \frac{\partial L}{\partial Z_2}
   $$
3. **첫 번째 은닉층에서의 기울기**:
   $$
   \frac{\partial L}{\partial Z_1} = \frac{\partial L}{\partial Z_2} \cdot \frac{\partial Z_2}{\partial A_1} \cdot \frac{\partial A_1}{\partial Z_1}
   $$
   $$
   \frac{\partial L}{\partial W_1} = \frac{\partial L}{\partial Z_1} \cdot \frac{\partial Z_1}{\partial W_1}
   $$
   $$
   \frac{\partial L}{\partial b_1} = \frac{\partial L}{\partial Z_1}
   $$

### 코드로 구현해보기

In [1]:
import numpy as np

In [2]:
def relu(x):
    return np.maximum(0, x)
def relu_dev(x):
    return np.where(x >0, 1, 0)

In [3]:
# 초기 가중치와 편향을 랜덤을 설정
def init_weights(input_size, hidden_size, output_size):
    np.random.seed(11)

    W_1 = np.random.randn(input_size, hidden_size)
    b_1 = np.zeros((1, hidden_size))

    W_2 = np.random.randn(hidden_size, output_size)
    b_2 = np.zeros((1, output_size))
    return W_1, b_1, W_2, b_2

In [4]:
# 순전파 함수
def forward_propagation(X, W_1, b_1, W_2, b_2):
    # 첫번째 Layer
    Z_1 = np.dot(X, W_1) + b_1
    A_1 = relu(Z_1)

    # 두번째 Layer
    Z_2 = np.dot(A_1, W_2) + b_2
    A_2 = relu(Z_2)

    return Z_1, A_1, Z_2, A_2

In [5]:
# 순전파 함수
def forward_propagation(X, W_1, b_1, W_2, b_2):
    # 첫번째 Layer
    Z_1 = np.dot(X, W_1) + b_1
    A_1 = relu(Z_1)

    # 두번째 Layer
    Z_2 = np.dot(A_1, W_2) + b_2
    A_2 = relu(Z_2)

    return Z_1, A_1, Z_2, A_2

In [6]:
# 가중치 업데이트 함수
def update_weights(W_1, b_1, W_2, b_2, dW_1, db_1, dW_2, db_2, learning_rate):
    W_1 -= learning_rate * dW_1
    b_1 -= learning_rate * db_1

    W_2 -= learning_rate * dW_2
    b_2 -= learning_rate * db_2

    return W_1, b_1, W_2, b_2

In [7]:
# 비용함수(MSE)
def compute_cost(A_2, Y):
    m = Y.shape[0]
    cost = (1/m) * np.sum((A_2 - Y)**2)

In [8]:
# 학습할 데이터
X = np.random.rand(100,3)
Y = np.random.rand(100,1)

print(X.shape, Y.shape)

# 모델 초기화
input_size = X.shape[1]
hidden_size = 5
ouput_size = Y.shape[1]

(100, 3) (100, 1)


In [9]:
W_1, b_1, W_2, b_2 = init_weights(input_size, hidden_size, ouput_size)

In [10]:
## 하이퍼 파라미터 설정
learning_rate = 0.01
epochs = 1000

In [11]:
import numpy as np

# ReLU 함수와 그 미분 함수 정의
def relu(x):
    return np.maximum(0, x)

def relu_derivative(x):
    return np.where(x > 0, 1, 0)

# 초기 가중치와 편향 설정
def initialize_weights(input_size, hidden_size, output_size):
    np.random.seed(42)  # 재현성을 위해 시드 설정
    W1 = np.random.randn(input_size, hidden_size)
    b1 = np.zeros((1, hidden_size))
    W2 = np.random.randn(hidden_size, output_size)
    b2 = np.zeros((1, output_size))
    return W1, b1, W2, b2

# 순전파 함수
def forward_propagation(X, W1, b1, W2, b2):
    Z1 = np.dot(X, W1) + b1
    A1 = relu(Z1)
    Z2 = np.dot(A1, W2) + b2
    A2 = relu(Z2)  # 여기서는 회귀 문제를 위해 활성화 함수 사용 안함
    return Z1, A1, Z2, A2

# 역전파 함수
def backward_propagation(X, Y, Z1, A1, Z2, A2, W1, W2):
    m = X.shape[0]
    dZ2 = A2 - Y
    dW2 = (1/m) * np.dot(A1.T, dZ2)
    db2 = (1/m) * np.sum(dZ2, axis=0, keepdims=True)

    dA1 = np.dot(dZ2, W2.T)
    dZ1 = dA1 * relu_derivative(Z1)
    dW1 = (1/m) * np.dot(X.T, dZ1)
    db1 = (1/m) * np.sum(dZ1, axis=0, keepdims=True)
    
    return dW1, db1, dW2, db2

# 가중치 업데이트 함수
def update_weights(W1, b1, W2, b2, dW1, db1, dW2, db2, learning_rate):
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1
    W2 -= learning_rate * dW2
    b2 -= learning_rate * db2
    return W1, b1, W2, b2

# 비용 함수 (MSE)
def compute_cost(A2, Y):
    m = Y.shape[0]
    cost = (1/m) * np.sum((A2 - Y)**2)
    return cost

# 데이터 생성
np.random.seed(42)
X = np.random.rand(100, 3)  # 입력 데이터
Y = np.random.rand(100, 1)  # 출력 데이터

# 모델 초기화
input_size = X.shape[1]
hidden_size = 5
output_size = Y.shape[1]
W1, b1, W2, b2 = initialize_weights(input_size, hidden_size, output_size)

# 하이퍼파라미터 설정
learning_rate = 0.01
iterations = 1000

# 경사하강법을 이용한 학습
for i in range(iterations):
    Z1, A1, Z2, A2 = forward_propagation(X, W1, b1, W2, b2)
    dW1, db1, dW2, db2 = backward_propagation(X, Y, Z1, A1, Z2, A2, W1, W2)
    W1, b1, W2, b2 = update_weights(W1, b1, W2, b2, dW1, db1, dW2, db2, learning_rate)
    
    if i % 100 == 0:
        cost = compute_cost(A2, Y)
        print(f"Iteration {i}, Cost: {cost}")

# 최종 비용 출력
final_cost = compute_cost(A2, Y)
print(f"Final Cost: {final_cost}")

Iteration 0, Cost: 0.29617825471294423
Iteration 100, Cost: 0.15269541445708593
Iteration 200, Cost: 0.1361997979546046
Iteration 300, Cost: 0.12646802945091326
Iteration 400, Cost: 0.11914873921362253
Iteration 500, Cost: 0.11360293902089343
Iteration 600, Cost: 0.1093644928277771
Iteration 700, Cost: 0.10602391756213714
Iteration 800, Cost: 0.10337393702103816
Iteration 900, Cost: 0.10130153664427889
Final Cost: 0.0996029506728323


In [12]:
# 학습해보기
for i in range(epochs):
    Z_1, A_1, Z_2, A_2 = forward_propagation(X, W_1, b_1, W_2, b_2)
    dW_1, db_1, dW_2, db_2 = backward_propagation(X, Y, Z_1, A_1, Z_2, A_2, W_1, W_2)
    W_1, b_1, W_2, b_2 = update_weights(W_1, b_1, W_2, b_2, dW_1, db_1, dW_2, db_2, learning_rate)

    if i % 100 == 0:
        cost = compute_cost(A_2, Y)
        print(f"{i}번째 학습시 비용 값은 :", cost)

0번째 학습시 비용 값은 : 0.28050715536743137
100번째 학습시 비용 값은 : 0.22305593899821646
200번째 학습시 비용 값은 : 0.18148978926232306
300번째 학습시 비용 값은 : 0.15719628052307497
400번째 학습시 비용 값은 : 0.1299445795692305
500번째 학습시 비용 값은 : 0.10449521360738043
600번째 학습시 비용 값은 : 0.09277975562253016
700번째 학습시 비용 값은 : 0.08762657800189057
800번째 학습시 비용 값은 : 0.08627957366599676
900번째 학습시 비용 값은 : 0.08612824468561733


In [13]:
W1, b1, W2, b2

(array([[ 0.38553946, -0.12752398,  0.63039514,  1.34103988, -0.28337825],
        [-0.28597683,  1.34967434,  0.8747145 , -0.57277477,  0.41792644],
        [-0.48307578, -0.42430458,  0.10641514, -1.94377297, -1.73688937]]),
 array([[-0.14504482, -0.27615878,  0.11353132, -0.2374223 , -0.16592391]]),
 array([[-0.53349839],
        [-0.62402997],
        [ 0.46785601],
        [-0.76468007],
        [-1.40329412]]),
 array([[0.26322109]]))