## 4장 보강자료

간단한 데이터로 살펴보는 Backpropagation 예시 및 실습

In [23]:
import numpy as np

# 1. 데이터 및 변수 초기화
X = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])  # XOR 연산의 입력 값
y = np.array([[0], [1], [1], [0]])             # XOR 연산의 결과 값

# 가중치와 바이어스 초기화
np.random.seed(42)

필요한 함수들을 정의합니다:

In [24]:
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

def mse_loss(y_true, y_pred):
    return ((y_true - y_pred) ** 2).mean()

### 모델 구조

1-레이어이고, input 변수가 2개인 신경망을 사용해서 backpropagation을 구현해봅시다.  
히든레이어의 뉴런의 수는 2개 입니다.

### Forward Pass


$$
z_1 = XW_1 + b_1
$$
$$
a_1 = \sigma(z_1)
$$
$$
L = \frac{1}{m} \sum_{i=1}^{m} (y_i - a_{1,i})^2
$$

### Backward Pass

$$
\frac{\partial L}{\partial a_1} = (a_1 - y)
$$
$$
\frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \times \sigma'(a_1)
$$
$$
\frac{\partial L}{\partial W_1} = X^T \frac{\partial L}{\partial z_1}
$$
$$
\frac{\partial L}{\partial b_1} = \sum \frac{\partial L}{\partial z_1}
$$

### Weight Update:

$$
W_1 = W_1 - \text{learning\_rate} \times \frac{\partial L}{\partial W_1}
$$
$$
b_1 = b_1 - \text{learning\_rate} \times \frac{\partial L}{\partial b_1}
$$


### 코드 구현

In [25]:
input_size = 2
output_size = 1

W1 = np.random.randn(input_size, output_size)
b1 = np.zeros((1, output_size))

learning_rate = 0.1
epochs = 10000 #10000번의 작업

# 3. 학습 시작
for epoch in range(epochs):
    # Forward Pass
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)

    # 4. 손실 계산
    loss = np.mean((y - a1) ** 2)

    # 5. Backward Pass
    da1 = (a1 - y)
    dz1 = da1 * sigmoid_derivative(a1)
    dW1 = np.dot(X.T, dz1)
    db1 = np.sum(dz1, axis=0, keepdims=True)

    # 6. 가중치 업데이트
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1

    # 일정 에포크마다 손실 출력
    if epoch % 1000 == 0:
        print(f"Epoch {epoch}/{epochs}, Loss: {loss:.4f}")
        print(f"W1: {W1.flatten()}, b1: {b1}")

# 최종 예측 출력
print("Predicted Output:")
print(a1)

Epoch 0/10000, Loss: 0.2563
W1: [ 0.49135794 -0.13921903], b1: [[-0.0045571]]
Epoch 1000/10000, Loss: 0.2500
W1: [0.00273374 0.00150596], b1: [[-0.00251337]]
Epoch 2000/10000, Loss: 0.2500
W1: [4.27351493e-05 4.04095738e-05], b1: [[-4.93102057e-05]]
Epoch 3000/10000, Loss: 0.2500
W1: [8.18041359e-07 8.13639082e-07], b1: [[-9.67701081e-07]]
Epoch 4000/10000, Loss: 0.2500
W1: [1.60149174e-08 1.60065840e-08], b1: [[-1.89910024e-08]]
Epoch 5000/10000, Loss: 0.2500
W1: [3.14216711e-10 3.14200937e-10], b1: [[-3.72695867e-10]]
Epoch 6000/10000, Loss: 0.2500
W1: [6.16628951e-12 6.16626961e-12], b1: [[-7.31408398e-12]]
Epoch 7000/10000, Loss: 0.2500
W1: [1.20978037e-13 1.20977565e-13], b1: [[-1.43525393e-13]]
Epoch 8000/10000, Loss: 0.2500
W1: [2.35625830e-15 2.35578642e-15], b1: [[-2.83238003e-15]]
Epoch 9000/10000, Loss: 0.2500
W1: [2.46834548e-16 2.46362677e-16], b1: [[-3.31602665e-16]]
Predicted Output:
[[0.5]
 [0.5]
 [0.5]
 [0.5]]


In [26]:
W1

array([[2.46834548e-16],
       [2.46362677e-16]])

In [27]:
W1.flatten()

array([2.46834548e-16, 2.46362677e-16])

In [28]:
dW1.shape

(2, 1)

네, 간단한 2-레이어 신경망을 사용하여 backpropagation을 구현함. 

이 예제에서는:

1. 입력 레이어와 2개의 숨겨진 레이어를 가진 신경망을 구축합니다.
2. 시그모이드를 활성화 함수로 사용합니다.
3. 평균 제곱 오차를 손실 함수로 사용합니다.

필요한 라이브러리 임포트

### Neural Network Model:

#### 1. Forward Pass:
1. **Hidden Layer**:
    - $$ z_1 = X \times W_1 + b_1 $$
    - $$ a_1 = \sigma(z_1) $$

2. **Output Layer**:
    - $$ z_2 = a_1 \times W_2 + b_2 $$
    - $$ a_2 = \sigma(z_2) $$

여기서,   $ \sigma $ 는 sigmoid 활성화 함수를 의미합니다.

#### 2. Loss Function:
- $$ L = \frac{1}{N} \sum_{i=1}^{N} (y_i - a_{2,i})^2 $$

여기서, $ N $ 은 데이터의 개수를 의미합니다.

#### 3. Backward Pass (Gradients):

- **Output Layer**:
    - $$ \frac{\partial L}{\partial a_2} = 2(a_2 - y) $$
    - $$ \frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial a_2} \times \sigma'(z_2) $$
    - $$ \frac{\partial L}{\partial W_2} = a_1^T \times \frac{\partial L}{\partial z_2} $$
    - $$ \frac{\partial L}{\partial b_2} = \sum_{i=1}^{N} \frac{\partial L}{\partial z_{2,i}} $$

- **Hidden Layer**:
    - $$ \frac{\partial L}{\partial a_1} = \frac{\partial L}{\partial z_2} \times W_2^T $$
    - $$ \frac{\partial L}{\partial z_1} = \frac{\partial L}{\partial a_1} \times \sigma'(z_1) $$
    - $$ \frac{\partial L}{\partial W_1} = X^T \times \frac{\partial L}{\partial z_1} $$
    - $$ \frac{\partial L}{\partial b_1} = \sum_{i=1}^{N} \frac{\partial L}{\partial z_{1,i}} $$


In [29]:
import numpy as np

이제 2-레이어 신경망의 파라미터를 초기화하겠습니다:

In [30]:
input_size = 2
hidden_size = 3
output_size = 1

W1 = np.random.randn(input_size, hidden_size)
b1 = np.zeros((1, hidden_size))
W2 = np.random.randn(hidden_size, output_size)
b2 = np.zeros((1, output_size))

In [31]:
W1

array([[ 0.64768854,  1.52302986, -0.23415337],
       [-0.23413696,  1.57921282,  0.76743473]])

이제 실제로 forward pass 및 backpropagation을 실행할 학습 코드를 작성하겠습니다:

In [32]:
learning_rate = 0.1
epochs = 10000

for epoch in range(epochs):
    # Forward Pass
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)
    z2 = np.dot(a1, W2) + b2
    a2 = sigmoid(z2)

    # 손실 계산
    loss = np.mean((y - a2) ** 2)

    # Backward Pass
    da2 = (a2 - y)
    dz2 = da2 * sigmoid_derivative(a2)
    dW2 = np.dot(a1.T, dz2)
    db2 = np.sum(dz2, axis=0, keepdims=True)

    da1 = np.dot(dz2, W2.T)
    dz1 = da1 * sigmoid_derivative(a1)
    dW1 = np.dot(X.T, dz1)
    db1 = np.sum(dz1, axis=0, keepdims=True)

    # 가중치 업데이트
    W2 -= learning_rate * dW2
    b2 -= learning_rate * db2
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1

    # 일정 에포크마다 손실 출력
    if epoch % 1000 == 0:
        print(f"Epoch {epoch}/{epochs}, Loss: {loss:.4f}")

# 최종 예측 출력
print("Predicted Output:")
print(a2)

Epoch 0/10000, Loss: 0.2440
Epoch 1000/10000, Loss: 0.1881
Epoch 2000/10000, Loss: 0.0920
Epoch 3000/10000, Loss: 0.0313
Epoch 4000/10000, Loss: 0.0149
Epoch 5000/10000, Loss: 0.0092
Epoch 6000/10000, Loss: 0.0065
Epoch 7000/10000, Loss: 0.0049
Epoch 8000/10000, Loss: 0.0040
Epoch 9000/10000, Loss: 0.0033
Predicted Output:
[[0.02224667]
 [0.94486905]
 [0.94514992]
 [0.06836053]]


In [34]:
W1

array([[ 5.78947689,  5.61073991, -2.66391388],
       [-2.47555936,  5.6326184 ,  5.82295068]])

### Homework

히든 레이어의 수가 2개이고, 각 레이어의 뉴런의 수가 3개인 뉴럴네트워크를 같은 형태로 구현해봅시다

In [35]:
import numpy as np

# 입력 특성의 수
input_size = 2

# 각 히든 레이어의 뉴런 수
hidden_layer1_size = 3
hidden_layer2_size = 3

# 출력 뉴런의 수
output_size = 1

# 학습 속도
learning_rate = 0.1

# 학습 횟수
epochs = 10000

# 시그모이드 활성화 함수
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 시그모이드 함수의 도함수
def sigmoid_derivative(x):
    return x * (1 - x)

# 입력 데이터와 정답 데이터 (임의의 값)
X = np.array([[0, 0],
              [0, 1],
              [1, 0],
              [1, 1]])

y = np.array([[0], [1], [1], [0]])

# 1번째 히든 레이어의 가중치와 편향 초기화
W1 = np.random.randn(input_size, hidden_layer1_size)
b1 = np.zeros((1, hidden_layer1_size))

# 2번째 히든 레이어의 가중치와 편향 초기화
W2 = np.random.randn(hidden_layer1_size, hidden_layer2_size)
b2 = np.zeros((1, hidden_layer2_size))

# 출력 레이어의 가중치와 편향 초기화
W3 = np.random.randn(hidden_layer2_size, output_size)
b3 = np.zeros((1, output_size))

# 학습 시작
for epoch in range(epochs):
    # Forward Pass
    z1 = np.dot(X, W1) + b1
    a1 = sigmoid(z1)

    z2 = np.dot(a1, W2) + b2
    a2 = sigmoid(z2)

    z3 = np.dot(a2, W3) + b3
    a3 = sigmoid(z3)

    # 손실 계산
    loss = np.mean((y - a3) ** 2)

    # Backward Pass
    da3 = (a3 - y) * sigmoid_derivative(a3)
    dz3 = da3
    dW3 = np.dot(a2.T, dz3)
    db3 = np.sum(dz3, axis=0, keepdims=True)

    da2 = np.dot(dz3, W3.T) * sigmoid_derivative(a2)
    dz2 = da2
    dW2 = np.dot(a1.T, dz2)
    db2 = np.sum(dz2, axis=0, keepdims=True)

    da1 = np.dot(dz2, W2.T) * sigmoid_derivative(a1)
    dz1 = da1
    dW1 = np.dot(X.T, dz1)
    db1 = np.sum(dz1, axis=0, keepdims=True)

    # 가중치 업데이트
    W1 -= learning_rate * dW1
    b1 -= learning_rate * db1

    W2 -= learning_rate * dW2
    b2 -= learning_rate * db2

    W3 -= learning_rate * dW3
    b3 -= learning_rate * db3

    # 일정 에포크마다 손실 출력
    if epoch % 1000 == 0:
        print(f"Epoch {epoch}/{epochs}, Loss: {loss:.4f}")

# 최종 예측 출력
print("Predicted Output:")
print(a3)


Epoch 0/10000, Loss: 0.2892
Epoch 1000/10000, Loss: 0.2492
Epoch 2000/10000, Loss: 0.2442
Epoch 3000/10000, Loss: 0.2191
Epoch 4000/10000, Loss: 0.1803
Epoch 5000/10000, Loss: 0.1519
Epoch 6000/10000, Loss: 0.1029
Epoch 7000/10000, Loss: 0.0123
Epoch 8000/10000, Loss: 0.0047
Epoch 9000/10000, Loss: 0.0027
Predicted Output:
[[0.0281708 ]
 [0.95702334]
 [0.95697581]
 [0.05356113]]
