# 역전파와 체인 룰 구현

## 라이브러리

In [2]:
import numpy as np

## 함수 정의

In [3]:
# 시그모이드 함수 정의
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 시그모이드 함수의 도함수
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))


## 입력 값과 정답 값 정의

In [4]:
x = np.array([0.5])  # 입력 값
y_true = np.array([1])  # 실제 출력

# 가중치와 편향 초기화
W1 = np.array([0.4])  # 첫 번째 층의 가중치
b1 = np.array([0.1])  # 첫 번째 층의 편향
W2 = np.array([0.8])  # 두 번째 층의 가중치
b2 = np.array([0.2])  # 두 번째 층의 편향

## 순전파와 손실함수

In [5]:
# 손실 함수:실제 값 𝑦true 와 예측 값 𝑦pred  간의 차이를 **MSE(Mean Squared Error)**로 계산

In [6]:
# 순전파 (forward propagation)
z1 = W1 * x + b1
a1 = sigmoid(z1)

z2 = W2 * a1 + b2
y_pred = sigmoid(z2)

# 손실 함수 (교차 엔트로피의 간단한 형태)
loss = 0.5 * (y_true - y_pred) ** 2  # Mean Squared Error (MSE)


## 역전파(backpropagation)

In [7]:
# 역전파(backpropagation):

# 출력층에서 손실에 대한 예측값의 기울기를 계산하고, 
# 체인 룰을 적용하여 각 가중치 𝑊1 과 𝑊2 에 대한 기울기를 계산합니다.
# 이때 체인 룰을 통해 각 층을 거쳐서 역으로 기울기를 계산해 나갑니다.

In [8]:
##  역전파 (backpropagation) - 체인 룰 적용

# 복합함수 미분
# 복합 함수에서는 내부 함수가 바깥 함수의 입력으로 사용됩니다. 𝑓(𝑔(𝑥))
# 즉, 한 함수의 출력이 다른 함수의 입력이 되는 연쇄적 관계가 있기 때문에, 각각의 변화율이 다음 함수의 변화율에 영향을 미칩니다.

# 최종적으로 𝑓(𝑔(𝑥))를 𝑥에 대해 미분하려면, 체인 룰을 사용해야 합니다. 
# 이는 𝑓의 변화율이 𝑔(𝑥)에 의존하고, 𝑔(𝑥)의 변화율이 𝑥에 의존하므로, 두 변화율을 곱해줘야 한다는 것을 의미합니다.

In [9]:
# 1. 출력층에서의 오차 기울기
d_loss_y_pred = -(y_true - y_pred)

# 2. 출력층에서의 z2에 대한 기울기 (체인 룰)
d_z2 = d_loss_y_pred * sigmoid_derivative(z2)

# 3. 가중치 W2에 대한 기울기
d_W2 = d_z2 * a1

# 4. 은닉층에서의 z1에 대한 기울기 (체인 룰 적용)
d_a1 = d_z2 * W2
d_z1 = d_a1 * sigmoid_derivative(z1)

# 5. 가중치 W1에 대한 기울기
d_W1 = d_z1 * x

## 결과 출력

In [10]:

# 결과 출력
print(f"손실: {loss}")
print(f"출력층에서의 W2에 대한 기울기: {d_W2}")
print(f"은닉층에서의 W1에 대한 기울기: {d_W1}")


손실: [0.05808589]
출력층에서의 W2에 대한 기울기: [-0.0439884]
은닉층에서의 W1에 대한 기울기: [-0.00748784]


In [None]:
# 코드가 실행되면 각 가중치𝑊1 과 𝑊2 에 대한 기울기를 출력하여, 어떻게 가중치가 업데이트되어야 하는지 알 수 있습니다.

# 코드 종합

In [1]:
import numpy as np

# 시그모이드 함수 정의
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 시그모이드 함수의 도함수
def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

# 입력 값과 정답 값 정의
x = np.array([0.5])  # 입력 값
y_true = np.array([1])  # 실제 출력

# 가중치와 편향 초기화
W1 = np.array([0.4])  # 첫 번째 층의 가중치
b1 = np.array([0.1])  # 첫 번째 층의 편향
W2 = np.array([0.8])  # 두 번째 층의 가중치
b2 = np.array([0.2])  # 두 번째 층의 편향

# 순전파 (forward propagation)
z1 = W1 * x + b1
a1 = sigmoid(z1)

z2 = W2 * a1 + b2
y_pred = sigmoid(z2)

# 손실 함수 (교차 엔트로피의 간단한 형태)
loss = 0.5 * (y_true - y_pred) ** 2  # Mean Squared Error (MSE)

# 역전파 (backpropagation) - 체인 룰 적용

# 1. 출력층에서의 오차 기울기
d_loss_y_pred = -(y_true - y_pred)

# 2. 출력층에서의 z2에 대한 기울기 (체인 룰)
d_z2 = d_loss_y_pred * sigmoid_derivative(z2)

# 3. 가중치 W2에 대한 기울기
d_W2 = d_z2 * a1

# 4. 은닉층에서의 z1에 대한 기울기 (체인 룰 적용)
d_a1 = d_z2 * W2
d_z1 = d_a1 * sigmoid_derivative(z1)

# 5. 가중치 W1에 대한 기울기
d_W1 = d_z1 * x

# 결과 출력
print(f"손실: {loss}")
print(f"출력층에서의 W2에 대한 기울기: {d_W2}")
print(f"은닉층에서의 W1에 대한 기울기: {d_W1}")


손실: [0.05808589]
출력층에서의 W2에 대한 기울기: [-0.0439884]
은닉층에서의 W1에 대한 기울기: [-0.00748784]
