# 오류 역전파(Back Propagation)

<span style = 'color:red'>가중치를 몰라도 문제를 해결</span>하기 위해 개발된 방법.

분류 중 에러가 발생하면 에러가 걸린 레이어를 뒤쪽으로 보낸다. (교재 116p)

$ x_1 -> w_1x_1 = p_1  -> p_1이 시그모이드를 만나 y = \frac{1}{a + e^{-p_1}} -> w_2y = p_2 -> p_2가 시그모이드를 만나 z = \frac{1}{1 + e^{-p_2}} 의 순서대로 진행되며 $

$ z(= 0 ~1)를 이용하여 L(LossFunction) = -\frac{1}{2}(d - z)^2 을 구할 수 있다. $

* $ d  = 0 ~ 1 사이의 값 $

$$ w_1^{(n+1)} = w_1^{(n)} - \gamma\frac{dL(w^{(n)})}{dw_1} $$

$$ w_2^{(m+1)} = w_2^{(m)} - \gamma\frac{dL(w^{(m)})}{dw_2} $$

% 가중치($w$)와 바이어스($b$)를 구하기 위해서는 경사하강법을 사용한다.

- $ w_2 $ 구하기 (경사 하강법을 활용)

$$ \frac{dL}{dw_2} = \frac{dL}{dz} * \frac{z}{dp_2} * \frac{p_2}{dw_2} = (d - z) * z(1 - z) * y $$

- $ w_1 $ 구하기

$$ \frac{dL}{dw_1} = \frac{dL}{dz} * \frac{dz}{dp_2} * \frac{dp_2}{dy} * \frac{dy}{dp_1} * \frac{dp_1}{dw1} = (d - z) * z(1 - z) * w_2 * y(y - y) * x_1 $$

위의 식에서 $ p_2 $를 $ w_2 $로 미분하고, 아래 식에서 $ p_2 $를 $ y $로 미분한 이유는 주어진 식($ \frac{dL}{dw_2}, \frac{dL}{dw_1} $)을 만족 시키기 위함이다.

다만, 시그모이드 함수를 계속해서 미분하다보면(데이터의 양이 늘어난다면) 1보다 작은 수가 계속 곱해져 0에 가까워진다.

즉, 여러 층을 거칠수록 기울기가 사라져 가중치를 수정하기가 어려워진다.

-> 이런 문제를 해결하기 위한 모델 
1. 하이퍼블릭 탄젠트(tant) : 범위를 -1 ~ 1로 잡는다. 하지만 여전히 0보다 작은 값이 있어 기울기 소실이 발생.
2. 렐루(ReLU) : 0보다 작을 때는 무조건 0, 0보다 큰 수는 x의 값을 그대로 사용.
3. 소프트 플러스(softplus) : 렐루(ReLU)의 변형 함수. 0보다 작은 값에 -를 사용.

# [확률적 경사 하강법(Stochastic Gradient Descent, SGD)](https://twinw.tistory.com/247)

경사 하강법은 불필요하게 많은 계산량은 속도를 느리게 할 뿐만 아니라, 최적 해를 찾기 전에 최적화 과정을 멈출 수도 있다.

이러한 문제를 해결하는 것이 확률적 경사 하강법으로 전체 데이터가 아닌 <span style = 'color:red'>랜덤하게 추출한 일부 데이터를 사용</span>.

중간 결과의 진폭이 크고 불안정해 보일 수도 있지만, <span style = 'color:red'>속도가 확연히 빠르면서도 최적 해에 근사한 값을 찾아낸다</span>.

# [모멘텀(momentum)](https://twinw.tistory.com/247)

경사 하강법에 탄성을 추가.

오차를 수정하기 바로 전에 <span style = 'color:red'>앞 수정 값과 방향(+, -)을 참고</span>하여 같은 방향으로 일정한 비율만 수정.

# [아담(Adam)](https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=tinz6461&logNo=221589073944)

모멘텀과 알엠에스트롭 방법을 합친 결과.

In [1]:
keras.optimizer.Adam(lr = 0.001, beta_1 = 0.9, beta_2 = 0.999, epsilon = 1e - 08, decay = 0.0)

SyntaxError: invalid syntax (Temp/ipykernel_5728/2290190745.py, line 1)

# 교차 엔트로피(Cross entropy)

- Entropy
$$ H(x) = -\sum_{i=1}^n{p(x_i)logp(x_i)} $$

- Cross entropy
$$ H(x) = -\sum_{i=1}^n{q(x_i)logp(x_i)} $$

- Kinary cross entropy
$$ J(\theta) = -\frac{1}{m}\sum_{i=1}^m{[y_ilog(h_\theta(x_i)) + (1 - y_i)log(1 - h_\theta(x_i))]} $$
$$ where, h_\theta(x_i) = \frac{1}{1 + e^{-\theta_x}} $$

# 오차 함수

- mean squared error
$$ \frac{1}{n}\sum_{i=1}^n{(y_i - y_i^h)^2} $$

- mean absolute error
$$ \frac{1}{n}\sum_{i=1}^n{|y_i - y_i^h|} $$

- mean absolute percentage error
$$ \frac{1}{n}\sum_{i=1}^n{\frac{|y_i - y_i^h|}{|y_i|}} $$

- mean squared logarithmic error
$$ \frac{1}{n}\sum_{i=1}^n{(log(y_i + 1) - log(y_i^h + 1))^2} $$

# 소프트맥스(Softmax)

<span style = 'color:red'>총합이 1인 형태</span>로 바꿔서 계산해주는 함수.

큰 값이 두드러지게 나타나고 작은 값은 더 작아진다.

이 값이 <span style = 'color:red'>교차 엔트로피</span>를 지나 [1., 0., 0.]으로 변하게 되면 우리가 원하는 <span style = 'color:red'>원-핫 인코딩 값</span>, 즉 <span style = 'color:red'>하나만 1이고 나머지는 모두 0인 형태</span>로 전환시킬 수 있다.

$$ p_i = \frac{e^{zi}}{\sum_{j=1}^ke^{zj}}, i = 1, 2, 3, ..., k $$ 

- k개의 클래스
- i 번째 클래스
- $p_i$, i 번째가 정답일 확률

ex)

$ softmax(z) = [\frac{e^{z_1}}{\sum_{j=1}^3{e^{zj}}}, \frac{e^{z_2}}{\sum_{j=1}^3{e^{zj}}}, \frac{e^{z_3}}{\sum_{j=1}^3{e^{zj}}}] = [p_1, p_2, p_3] $