# 오류 역전파(Back Propagation)

<span style = 'color:red'>가중치를 몰라도 문제를 해결</span>하기 위해 개발된 방법.

분류 중 에러가 발생하면 에러가 걸린 레이어를 뒤쪽으로 보낸다. (교재 116p)

$ x_1 -> w_1x_1 = p_1  -> p_1이 시그모이드를 만나 y = \frac{1}{a + e^{-p_1}} -> w_2y = p_2 -> p_2가 시그모이드를 만나 z = \frac{1}{1 + e^{-p_2}} 의 순서대로 진행되며 $

$ z(= 0 ~1)를 이용하여 L(LossFunction) = -\frac{1}{2}(d - z)^2 을 구할 수 있다. $

* $ d  = 0 ~ 1 사이의 값 $

$$ w_1^{(n+1)} = w_1^{(n)} - \gamma\frac{dL(w^{(n)})}{dw_1} $$

$$ w_2^{(m+1)} = w_2^{(m)} - \gamma\frac{dL(w^{(m)})}{dw_2} $$

% 가중치($w$)와 바이어스($b$)를 구하기 위해서는 경사하강법을 사용한다.

- $ w_2 $ 구하기 (경사 하강법을 활용)

$$ \frac{dL}{dw_2} = \frac{dL}{dz} * \frac{z}{dp_2} * \frac{p_2}{dw_2} = (d - z) * z(1 - z) * y $$

- $ w_1 $ 구하기

$$ \frac{dL}{dw_1} = \frac{dL}{dz} * \frac{dz}{dp_2} * \frac{dp_2}{dy} * \frac{dy}{dp_1} * \frac{dp_1}{dw1} = (d - z) * z(1 - z) * w_2 * y(y - y) * x_1 $$

위의 식에서 $ p_2 $를 $ w_2 $로 미분하고, 아래 식에서 $ p_2 $를 $ y $로 미분한 이유는 주어진 식($ \frac{dL}{dw_2}, \frac{dL}{dw_1} $)을 만족 시키기 위함이다.

다만, 시그모이드 함수를 계속해서 미분하다보면(데이터의 양이 늘어난다면) 1보다 작은 수가 계속 곱해져 0에 가까워진다.

즉, 여러 층을 거칠수록 기울기가 사라져 가중치를 수정하기가 어려워진다.

-> 이런 문제를 해결하기 위한 모델 
1. 하이퍼블릭 탄젠트(tant) : 범위를 -1 ~ 1로 잡는다. 하지만 여전히 0보다 작은 값이 있어 기울기 소실이 발생.
2. 렐루(ReLU) : 0보다 작을 때는 무조건 0, 0보다 큰 수는 x의 값을 그대로 사용.
3. 소프트 플러스(softplus) : 렐루(ReLU)의 변형 함수. 0보다 작은 값에 -를 사용.

# [확률적 경사 하강법(Stochastic Gradient Descent, SGD)](https://twinw.tistory.com/247)

경사 하강법은 불필요하게 많은 계산량은 속도를 느리게 할 뿐만 아니라, 최적 해를 찾기 전에 최적화 과정을 멈출 수도 있다.

이러한 문제를 해결하는 것이 확률적 경사 하강법으로 전체 데이터가 아닌 <span style = 'color:red'>랜덤하게 추출한 일부 데이터를 사용</span>.

중간 결과의 진폭이 크고 불안정해 보일 수도 있지만, <span style = 'color:red'>속도가 확연히 빠르면서도 최적 해에 근사한 값을 찾아낸다</span>.

# [모멘텀(momentum)](https://twinw.tistory.com/247)

경사 하강법에 탄성을 추가.

오차를 수정하기 바로 전에 <span style = 'color:red'>앞 수정 값과 방향(+, -)을 참고</span>하여 같은 방향으로 일정한 비율만 수정.

# [아담(Adam)](https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=tinz6461&logNo=221589073944)

모멘텀과 알엠에스트롭 방법을 합친 결과.

In [1]:
keras.optimizer.Adam(lr = 0.001, beta_1 = 0.9, beta_2 = 0.999, epsilon = 1e - 08, decay = 0.0)

SyntaxError: invalid syntax (Temp/ipykernel_5728/2290190745.py, line 1)

# 교차 엔트로피(Cross entropy)

- Entropy
$$ H(x) = -\sum_{i=1}^n{p(x_i)logp(x_i)} $$

- Cross entropy
$$ H(x) = -\sum_{i=1}^n{q(x_i)logp(x_i)} $$

- Kinary cross entropy
$$ J(\theta) = -\frac{1}{m}\sum_{i=1}^m{[y_ilog(h_\theta(x_i)) + (1 - y_i)log(1 - h_\theta(x_i))]} $$
$$ where, h_\theta(x_i) = \frac{1}{1 + e^{-\theta_x}} $$

# 오차 함수

- mean squared error
$$ \frac{1}{n}\sum_{i=1}^n{(y_i - y_i^h)^2} $$

- mean absolute error
$$ \frac{1}{n}\sum_{i=1}^n{|y_i - y_i^h|} $$

- mean absolute percentage error
$$ \frac{1}{n}\sum_{i=1}^n{\frac{|y_i - y_i^h|}{|y_i|}} $$

- mean squared logarithmic error
$$ \frac{1}{n}\sum_{i=1}^n{(log(y_i + 1) - log(y_i^h + 1))^2} $$

# 소프트맥스(Softmax)

<span style = 'color:red'>총합이 1인 형태</span>로 바꿔서 계산해주는 함수.

큰 값이 두드러지게 나타나고 작은 값은 더 작아진다.

이 값이 <span style = 'color:red'>교차 엔트로피</span>를 지나 [1., 0., 0.]으로 변하게 되면 우리가 원하는 <span style = 'color:red'>원-핫 인코딩 값</span>, 즉 <span style = 'color:red'>하나만 1이고 나머지는 모두 0인 형태</span>로 전환시킬 수 있다.

$$ p_i = \frac{e^{zi}}{\sum_{j=1}^ke^{zj}}, i = 1, 2, 3, ..., k $$ 

- k개의 클래스
- i 번째 클래스
- $p_i$, i 번째가 정답일 확률

ex)

$ softmax(z) = [\frac{e^{z_1}}{\sum_{j=1}^3{e^{zj}}}, \frac{e^{z_2}}{\sum_{j=1}^3{e^{zj}}}, \frac{e^{z_3}}{\sum_{j=1}^3{e^{zj}}}] = [p_1, p_2, p_3] $

# 모델의 정의

In [3]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

import numpy as np
import tensorflow as tf

In [10]:
np.random.seed(3)
tf.random.set_seed(3)

data_set = np.loadtxt('../교재 코드/deeplearning-for-everyone-2nd-master/dataset/ThoraricSurgery.CSV',
                     delimiter = ',')

In [16]:
print(data_set); print()

print(data_set.shape);print()

[[293.     1.     3.8  ...   0.    62.     0.  ]
 [  1.     2.     2.88 ...   0.    60.     0.  ]
 [  8.     2.     3.19 ...   0.    66.     1.  ]
 ...
 [406.     6.     5.36 ...   0.    62.     0.  ]
 [ 25.     8.     4.32 ...   0.    58.     1.  ]
 [447.     8.     5.2  ...   0.    49.     0.  ]]

(470, 18)



In [18]:
x = data_set[:, 0:17]
y = data_set[:, 17]

model = Sequential()                                            # 딥러닝의 구조를 짜고 층을 설정
model.add(Dense(30, input_dim=17, activation='relu'))               # 딥러닝의 구조를 relu로 설정 (model.add() 함수로 새로운 층 형성)
model.add(Dense(1, activation='sigmoid'))                           # 딥러닝의 구조는 sigmoid로 설정

model.compile(loss='mean_squared_error', optimizer='adam',      # 딥러닝 실행
             metrics=['accuracy'])
model.fit(x, y, epochs=100, batch_size=10)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


<keras.callbacks.History at 0x1d638dc7fa0>

1. model = Sequential()

- 각 층은 Dense 함수를 통해 구체적으로 구조를 결정.

2. Dense(30, input_dim=17, adctivation='relu') 에서

- 30은 30개의 노드를 만들겠다는 뜻.
- input_dim이라는 변수는 입력 데이터에서 몇 개의 값을 가져올지를 정함.
- activation에서 활성 함수를 정함.

3. 두 번째 Dense(1, activation='sigmoid') 에서

- 첫 번째 Dense의 형성이 끝나고 out_put을 만듦.
- out_put에서는 activation으로 sigmoid 활성 함수를 선정.

4. model.compile(loss='mean_squared_error', optimizer='adam', metrics=['accuracy'])

- 앞서 지정한 모델이 효과적으로 구현될 수 있게 여러 가지 환경을 설정해 주면서 컴파일하는 부분.
- 어떤 <span style = 'color:red'>오차</span>를 사용할지 지정. (mean_squared_error : 평균 제곱 오차)
- metrics() 함수는 모델이 컴파일될 때 모델 수행 결과를 나타내게끔 설정.

5. model.fit(x, y, epochs=100, batch_size=10)

- 앞서 컴파일 단계에서 정해진 환경을 주어진 데이터를 불러 실행시킬 때 사용되는 함수.
- epochs=100은 각 샘플이 처음부터 끝가지 100번 재사용될 때까지 실행을 반복.
- batch_size=10는 전체 470개의 샘플을 10개씩 끊어 넣으라는 뜻.(batch_size가 너무 크면 학습 속도가 느려지고, 너무 작으면 각 실행 값의 편차가 생겨서 전체 결과값이 불안정해질 수 있다.)

# [Confusion Marix](https://en.wikipedia.org/wiki/Confusion_matrix)

- $ Accuracy(정확도) = \frac{TP + TN}{N} $

- $ Recall = \frac{TP}{TP + FN} $ 

- $ Precision = \frac{TP}{TP + FP} $

- $ Specificity(특이도) = \frac{TN}{FP + TN} $

여기서, TP : 그렇다의 정답(+, +), FN : 그렇다의 오답(+, -), FP : 그렇지 않다의 정답(-, +), TN : 그렇지 않다의 오답(-, -)

=> () 안의 내용은 실제값, 예측값의 순서로 +일 경우는 긍정, -는 부정.

# [F-score](https://en.wikipedia.org/wiki/F-score)

$$ F_1 = \frac{2}{recall^{-1} + precision^{-1}} = 2\frac{precision * recall}{precision + recall} = \frac{tp}{tp + \frac{1}{2}{(fp + fn)}} $$