신경망에서 딥러닝으로
===
## 1. 기울기 소실 문제와 활성화 함수
### DNN과 기울기 소실 문제
* DNN은 MLP(다층 퍼셉트론)에서 은닉층의 개수를 증가시킨 것.
  * "딥(deep)"이라는 용어는 은닉층이 깊다는 것을 의미함.
  * 최근 딥러닝은 컴퓨터 비전, 음성 인식, 자연어 처리, 소셜 네트워크 필터링, 기계 번역 등에 적용되어서 인간 전문가에 필적하는 결과를 얻고 있음.
* 기울기 소실(gradient vanishing) 문제 : 은닉층이 많아지면 출력층에서 계산된 기울기가 역전파되다가 값이 점점 작아져서 없어짐.
* 과잉 적합(over fitting)
  * 퍼셉트론에서는 계단 함수(step function)를 활성화 함수로 사용했지만, MLP에서는 다양한 비선형 함수들을 활성화 함수로 사용함.
  * Sigmoid, TanH, ReLU 등
* 다층 퍼셉트론이 오차 역전파를 만나 신경망이 되었고, 신경망은 XOR 문제를 해결.
* 신경망을 쌓아 올려도 사람처럼 생각하고 판단하는 인공지는이 완성되지는 않음.   
→ 원인은 기울기 소실 문제.
### 기울기 소실 문제를 해결하기 위한 활성화 함수의 변화
* 가중치를 수정하려면 미분 값, 즉 기울기가 필요함. 층이 늘어나면서 기울기 값이 점점 작아져 맨 처음 층까지 전달되지 않는 기울기 소실 문제 발생.
  * 기울기 소실 문제가 발생하기 시작한 것은 활성화 함수로 사용된 시그모이드 함수의 특성 때문.
  * 시그모이드 함수의 특성상 아주 큰 양수나 아주 큰 음수가 들어오면 출력이 포화되어서 거의 0이 됨.
  * 시그모이드 함수를 미분하면 최대치가 0.3이므로 1보다 작으므로 계속 곱하다 보면 0에 가까워짐.
  * 이를 대체하기 위해 활성화 함수를 시그모이드가 아닌 다른 함수들로 대체함.
    * tanH, ReLU, softplus 등
        1. Hyperbolic Tangent function
           * 미분한 값의 범위가 함께 확장되는 효과를 가져옴.
           * 여전히 1보다 작은 값이 존재하므로 기울기 소실 문제는 사라지지 않음.
        2. ReLU function
           * 시그모이드 함수의 대안으로 떠오르며 현재 가장 많이 사용되는 활성화 함수임.
           * 여러 은닉층을 거치며 곱해지더라도 맨 처음 층까지 사라지지 않고 남아있을 수 있음.
           * 간단한 방법을 통해 여러 층을 쌓을 수 있게 했고, 딥러닝의 발전에 속도가 붙게 됨.
        3. softplus function
           * 이후 렐루의 0이 되는 순간을 완화
## 2. 속도와 정확도 문제를 해결하는 고급 경사 하강법
* 경사 하강법은 정확하게 가중치를 찾아가지만, 한 번 업데이트할 때마다 전체 데이터를 미분해야 하므로 계산량이 매우 많다는 단점이 있음.
* 경사 하강법의 불필요하게 많은 계산량은 속도를 느리게 할 뿐 아니라, 최적 해를 찾기 전에 최적화 과정을 멈추게 할 수도 있음.
* 이러한 점을 보완한 고급 경사 하강법이 등장하면서 딥러닝의 발전 속도는 더 빨라짐.
### 1. 확률적 경사 하강법(Stochastic Gradient Descent, SGD)
* 전체 데이터를 사용하는 것이 아니라, 랜덤하게 추출한 일부 데이터를 사용함.
* 일부 데이터를 사용하므로 더 빨리 그리고 자주 업데이트를 하는 것이 가능해짐.
* 속도가 빠르고 최적 해에 근사한 값을 찾아낸다는 장점 덕분에 경사 하강법의 대안으로 사용됨.   
<img src="C:/Users/user/Desktop/Vocational_Training/FinTech/images/SGD.png">

### 2. 모멘텀(Momentum)
* 모멘텀이란 단어는 '관성, 탄력, 가속도'라는 뜻.
* 모멘텀 SGD란 말 그대로 경사 하강법에 탄력을 더해 주는 것.
* 다시 말해서, 경사 하강법과 마찬가지로 매번 기울기를 구하지만, 이를 통해 오차를 수정하기 전 바로 앞 수정 값과 방향$(+, -)$을 참고하여 같은 방향으로 일정한 비율만 수정되게 하는 방법.
* 수정 방향이 양수$(+)$ 방향으로 한 번, 음수$(-)$ 방향으로 한 번 지그재그로 일어나는 현상이 줄어들고, 이전 이동 값을 고려하여 일정 비율만큼만 다음 값을 결정하므로 관성의 효과를 낼 수 있음.   
<img src="C:/Users/user/Desktop/Vocational_Training/FinTech/images/momentum.png">

### 3. 현재 가장 많이 사용되는 고급 경사 하강법
* 아담(ADAM) : Momentum과 RMSProp 방법을 합친 방법
  * 정확도와 보폭 크기 개선
  * keras.optimizers.Adam(lr, beta_1, beta_2, epsilon, decay)
  * RMPSProp : Adagrad의 보폭 민감도를 보완한 방법
  * Adagrad : 변수의 업데이트가 잦으면 학습률을 적게하여 이동 보폭을 조절하는 방법.
### 4. 손실함수
* 손실 함수로는 이제까지는 제곱 오차 함수(Mean Squared Error : MSE)
$$\Epsilon=\frac{1}{2}\displaystyle\sum_{i=1}^n(t-o)^2$$
* 노드의 활성화 함수로 시그모이드(sigmoid)가 사용된다면 MSE는 저속 수렴 문제(slow convergence)에 부딪치게 됨.
  * 예를 들어서 목표값이 0.0이고 출력값이 10.0이라고 하면, 차이는 무려 10.0이나 되지만 시그모이드 함수의 그래디언트는 거의 0이 됨.
  * 반대로 목표값이 0.0이고 출력값이 1.0이라고 하면, 차이는 1.0뿐이지만 그래디언트는 0.2 정도가 나옴.
  * 이것은 마치 시험 성적이 안좋은 학생에게 더 좋은 학점을 주는 격.
## 3. 코드 실습

In [4]:
import tensorflow as tf

batch_size = 128    # 가중치를 변경하기 전에 처리하는 샘플의 개수
num_classes = 10    # 출력 클래스의 개수
epochs = 20         # 에포크의 개수

# 데이터를 학습 데이터와 테스트 데이터로 나눔.
(x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data()

# 입력 이미지를 2차원에서 1차원 벡터로 변경함.
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)

# 입력 이미지의 픽셀 값이 0.0에서 1.0 사이의 값이 되게 함.
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

# 클래스의 개수에 따라서 하나의 출력 픽셀만이 1이 되게 함.
# 예들 들면 1 0 0 0 0 0 0 0 0 0 과 같음.

y_train = tf.keras.utils.to_categorical(y_train, num_classes)
y_test = tf.keras.utils.to_categorical(y_test, num_classes)

# 신경망의 모델을 구축함.
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Dense(512, activation="sigmoid", input_shape=(784,)))
model.add(tf.keras.layers.Dense(num_classes, activation="sigmoid"))

model.summary()

sgd = tf.keras.optimizers.SGD(lr=0.1)

# 손실 함수를 제곱 오차 함수로 설정하고, 학습 알고리즘은 sgd 방식으로 함.
model.compile(loss="mean_squared_error",
            optimizer = sgd,
            metrics = ["accuracy"])

# 학습을 수행함.
history = model.fit(x_train, y_train,
                batch_size = batch_size,
                epochs = epochs)

# 학습을 평가함.
score = model.evaluate(x_test, y_test, verbose=0)
print(f"테스트 손실값 : {score[0]}")
print(f"테스트 정확도 : {score[1]}")

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_6 (Dense)             (None, 512)               401920    
                                                                 
 dense_7 (Dense)             (None, 10)                5130      
                                                                 
Total params: 407,050
Trainable params: 407,050
Non-trainable params: 0
_________________________________________________________________
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
테스트 손실값 : 0.031353116035461426
테스트 정확도 : 0.8655999898910522
