## 신경망과 딥러닝
# 신경망 이슈들

### 경사하강법 샘플링 방법
- 배치 학습 (Batch Learning) : 전체 데이터에 대해 손실값 적용 후 가중치 변경 (기존 방법)
- 확률적 경사하강법 (SGD, Stochastic Gradient Descent) : 샘플 하나하나에 대해 가중치 변경
- 미니배치(Minibatch) : 복수의 샘플로 묶어 가중치 변경 (가장 일반적인 방법)

- 출처: https://datascience-enthusiast.com/DL/Optimization_methods.html

<img src="https://datascience-enthusiast.com/figures/kiank_sgd.png"><br>
<img src="https://datascience-enthusiast.com/figures/kiank_minibatch.png"><br>
- momentum
<img src="https://datascience-enthusiast.com/figures/opt_momentum.png">

### 경사하강법 종류
- https://en.wikipedia.org/wiki/Stochastic_gradient_descent 참고

In [1]:
from tensorflow import keras

In [3]:
help(keras.optimizers.SGD)

Help on class SGD in module tensorflow.python.keras.optimizer_v2.gradient_descent:

class SGD(tensorflow.python.keras.optimizer_v2.optimizer_v2.OptimizerV2)
 |  SGD(learning_rate=0.01, momentum=0.0, nesterov=False, name='SGD', **kwargs)
 |  
 |  Gradient descent (with momentum) optimizer.
 |  
 |  Update rule for parameter `w` with gradient `g` when `momentum` is 0:
 |  
 |  ```python
 |  w = w - learning_rate * g
 |  ```
 |  
 |  Update rule when `momentum` is larger than 0:
 |  
 |  ```python
 |  velocity = momentum * velocity - learning_rate * g
 |  w = w + velocity
 |  ```
 |  
 |  When `nesterov=True`, this rule becomes:
 |  
 |  ```python
 |  velocity = momentum * velocity - learning_rate * g
 |  w = w + momentum * velocity - learning_rate * g
 |  ```
 |  
 |  Args:
 |    learning_rate: A `Tensor`, floating point value, or a schedule that is a
 |      `tf.keras.optimizers.schedules.LearningRateSchedule`, or a callable
 |      that takes no arguments and returns the actual value t

#### SGD (Stochastic Gradient Descent)
- 'Stochastic' 은 랜덤하게 샘플을 뽑는다는 의미임
- 기본적인 경사하강법을 샘플에 적용함
- 추가적으로 모멘텀 적용 가능
> $ W(t) = W(t-1) - \eta \cdot \nabla_W Loss + \alpha \cdot \Delta W(t-1) $

<img src='https://tensorflowkorea.files.wordpress.com/2017/03/ec8aa4ed81aceba6b0ec83b7-2017-03-21-ec98a4ed9b84-3-22-52.png?w=625' />

#### Adagrad
- 각 가중치(w) 마다 학습률을 다르게 설정
- 변화가 많았던 가중치는 적게, 변화가 적었던 가중치는 많게 학습률을 적용한다.
> $ W(t) = W(t-1) - { \eta \over \sqrt{\sum \nabla Loss} } \cdot \nabla_W Loss $

#### RMSprop
- Adagrad 의 단점을 개선한 알고리즘
- 학습이 진행될수록 학습률이 너무 작아지는 경향을 보정<br>
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/2964cc8dc82a134dd4f20e42094f56410b0d2d9c' />
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/fc46ae8619e71130c6c8212eec31560cb4891c0a' />

#### Adam
- 모멘텀과 RMSprop 의 장점을 결합<br>
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/e388b9155519b8769930b3764f4dadc20eb593b8' />
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/034d5652b502094ab7f58f95a383e0ec41de5b77' />
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/1625bff4ce904cc83c3cadad4bc1a2ff61422b02' />
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/7c5ea1207fc3574a51d439f84370a989deffa871' />
> <img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/abcd4c729bac933249992e086fa1ba7807e1cd09' />

### 과대적합
- 네트워크 크기 축소
> . 층의 갯수와 각 층의 뉴런 갯수를 줄인다.<br>
> . 층의 갯수와 뉴런 갯수를 정하는 공식은 없기 때문에, 경험적으로 최선의 값을 찾아내어야 한다.

- 가중치 규제 추가
> . 최종 손실값에 각 가중치의 제곱(L2규제)나 절대값(L1규제)를 추가한다.<br>
> . 규제가 클수록 과대적합이 적어진다.<br>
> . 규제가 클수록 w 와 b 값이 0에 가까워진다.

- Dropout 적용
> . 각 층의 출력값 중 일부를 0 으로 만든다.<br>
> . 전체 신경망의 예외 대처능력을 키워준다.<br>
> . 예측시에는 모든 뉴런을 사용하지만 드롭아웃 비율만큼 전달값을 줄여준다.<br>
> . 훈련 시간은 늘어나지만 훨씬 유연한 시스템을 구축할 수 있다.<br>
<img src="https://miro.medium.com/max/1400/1*iWQzxhVlvadk6VAJjsgXgg.png" />
(출처: https://medium.com/@amarbudhiraja/https-medium-com-amarbudhiraja-learning-less-to-learn-better-dropout-in-deep-machine-learning-74334da4bfc5)

### 정규화
- 신경망도 기본적으로 정규화를 적용하여야 한다
- 정규화를 적용하지 않으면 각 속성별로 학습률의 적용효과가 차이가 난다
- 입력값이 스케일이 다르면 학습률을 적절히 조절해 주어야 한다

### 학습률 결정
- 학습률이 크면 발산할 수 있고, 적으면 학습이 너무 느려질수 있다
- 학습 초기에는 학습률을 크게하고, 차차 학습률을 줄여가는 방법이 있다
- 출력층에 가까울수록 학습률을 낮추고, 아래층으로 갈수록 학습률을 높여나가는 방법도 적용할 수 있다

### 가중치 초기화
- 일반적으로 정규분포로 초기화한다
- 초기값에 따라 지역최소값에 갇힐 수도 있고 학습이 빨라질수도 있다

In [5]:
help(keras.layers.Dense)

Help on class Dense in module tensorflow.python.keras.layers.core:

class Dense(tensorflow.python.keras.engine.base_layer.Layer)
 |  Dense(*args, **kwargs)
 |  
 |  Just your regular densely-connected NN layer.
 |  
 |  `Dense` implements the operation:
 |  `output = activation(dot(input, kernel) + bias)`
 |  where `activation` is the element-wise activation function
 |  passed as the `activation` argument, `kernel` is a weights matrix
 |  created by the layer, and `bias` is a bias vector created by the layer
 |  (only applicable if `use_bias` is `True`).
 |  
 |  Note: If the input to the layer has a rank greater than 2, then `Dense`
 |  computes the dot product between the `inputs` and the `kernel` along the
 |  last axis of the `inputs` and axis 1 of the `kernel` (using `tf.tensordot`).
 |  For example, if input has dimensions `(batch_size, d0, d1)`,
 |  then we create a `kernel` with shape `(d1, units)`, and the `kernel` operates
 |  along axis 2 of the `input`, on every sub-tensor

### 기울기 소실 문제 (Vanishing gradient)
- 신경망이 깊을수록 역전파 시 가중치 변경값이 급속도로 줄어드는 경향이 발생한다
- 사전훈련(오토인코더)를 통해 가중치 초기값을 설정하여 해결하는 방법이 있다