#### Gradient Descent

> - First-order iterative optimization algorithm for finding a local minimum of a differentiable function.

### Important Concepts in Optimization

> #### Generalization
> - Training error와 Test error 사이의 차이를 의미
> - Generalization performance가 좋다는 것은 네트워크의 성능이 Training error와 비슷하게 나올것이라는 의미

> #### Underfitting vs. Overfitting
> - Overfitting : train data에 잘 작동되지만 test data에 잘 작동하지 않는 네트워크
> - Underfitting : train data에도 잘 작동하지 않는 네트워크

> #### Cross-validation
> - training data를 $k$개로 나눈 다음에 $k-1$개로 학습시키고 나머지 하나는 validation data로 네트워크를 검증한다.

> #### Bias and Variance
> - <img src="../../image/day12_1.png" width = 300 align="left">

> - **Bias and Variance Tradeoff**
> - $\mathrm{Given} \mathcal{D} = \{(x_i, t_i)\}_{i=1}^N, \mathrm{where} t = f(x) + \epsilon\ \mathrm{and}\ \epsilon \thicksim \mathcal{N}(0, \sigma^2)$
> - **cost**를 minimize한다는  것은 **`bias^2`**, **`variance`**, **`noise`**를 줄이는 것과 동일하다.
    - 이때 하나를 줄이면 다른 값의 크기가 커진다.
> - $\mathbb{E} \begin{bmatrix} (t-\hat{f})^2 \end{bmatrix} = \mathbb{E} \begin{bmatrix} (t-f+f-\hat{f})^2 \end{bmatrix} = \mathbb{E} \begin{bmatrix} (f-\mathbb{E}[\hat{f}]^2)^2 \end{bmatrix} + \mathbb{E} \begin{bmatrix} (\mathbb{E}[\hat{f}]-\hat{f})^2 \end{bmatrix} + \mathbb{E} [\epsilon]$
> - **cost** = **`bias^2`** + **`variance`** + **`noise`**

> #### Bootstrapping
> - Bootstrapping is any test or metric that uses random sampling with replacement.
> - 학습데이터가 고정되어 있을 때 여러 부분집합을 만들어 여러 모델을 생성하는 것

> #### Bagging vs. Boosing
> - **`Bagging`**(**B**ootstrapping **agg**regat**ing**) 
> - Boostrapping으로 학습된 여러 모델 사용
> - 여러 모델으로부터 나온 값들의 평균 또는 voting으로 결과값 도출
> - Ensemble이라고도 불린다.
> - **`Boosting`**
> - 약한 학습기를 생성 후 오차가 큰 데이터를 바탕으로 다시 모델 생성을 반복
> - weak learner를 sequence하게 만들어 하나의 strong learner를 생성하는 것

### Gradient Descent Methods

> - **Stochastic gradient descent**
> - 전체 데이터 중 **하나씩**만 계산하는 방식

> - **Mini-batch gradient descent**
> - 데이터의 일부 **batch size만큼**만 계산하는 방식

> - **Batch gradient descent**
> - **전체 데이터를 이용**해 계산하는 방식

> #### Gradient Descent
> - $W_{t+1} \leftarrow W_t - \eta g_t$
> - $W$ : Weight
> - $\eta$ : Learning rate
> - 적절한 Learning rate를 찾는게 핵심

> #### Momentum
> - $a_{t+1} \leftarrow \beta a_t + g_t$
> - $W_{t+1} \leftarrow W_t - \eta a_{t+1}$
> - $\beta$ : momentum
> - $a_{t+1}$ : accumulation

> #### Nesterov Accelerated Gradient (NAG)
> - $a_{t+1} \leftarrow \beta a_t + \nabla \mathcal{L}(W_t - \eta \beta a_t)$
> - $W_{t+1} \leftarrow W_t - \eta a_{t+1}$
> - $\nabla \mathcal{L}(W_t - \eta \beta a_t)$ : Lookahead gradient

> #### Adagrad
> - $W_{t+1} = W_t - \frac{\eta}{\sqrt{G_t + \epsilon}} g_t$
> - $G_t$ : Sum of gradient squares
> - 뒤로 갈수록 학습이 점점 멈춰지는 문제

> #### Adadelta
> - Adagrad의 문제점을 개선한 optimizer
> - learning rate가 없다.

> #### RMSprop
> - $G_t = \gamma G_{t-1} + (1-\gamma) g_t^2$
> - $W_{t+1} = W_t - \frac{\eta}{\sqrt{G_t + \epsilon}} g_t$
> - $G_t$ : EMA of gradient squares
> - $\eta$ : step size

> #### Adam
> - $m_t = \beta_1 m_{t-1} + (1-\beta_1) g_t$
> - $v_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$
> - $W_{t+1} = W_t - \frac{\eta}{\sqrt{v_t + \epsilon}} \frac{\sqrt{1-\beta_2^t}}{1-\beta_1^t} m_t$
> - $m_t$ : Momentum
> - $v_t$ : EMA of gradient squares

### Regularization

> #### Early Stopping
> - Validation error의 값이 어느 시점에서 커지기 시작할 때 Stop

> #### Parameter Norm Penalty
> - $\mathrm{total cost} = \mathrm{loss}(\mathcal{D}; W) + \frac{\alpha}{2} \Vert W \Vert_2^2$

> #### Data Augmentation
> - 주어진 data를 활용해 data 수를 늘리는 방법

> #### Noise Robustness
> - 입력 data, weights에 noise를 추가하는 방법

> #### Label Smoothing
> - Data 두 개를 뽑아서 mix 해주는 방법
> - Decision boundary를 부드럽게 만들어주는 효과
> - Mixup, CutMix

> #### Dropout
> - weight의 일부를 0으로 바꿔주는 방법

> #### Batch Normalization
> - 각 layer에 들어갈 값들을 정규화 시켜주는 방법
> - 정규화 종류 : Batch, Layer, Instance, Group Norm
