### Loss function

Loss는 머신러닝이 학습을 얼마나 잘 하고 있는지 확인하는 지표입니다. 모델이 예측한 결과와 실제 결과가 얼마나 차이가 나는지를 계산하여 이를 최소화 하는 방향으로 학습을 진행합니다.

회귀 : 예측 값이 숫자값일때
- MSE(Mean square error)
- MAE(Mean absolute error)

분류 : 예측 값이 범주값일떄
- Cross Entropy

In [1]:
import numpy as np
def mae(y_true, y_pred):
    return np.abs(y_true - y_pred).mean()

def mse(y_true, y_pred):
    return np.square(y_true - y_pred).mean()

In [5]:
y_true = np.array([1,2,3,4,5,6])
y_pred = np.array([1,3,4,4,5,9])
print("MAE: ",mae(y_true,y_pred))
print("MSE: ",mse(y_true,y_pred))

MAE:  0.8333333333333334
MSE:  1.8333333333333333


#### Cross Entropy

![image](http://androidkt.com/wp-content/uploads/2021/05/Selection_098.png)

In [7]:
y_pred = np.array([0.001, 0.9, 0.001, 0.098])
y_true = np.array([0, 0, 0, 1])

def cross_entropy_error(y_true,y_pred):
    eps = 1e-7
    return -np.sum(np.log(y_pred+eps) * y_true)
cross_entropy_error(y_true,y_pred)  

2.3227867799039226

### Optimization

Optimization이란 모델이 가지고 있는 파라미터들을 갱신해나가는 알고리즘입니다.
앞선 머신러닝에서 w와 b의 값이 변하는 것을 확인할 수 있었는데요, 이는 MSE의 미분 값을 토대로 파라미터가 학습해나가는 과정입니다. 이 때 learning rate라는 변수를 통해 학습의 정도를 조절하여 모델이 최적화되는 과정을 확인할 수 있었습니다.

머신러닝 및 딥러닝에서 자주 사용하는 optimizer는 다음과 같습니다.

- Gradient Descent
- Momentum
- Root Mean Square Propatation(RMSProp)
- Adam

#### Gradient Descent

파라미터가 가지고 있는 미분값을 토대로 갱신해나가는 최적화 알고리즘입니다.

- W=W−αdW
- b=b−αdb
- α : learning rate

![image](https://t1.daumcdn.net/cfile/tistory/994F59375D818E5E36)

#### Gradient with momentum
Gradient descent에 momentum 기법을 적용한 알고리즘입니다.
momentum가 기울기의 지수 가중 편중치를 산출하여 weight를 업데이트하게 해줌으로써 속도가 더욱 빨라지고 diverge하거나 local minimum에 빠지는 것을 방지해줍니다.

$v_{dW}=β*v_{dW}+(1−β)d_{W}$

$v_{db} =β*v_{db} +(1−β)*db$

$W=W−α*v_{dW}$

$​b=b−α*v_{db}$


#### RMSprop

RMSprop 역시 기울기 강하의 속도를 증가시킵니다.

$S_{dW} =β_2S_{dW} +(1−β_2)dW^2$

$S_{db} =β_2S_{db} +(1−β_2)db^2$
 
$W=W−αdW/\sqrt{S_{dW}+ϵ}$

$​b=b−αdW/\sqrt{S_{db}+ϵ}$
​


#### Adam

모멘텀과 RMSProp을 섞은 최적화 알고리즘입니다.

Momentum의 $\beta_1$와 RMSprop의 $\beta_2$를 각각 파라미터로 받아 경사하강의 속도를 조정해줍니다.

![image](https://blog.kakaocdn.net/dn/2gQ6q/btqX0pphrUe/2wAOBFAAb4TIaamm3Xoj70/img.png)

### Backpropagation

여기서 문제는, 어떻게 dW와 db를 구할 수 있을까?
모델이 input으로부터 진행하여 output을 내는 과정을 Forward propagation이라고 한다면,
반대로 output으로부터 input을 역방향을 통하여 미분값들을 구하는 과정을 역전파(backpropagation)라고 합니다.

Input과 output, 그리고 loss가 계산된다면, 역전파는 이들의 미분값을 chain rule을 통해 곱해가면서 파라미터가 가진 미분값을 구하게 됩니다. 

![image](https://images.velog.io/images/fbdp1202/post/e97416eb-12e7-4f28-88d9-04ddf746f74c/cs231n-04-007-Backpropagation_fig.png)
