# 최적화(Optimize)
- 모델이 예측한 결과와 정답간의 차이(오차)를 가장 적게 만드는 Parameter를 찾는 과정을 최적화라 함
- 모델의 예측값 실제 값의 차이를 계산하는 함수를 만들고 그 값이 최소가 되는 지점을 찾는 작업을 한다


## 최적화 문제
- 함수 f(w)의 값을 최소화(또는 최대한) 하는 변수 w(파라미터)를 찾는 것
$$
w_{i} = \arg \min_w f(w) 
$$

## 손실함수(Loss Function), 비용함수(Cost Function), 목적함수(Object Fuction), 오차함수(Error Function)
- 모델의 예측한 값과 실제값 사이의 차이를 정의하는 함수로 모델이 학습을 할 때 사용된다
- 이 함수의 반환값(Loss)을 최소화하는 파라미터를 찾는 것이 최적화의 목적
- 해결하려는 문제에 맞춰 Loss 함수를 정의
    - Classification(분류)의 경우 cross entropy를 사용
    - Regression(회귀)의 경우 MSE(Mean Squared Error)를 사용

## 최적화 문제를 해결하는 방법
- Loss 함수 최적화 함수를 찾는다
    - Loss를 최소화하는 weight들을 찾는 함수(공식)을 찾는다
    - Feature와 sample수가 많아 질 수록 계산량이 급증
    - 최적화 함수가 없는 Loss함수도 있다
- **경사하강법(Gradient Descent)**
    - 값을 조금씩 조금씩 조정해나가면서 최소값을 찾는다

## 경사하강법(Gradient Descent)
- 다양한 종류의 문제에서 최적의 해법을 찾을 수 있는 **일반적인 최적화 알고리즘**
- 손실함수를 최소화하는 파라미터를 찾기위해 반복해서 조정 
    - 파라미터 벡터 $W$에 대해 손실함수의 현재 gradient(경사,기울기)를 계산
    - gradient가 감소하는 방향으로 벡터 $W$를 조정
    - gradient가 0이 될때 까지 반복
- gradient가 양수이면 loss와 weight가 비례관계란 의미이므로 loss를 더 작게 하려면 weight가 작아져야 한다    
- gradient가 음수이면 loss와 weight가 반비례관계란 의미이므로 loss를 더 작게 하려면 weight가 커져야 한다

![image](https://androidkt.com/wp-content/uploads/2022/09/Learning-Rate.jpg)

### 파라미터 조정

$$
W_{new} = W-\alpha\frac{\partial}{\partial {W}}cost(W)
$$


$W$: 파라미터<br>$\alpha$:학습률

- 학습률 (Learning rate)
    - 기울기에 따라 이동할 step의 크기. 경사하강법 알고리즘에서 지정해야하는 하이퍼파라미터
    - 학습률을 너무 작게 잡으면 최소값에 수렴하기 위해 많은 반복을 진행해야해 시간이 오래걸림
    - 학습률을 너무 크게 잡으면 왔다 갔다 하다가 오히려 더 큰 값으로 발산하여 최소값에 수렴하지 못함

In [1]:
def loss(weight):
    return (weight-1)**2 + 2

In [2]:
# 위의 loss함수의 도함수
def derived_loss(weight):
    return 2*(weight-1)

In [3]:
print('w=1, 오차:', loss(1))
print('w=1, 기울기:', derived_loss(1))

w=1, 오차: 2
w=1, 기울기: 0


In [4]:
loss(5), derived_loss(5)

(18, 8)

In [5]:
weight = 5
lr = 0.1
new_weight = weight - lr*derived_loss(weight)
new_weight

4.2

In [6]:
weight = 4.2
lr = 0.1
new_weight = weight - lr*derived_loss(weight)
new_weight

3.56

In [7]:
weight = 3.56
lr = 0.1
new_weight = weight - lr*derived_loss(weight)
new_weight

3.048

### 반복문을 이용해 gradient가 0이 되는 지점의 weight 찾기

In [8]:
import numpy as np
np.random.seed(0)

learning_rate = 0.4

max_iter = 100

weight = np.random.randint(-2, 3)
weight_list = [weight]
iter_cnt = 0

while True:
    if derived_loss(weight) == 0:
        break
    if iter_cnt == max_iter:
        break
    
    weight = weight - learning_rate * derived_loss(weight)
    weight_list.append(weight)
    iter_cnt += 1

In [9]:
print(iter_cnt)
print(weight_list)

23
[2, 1.2, 1.04, 1.008, 1.0016, 1.00032, 1.000064, 1.0000128, 1.00000256, 1.000000512, 1.0000001024, 1.00000002048, 1.000000004096, 1.0000000008192, 1.00000000016384, 1.000000000032768, 1.0000000000065536, 1.0000000000013107, 1.0000000000002622, 1.0000000000000524, 1.0000000000000104, 1.000000000000002, 1.0000000000000004, 1.0]


In [10]:
loss(0.9), loss(1.0), loss(1.1)

(2.01, 2.0, 2.0100000000000002)