In [7]:
from tensorflow import keras

# 11.3. 고속 옵티마이저
- 지금까지 알아본 훈련속도 상승 유도 방법
    - 1) 연결 가중치에 좋은 초기화 전략 사용하기
    - 2) 좋은 활성화함수 활용하기
    - 3) 배치 정규화 사용하기
    - 4) Pre-trained 모델의 일부 재사용하기(전이학습)
- 또 다른 방법이 표준격인 SGD 대신 더 빠른 옵티마이저를 이용하는 것
- 가장 인기있는 옵티마이저로는
    - momentum optimization : 모멘텀 최적화
    - Nestrov accelerated gradient : 네스테로프 가속경사
    - AdaGrad
    - RMSProp
    - Adam
    - Nadam 등이 있음

### 11.3.1. 모멘텀 최적화
- 볼링공을 생각하면, 처음에는 느리게 출발하지만, 종단 속도에 도달할 때까지는 빠르게 가속됨
- 반면, 표준 경사하강법은 경사면을 따라 일정하게 조금씩 내려감
    - 즉, 맨 아래 도착하는데 볼링공의 원리와는 다르게 시간이 좀 더 소요될 것
- 기본적인 경사하강법은 가중치에 대한 비용함수 J(theta)의 그래디언트에 학습률 eta를 곱한 것을 바로 차감하여 theta를 갱신함
    - 즉, new_theta = theta - eta * DELTA_theta * J(theta)
    - 이 식의 특징은 이전 그래디언트가 얼마였는지를 고려하지 않는 것임
        - 따라서 국부적으로 그래디언트가 매우 작은 구간에 들어서면, 속도가 매우 느려질 것
- 모멘텀 최적화는 위의 SGD와 달리 **이전 그래디언트의 값**이 중요함
- 매 반복에서 현재 그래디언트에 학습률 eta를 곱하여 **모멘텀 벡터 : m**에 더하고 이 값을 빼는 방식으로 가중치를 갱신함
    - 즉, SGD에서는 그래디언트가 단순히 속도와 연관되는 개념이었지만, 모멘텀 벡터에서는 **가속도**와 연관되는 개념이 됨
- 그런데 이렇게 될 경우 모멘텀 벡터가 지나치게 커질 수 있음
    - 이를 제한하기 위해 일종의 마찰저항 개념인 **모멘텀 : beta**가 등장
        - 이 값은 0 ~ 1사이로 설정되어야하며, 일반적으로는 0.9를 기본으로 함
- 모멘텀 알고리즘은 정리하면 아래와 같음
    - new_m = beta * m - eta * DELTA_theta * J(theta)
    - new_theta = theta + m
- 만약 그래디언트가 일정하다면, 종단 속도는 학습률 eta를 곱한 그래디언트에 1/(1-beta)를 곱한 값과 같음
    - 즉, 예를 들면 beta = 0.9라면, 종단속도는 10이므로, 일반 경사하강법의 10배 빠르게 진행됨
    - 이렇게 되면 그래디언트가 작은 지역을 효과적으로 탈출할 수 있게 됨
- 따라서 골짜기를 따라 최적점에 도달할 때까지 점점 더 빠르게 내려감
- 또한, 배치 정규화를 사용하지 않는 DNN에서 상위층은 종종 스케일이 매우 다른 입력값을 받게 되는데, 모멘텀 최적화를 이용하면 이를 크게 완화할 수 있음
- 그리고 local optimal(지역 최적점)을 건너뛰는데 큰 역할을 함
- 케라스에서 모멘텀을 이용하려면, optimizer로 SGD를 설정하고, momentum인자를 설정해주면 됨

In [2]:
optimizer = keras.optimizers.SGD(lr = 0.001, momentum = 0.9)

- 물론 튜닝할 하이퍼파라미터가 하나 늘어난다는 단점은 있지만, 일반적으로 일반 경사하강법에 비해 훨씬 더 빠른 속도를 보여줌

### 11.3.2. 네스테로프 가속경사
- 모멘텀 최적화의 변종으로, 네스테로프 가속경사(NAG)라고 불림
- 모멘텀 최적화에서는 그래디언트를 현재 위치 theta에서 계산하여 new_theta를 도출함
- 하지만, 네스테로프 모멘텀 최적화에서는 theta + beta*m의 위치에서 비용함수의 그래디언트를 계산함
- 알고리즘은 다음과 같음
    - new_m = beta * m - eta * DELTA_theta * J(theta + beta * m)
    - new_theta = theta + m
- 일반적으로 모멘텀 벡터가 올바른 방향을 가리킬 것이므로, 이런 식의 변경도 가능한 것
- ![image.png](attachment:image.png)

- 위 그림에서 보면, 원래 위치에서 그래디언트를 이용 한 것보다는 올바른 방향으로 조금 더 나아가서 측정한 그래디언트를 사용하는 것이 조금 더 정확할 것
- 그 결과 네스테로프 업데이트가 최적값에 조금 더 가까움
- 시간이 조금 지나면 이 작은 개선들이 쌓여, NAG가 기본 모멘텀 최적화보다 훨씬 더 빠른 속도를 보여주게 됨
- 케라스에서 사용방법은 기본 모멘텀과 비슷하고, nestrov = True 인자를 설정해주면 됨

In [3]:
optimizer = keras.optimizers.SGD(lr = 0.001, momentum = 0.9, nesterov = True)

### 11.3.3. AdaGrad
- 한쪽이 길쭉한 그릇 문제를 생각해보면, 일반 SGD의 경우 전역 최적점 방향으로 곧장 향하지 않음
    - 가장 가파른 경사를 따라 빠르게 내려가기 시작해서 천천히 골짜기 아래로 이동하게 됨
    - 근데, 처음부터 이를 감지하고 전역 최적점쪽으로 잡아당겼다면 더 빠르게 학습이 되었을 것
- 이 문제를 해결하는 것이 **AdaGrad 알고리즘**으로 가장 가파른 차원을 따라 그래디언트 벡터의 스케일을 감소시켜서 이 문제를 해결할 수 있게 함
- 알고리즘은 다음과 같음
    - new_s = s + DELTA_theta * J(theta) X Delta_theta * J(theta)
    - new_theta = theta - eta * DELTA_theta * J(theta) %/% sqrt(s + epsilon)
- 첫 단계는 그래디언트의 제곱을 벡터 s에 누적함
    - 이 벡터 식은 벡터 s의 각 원소 s_i마다 s_i <- s_i+(sigma * J(theta) / sigma * theta_i)
        - 즉 s_i는 파라미터 theta_i에 대한 비용함수의 편미분을 제곱하여 누적
        - 비용 함수가 특정 i번째 차원을 따라 가파르다면 특정 s_i는 반복이 진행됨에 따라 점점 더 커질 것
- 두 번째 단계는 경사하강법과 거의 동일
    - 한 가지 큰 차이는 그래디언트 벡터를 sqrt(s+epsilon)으로 나누어 스케일을 조정한다는 점
        - %/%는 원소별 나눗셈을 나타냄
        - epsilon은 분모가 0이 되는것을 막기 위한 값으로 일반적으로 10^-10
        - 이 벡터화된 식은 모든 파라미터 theta_i에 대해 동시에 theta_i <- theta_i - (eta * sigma * J(theta))/(sigma * theta_i) / sqrt(s_1 + epsilon)을 계산하는 것과 동일
- 단순하게 요약하자면, 이 알고리즘은 학습률을 감소시키지만, 경사가 완만한 차원보다 가파른 차원에 대해 더 빠르게 감소
    - 이를 **적응적 학습률**이라고 브르며, 전역 최적점 방향으로 좀 더 곧장 가도록 갱신되는데 도움이 됨
- 또한 학습률 파라미터 eta를 덜 튜닝해도 된다는 장점이 있음
    - ![image.png](attachment:image.png)
    - https://i.ytimg.com/vi/GSmW59dM0-o/maxresdefault.jpg

- 다만, AdaGrad는 단순한 2차 방정식 문제에 대해서는 잘 작동하지만, 훈련 과정에서 너무 일찍 멈추는 경우가 있음
    - 학습률이 너무 일찍 감소하여 전역 최적점에 도착하기 전에 알고리즘이 완전히 멈춰버리는 것
- 따라서 케라스에 AdaGrad가 있기는 하지만, DNN에는 활용하면 안됨
    - *선형회귀와 같은 단순 작업에는 효과적일 수 있음*

### 11.3.4. RMSProp
- 위에서 다룬 AdaGrad는 너무 빨리 느려져서(lr의 급격한 감소) 전역 최적점에 수렴하지 못하는 위험이 있음
- RMSprop은 AdaGrad의 원리(그래디언트의 누적)를 가져오되, 가장 최근 반복에서 비롯된 그래디언트만 누적하여 이 문제를 해결함
    - 이를 수행하기 위해 알고리즘의 첫 단계에서 **지수감소**를 사용함
- 식은 아래와 같음
    - new_s = beta * s + (1 - beta)DELTA_theta * J(theta) X DELTA_theta * J(theta)
    - new_theta = theta - eta * DELTA_theta * J(theta) %/% sqrt(s + epsilon)
- 새로운 하이퍼파라미터인 beta(감쇠율)가 생김
    - 얘는 보통 0.9로 설정하고, 일반적으로 기본값이 잘 작동하여 굳이 튜닝할 필요는 없는 경우가 대부분임
- 케라스에는 RMSprop옵티마이저가 있음

In [4]:
optimizer = keras.optimizers.RMSprop(lr = 0.001, rho = 0.9)

- 위 식의 rho 인자가 위 식에서 나온 감쇠율 beta임
- 아주 간단한 문제를 제외하고는 AdaGrad보다 보통 훨씬 좋음
- Adam이 등장하기 전까지 가장 인기있는 옵티마이저였음

### 11.3.5. Adam & Nadam
- Adam : 적응적 모멘트 추정(Adaptive Moment Estimation)
- 모멘텀 최적화와 RMSprop의 아이디어를 합친 것
    - 모멘텀 최적화처럼 지난 그래디언트의 지수 감소 평균을 따름
    - RMSProp처럼 지난 그래디언트 제곱의 지수 감소된 평균을 따름
    - 이를 수식으로 펴현하면 다음과 같음
        - new_m = beta_1 * m - (1-beta_1) * DELTA_theta * J(theta)
            - 그래디언트 평균에 대한 추정(첫 번째 모멘트라고 흔히 부름)
            - beta_1 : 모멘텀 감소 하이퍼파라미터
        - new_s = beta_2 * s + (1-beta_2) * DELTA_theta * J(theta) X DELTA_theta * J(theta)
            - 그래디언트 분산에 대한 추정(두 번째 모멘트라고 흔히 부름)
            - beta_2 : 스케일 감쇠 하이퍼파라미터
        - m_hat = m / (1 - beta_1^t)
            - *t는 1부터 시작하는 반복 횟수
        - s_hat = s / (1 - beta_2^t)
        - new_theta = theta + eta * m_hat %/% sqrt(s_hat + epsilon)
- 1, 2, 5단계를 보면 이게 모멘텀 최적화와 RMSprop과 상당히 닮음
    - 차이는 단계 1에서 지수감소 합 대신 지수감소평균을 계산하는것이지만, 이들은 상수배 차이가 나는 것을 제외하면 사실상 동일함
        - *지수 감소 평균은 지수 감소 합의 1-beta_1배
- 3, 4단계에는 기술적인 설명이 필요한데, m과 s가 0으로 초기화되기 떄문에 훈련 초기에는 당연히 0 쪽으로 치우치게 됨
    - 이 두 단계에서 m과 s의 값을 폭증시키게 됨
- beta_1은 보통 0.9로 초기화하고 beta_2는 0.999로 초기화하며, epsilon은 10^-7과 같은 아주 작은 수로 초기화
- 아담 옵티마이저는 다음과 같이 만들 수 있음

In [2]:
optimizer = keras.optimizers.Adam(lr = 0.001, beta_1 = 0.9, beta_2 = 0.999)

- Adam도 AdaGrad나 RMSProp처럼 적응적 학습률 알고리즘
    - 따라서 eta값을 튜닝해야할 필요성이 적음
    - 기본 값 eta = 0.001을 일반적으로 사용하므로, 일일이 튜닝해줘야하는 SGD보다 사용하기가 아무래도 쉬움

##### AdaMax
- Adam은 위에 기재하였던 식의 2단계를 보면, s에 그래디언트의 제곱을 누적하여 최근 그래디언트에 더 큰 가중치를 부여하는 형식으로 되어있음
- 그리고 5단계에서 epislon과 3, 4단계를 무시하고 보면, Adam은 s의 제곱근으로 파라미터 업데이트의 스케일을 낮추는 구조임
- 즉, Adam은 시간에 따라 감쇠된 그래디언트의 l2 norm으로 파라미터 업데이트의 스케일을 낮춤
    - *l2 norm : 제곱 합의 제곱근
- Adamax는 l2 norm을 l2_infinite norm으로 바꿈
    - 즉, 최댓값으로 바꾸는 것
    - 식 2단계였던 new_s=  beta_2 * s + (1 - beta_2) * DELTA_theta * J(theta) X DELTA_theat * J(theta)를 
        - new_s = max(beta_2 * s, DELETA_theta * J(theta))로 바꾸고 4단계를 삭제해버림
    - 그리고 5단계에서 s에 비례하여 그래디언트 업데이트의 스케일을 낮춤
        - 시간에 따라 감쇠된 그래디언트의 최댓값인 것
- 실전에서는 AdaMax가 Adam보다 더 안정적임
    - But 성능 면에서 일반적으로 Adam이 더 좋아서, Adam을 주로 쓰지만, Adam이 잘 작동하지 않는 케이스에서 시도해볼만한 옵티마이저

##### Nadam
- Adam에 네스테로프 기법을 더한 것
- 종종 Adam보다 좀 더 최적값에 수렴함
- 일반적으로 Nadam이 Adam보다 좋은 성능을 보였지만, RMSProp이 나을 때도 있음

IMG_1AF7C98DDD41-1.jpeg![image.png](attachment:image.png)

### 11.3.6. 학습률 스케쥴링
- 좋은 학습률을 찾는 것은 매우 중요함
- 학습률을 너무 크게 잡을 경우 훈련이 발산해버릴 수 있음
    - 반대로 너무 작게 잡을 경우 수렴이야 하겠지만 매우 오래걸릴 것
    - 조금 크게 잡으면 처음에는 잘 진행되지만, 최적점에 수렴해가면서 요동칠 것
- 학습률도 결국 하이퍼파리미터이기 떄문에 매우 작은 값 ~ 큰 값까지 지수적으로 학습률을 증가시키며 모델을 수백번 반복하여 좋은 학습률을 찾을 수 있음
- 그러나 모델 내에서 일정한 학습률을 유지하는 것보다 더 좋은 방법이 있음
    - 애초에 큰 학습률로 시작하되 loss ft의 기울기가 줄어들며 최적점에 가까워질 때 학습률을 낮추면, 고정된 것보다 더 좋은 성능을 보일 것
- 훈련 과정에서 학습률을 감소시키는 전략에는 여러 가지가 있으며, 이를 **학습 스케쥴**이라고 함

- 널리 이용되는 학습 스케쥴은 아래와 같음
    - 1) 거듭제곱 기반 스케쥴링 : Power Scheduling
        - 학습률을 반복횟수 t에 대한 함수로 설정
            - eta(t) = eta_0 / (1 + t/s)^c로 지정
                - eta(0) : 초기 학습률
                - c : 거듭제곱 수 *일반적으로 1로 지정*
                - s : 스텝횟수 *학습률은 각 스텝마다 감소*
            - s번만큼의 스텝이 반복되면 eta(s) = eta_0 / 2로 줄어들음
                - 추가로 s번 반복되면 eta(2s) = eta_0 / 3으로 ...
            - 보면 처음에는 빠르게 감소하지만, step이 지나가며, 시간이 흐를 수록 느리게 감소함
    - 2) 지수 기반 스케쥴링 : Exponenital Scheduling
        - 학습률을 eta(t) = eta_0 * 0.1 ^ (t/s)으로 설정
            - 학습률이 스텝(s)마다 10배씩 감소할 것
        - 1) 거듭제곱 기반 스케쥴링이 학습률을 갈 수록 천천히 감소시킴
        - 2) 지수 기반 스케쥴링의 경우 스텝마다 꾸준히 10배씩 감소
    - 3) 구간별 고정 스케쥴링 : piecewise constant scheduling
        - 일정 횟수 에포크동안은 일정한 학습률을 이용
        - 그 다음 또 다른 횟수의 에포크동안은 작은 학습률을 사용하는 식
        - *하지만 이렇게 하면 튜닝할 하이퍼파라미터 조합이 너무 많아짐 ㅠㅠ*
    - 4) 성능 기반 스케쥴링 : performance scheduling
        - 매 N스텝마다 검증 오차를 측정하고 오차가 줄지 않으면 lambda 배 만큼 학습률을 감소시키는 전략
    - 5) 1사이클 스케쥴링 : 1cycle scheduling
        - 다른 방식들은 전부 eta를 꾸준히 줄여나갔지만 얘는 좀 다름
            - 훈련의 절반 동안은 초기 학습률 eta_0를 선형적으로 eta_1까지 증가시켰다가, 나머지 절반동안 선형적으로 eta_0까지 감소시킴
            - 그리고 마지막 몇 번의 에포크에서는 학습률을 선형적으로 소수점 n째 자리까지 확 줄여버림
        - eta_1의 경우 최적의 학습률을 찾는 기준 방식을 이용하되, eta_0는 eta_1대비 10배 정도 작은 값으로 진행
        - 모멘텀을 이용할 떄는 처음에 높은 모멘텀(0.95가량의)으로 시작해서 훈련의 처음 절반동안 낮은 모멘텀으로 선형적으로 감소시킴
            - 그 다음 다시 모멘텀을 되돌려서 올려주고, 마지막 몇 번은 최댓값으로 진행
        - 꽤나 좋은 성능을 보여줌
- 많은 연구 결과 성능 기반 스케쥴링과 지수 기반 스케쥴링이 모두 잘 작동했지만, 튜닝이 쉽고 수렴이 좀 더 빠른 지수 기반 스케쥴링이 선호됨
    - *성능 자체는 1사이클이 더 좋은 듯...?*

##### 거듭제곱 기반 스케쥴링
- 케라스에서는 거듭제곱 기반 스케쥴링이 구현하기 가장 쉬움
    - 옵티마이저를 만들 때 decay인자만 지정하면 됨!

In [3]:
optimizer = keras.optimizers.SGD(lr = 0.01, decay = 1e-4)

- decay는 학습률을 나누기 위해 수행할 step수의 역수임
- 기본적으로 케라스는 c를 1로 가정함

##### 지수 기반 스케쥴링
- 먼저 에포크를 받아 학습률을 반환할 함수를 정의해야함

In [4]:
def exponential_decay_fn(epoch):
    return 0.01 * 0.1 ** (epoch / 20)

- eta_0와 s를 하드코딩하고 싶지 않다면, 해당 변수를 설정한 클로저를 반환하는 함수로 만들어도 됨

In [6]:
def exponential_decay(lr0, s):
    def exponential_decay_fn(epoch):
        return lr0 * 0.1 ** (epoch / 20)
    return exponential_decay_fn

exponential_decay_fn = exponential_decay(lr0 = 0.01, s = 20)

- 이제 위 함수를 LearningRateScheduler Callback을 만들어 fit 메서드에 전달하면 됨

In [8]:
lr_scheduler = keras.callbacks.LearningRateScheduler(exponential_decay_fn)
# hist = model.fit(X_tr_scaled, y_tr, [...], callbacks = [lr_scheduler])

- LearnigRateScheduler는 에포크를 시작할 때 마다 옵티마이저의 lr속성을 업데이트함
- 보통은 에포크 한 번에 한 번 업데이트해도 충분한데, 스텝마다 콜백을 할 수도 있음
    - 만약 에포크 마다 스텝이 많다면 스텝마다 lr을 업데이트 하는 것이 좋음
    - *keras.optimizers.schedules를 이용해도 됨
- 스케쥴링 함수는 첫번째 인자로는 학습률을 반환하는 함수를 넣고, 두 번쨰 인자로 현재 학습률을 받을 수 있음
    - 예를 들어 다음과 같이 이전 학습률에 0.1 ^ (1/20)을 곱해서 동일한 지수 감쇠 효과를 보여줄 수 있음

In [9]:
def exponential_decay_fn(epoch, lr):
    return lr * 0.1 ** (1/20)

- 이런 방식의 구현은 옵티마이저의 초기 학습률에만 의존하므로 이를 적절히 설정해야함

- 모델을 저장할 때는 옵티마이저와 학습률이 함께 저장됨
    - 그래서 새로운 스케쥴 함수를 사용해도 아무 문제없이 훈련된 모델을 로드하여 중지된 지점부터 훈련을 계속 진행할 수 있음
- 그런데 여기서 문제가, 만약 스케쥴 함수가 epoch을 인자로 받으면 문제가 됨
    - 모델을 저장해도, callback인자를 사용해도 epoch은 저장되지 않기때문에!!!
        - epoch은 fit() 메서드를 호출할 떄마다 0으로 초기화됨
    - 또한 중지된 지점부터 모델훈련을 이어가면, 매우 큰 학습률이 만들어져서 모델 가중치가 망가질 가능성이 높음
- 이를 대비하기 위한 방법은 특정 epoch에서 시작하도록 fit()메서드의 initial_epoch 인자를 수동으로 지정할 수 있음

##### 구간별 고정 스케쥴링
- 다음과 같이 스케쥴함수를 수용하고 위의 지수기반 스케쥴링에서 했던 것과 같이 LearningRateScheduler콜백을 만들어서 fit()메서드에 전달

In [10]:
def piecewise_constant_fn(epoch):
    if epoch < 5:
        return 0.01
    elif epoch < 15:
        return 0.005
    else:
        return 0.001

In [11]:
lr_scheduler = keras.callbacks.LearningRateScheduler(piecewise_constant_fn)
# hist = model.fit(X_tr_scaled, y_tr, [...], callbacks = [lr_scheduler])

##### 성능 기반 스케쥴링
- ReduceLROnPlateau Callback을 이용
- 예를 들어 다음 콜백을 fit()에 전달하면, 최상의 검증 손실이 다섯 번의 연속적인 에포크동안 향상되지 않으면 0.5를 학습률에 곱하여 학습률을 떨어뜨림

In [13]:
lr_scheduler = keras.callbacks.ReduceLROnPlateau(factor = 0.5, patience = 5)
# hist = model.fit(X_tr_scaled, y_tr, [...], callbacks = [lr_scheduler])

##### step 업데이트
- epoch 말고 step마다 학습률을 업데이트하기 위해 케라스에서 지원하는 방식
    - **keras.optimizers.schedules**에 있는 스케쥴 중에 하나를 사용하여 학습률을 정의하고 이 학습률을 옵티마이저에 전달할 수 있음
- 아까 앞에서 나왔던 지수 기반 스케쥴링을 step단위로 업데이트 하기 위해서는 다음과 같이 진행하면 됨

In [15]:
# s = 20 * len(X_tr) // 32 # 배치가 32일 때, 20번 에포크에 담긴 전체 스텝수
# learning_rate = keras.optimizers.schedules.ExponentialDecay(0.01, s, 0.1)
# optimizer = keras.optimizers.SGD(learning_rate)

- 이렇게 하면, 모델을 저장할 때 학습률과 스케쥴도 함께 저장됨
- 다만 이건 **케라스 표준 API**는 아니며, **tf.keras**에서만 지원함

##### 1cycle 방식
- 매 반복마다 학습률을 조정하는 사용자 정의 콜백을 만들면 됨
- self.model.optimizer.lr을 바꾸어 옵티마이저의 학습률을 업데이트할 수 있음

### 정리
- 지수 기반 스케쥴링, 성능 기반 스케쥴링, 1사이클 스케쥴링으로 수렴 속도를 크게 높일 수 있음