# NAdam (Nesterov-accelerated adaptive momentum)

## Немного предыстории

## Градиентный спуск (SGD - Stochastic gradient descent)
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
\theta_{t+1} = \theta_t - \eta \cdot g_t
\end{equation} \
**Проблемы:** застревание в локальных минимумах; возможные сильные колебания при движении к точке минимума.

## Метод импульсов
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
m_t = \gamma m_{t - 1} + (1 - \gamma) \eta g_t, \mspace{2mm} 0 < \gamma < 1
\end{equation} 
или, переобозначив $\eta = (1 - \gamma) \eta$, получим
\begin{equation}
m_t = \gamma m_{t - 1} + \eta g_t \\
\theta_{t+1} = \theta_t - m_t \\
\theta_{t+1} = \theta_t - (\gamma m_{t - 1} + \eta g_t)
\end{equation} \
**Преимущества:** при попадании в небольшой локальный минимум градиент мгновенно не обнулится, продолжится движение к глобальному минимуму; сглаживается градиент, уменьшаются амплитуды его случайных изменений.

## Стохастический градиент с импульсом Нестерова (NAG - Nesterov's accelerated gradient)
\begin{equation}
m_t = \gamma m_{t - 1} + \eta g_t 
\end{equation}
![](image.png)
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t - \gamma m_{t - 1}) \\
m_t = \gamma m_{t - 1} + \eta g_t  \\
\theta_{t+1} = \theta_t - m_t
\end{equation} \
**Преимущества:** как правило, показывает лучшую сходимость к точке минимума.

## Modified NAG
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
m_t = \gamma m_{t - 1} + \eta g_t \\
\theta_{t+1} = \theta_t - (\gamma m_{t} + \eta g_t)
\end{equation}

## RMSProp (running mean square)
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
v_t = \alpha v_{t - 1} + (1 - \alpha)g_t^2 \\
\theta_{t+1} = \theta_t - \eta \cdot \frac{g_t}{\sqrt{v_t} + \varepsilon}
\end{equation} \
**Преимущества:** нормализация скорости изменения вектора весов, что позволяет увеличить скорость сходимости.

## Adam (adaptive momentum)
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
m_t = \beta_1 m_{t - 1} + (1 - \beta_1) g_t; \mspace{5mm} \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \\
v_t = \beta_2 v_{t - 1} + (1 - \beta_2)g_t^2; \mspace{5mm} \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\
\theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \varepsilon}
\end{equation} \
**Преимущества:** ускорение сходимости.

# NAdam (Nesterov-accelerated adaptive momentum)
\begin{equation}
g_t = \nabla _{\theta_t}L(\theta_t) \\
m_t = \beta_1 m_{t - 1} + (1 - \beta_1) g_t \\
v_t = \beta_2 v_{t - 1} + (1 - \beta_2)g_t^2; \mspace{5mm} \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \\
\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \varepsilon} \left(\frac{\beta_1}{1 - \beta_1^{t+1}} m_{t} + \frac{1 - \beta_1}{1 - \beta_1^t}g_t \right)
\end{equation}

**Как мы получили NAdam из Adam:** \
\begin{equation}
\theta_{t+1} = \theta_t - \eta \cdot \frac{\hat{m}_t}{\sqrt{\hat{v}_t} + \varepsilon} = \\
= \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \varepsilon} \cdot \frac{m_t}{1 - \beta_1^t} = \\
= \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \varepsilon} \left(\frac{\beta_1}{1 - \beta_1^{t}} m_{t - 1} + \frac{1 - \beta_1}{1 - \beta_1^t}g_t \right) = \\
= \theta_t - \frac{\eta}{\sqrt{\hat{v}_t} + \varepsilon} \left(\frac{\beta_1}{1 - \beta_1^{t+1}} m_{t} + \frac{1 - \beta_1}{1 - \beta_1^t}g_t \right)
\end{equation}

In [None]:
torch.optim.NAdam(model.parameters(),
                  lr = 0.002, 
                  betas = (0.9, 0.999), 
                  eps = 1e-08)

# COSINEANNEALINGLR lr_scheduler
\begin{equation}
\eta _t = \eta _{\min} + \frac{1}{2}(\eta _{\max} - \eta _{\min}) \left(1 + \cos \left(\frac{T_{cur}}{T_{\max}} \pi \right) \right) \\
\eta _{t + 1} = \eta _t + \frac{1}{2}(\eta _{\max} - \eta _{\min}) \left(1 - \cos \left(\frac{1}{T_{\max}} \pi \right) \right) 
\end{equation} \
$\eta _{\max}$ - исходный параметр обучения; $T_{\max}$ - число эпох, после которого происходит обновление параметра обучения; $T_{cur}$ - число эпох, прошедших с момента обновления параметра обучения.

In [None]:
torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, 
                                           T_max, 
                                           eta_min = 0)