# Семинар 13

# Методы спуска (Descent methods). Градиентный спуск: насколько глубока кроличья нора? Дёшево и сердито

## На прошлом семинаре...
1. Введение в численные методы оптимизации
2. Общая схема работы метода
3. Как сравнивать методы оптимизации?
4. Зоопарк задач и методов
5. Одномерная минимизация

## Что такое методы спуска?

Последовательность $x_k$ генерируется по правилу
$$
x_{k+1} = x_k + \alpha_k h_k
$$
так что
$$
f(x_{k+1}) < f(x_k)
$$
Направление $h_k$ называется *направлением убывания*.

```python
def DecsentMethod(f, x0, epsilon):
    x = x0
    while StopCriterion(x, f) > epsilon:
        h = ComputeDescentDirection(x, f)
        alpha = ChooseStepSize(x, h, f)
        x = x + alpha * h
    return x

```

https://arxiv.org/pdf/1609.04747v1.pdf 
http://sebastianruder.com/optimizing-gradient-descent/

## Направление убывания
Рассмотрим линейную аппроксимацию дифференцируемой функции $f$ вдоль некоторого направления убывания $h, \|h\|_2 = 1$:
$$
f(x + \alpha h) = f(x) + \alpha \langle f'(x), h \rangle + o(\alpha)
$$
Из условия убывания
$$
f(x) + \alpha \langle f'(x), h \rangle + o(\alpha) < f(x)
$$
и переходя к пределу при $\alpha \rightarrow 0$:
$$
\langle f'(x), h \rangle \leq 0
$$
Также из неравенства Коши-Буняковского-Шварца
$$
\langle f'(x), h \rangle \geq -\| f'(x) \|_2 \| h \|_2 = -\| f'(x) \|_2
$$

Таким образом, направление антиградиента 
$$
h = -\dfrac{f'(x)}{\|f'(x)\|_2}
$$
даёт направление наискорейшего **локального** убывания  
функции$~f$.

## Градиентный метод
```python
def DradientDecsentMethod(f, x0, epsilon):
    x = x0
    while StopCriterion(x, f) > epsilon:
        h = ComputeGradient(x, f)
        alpha = ChooseStepSize(x, h, f)
        x = x - alpha * h
    return x

```

## Как выбрать шаг $\alpha_k$?

Список подходов:
- Постоянный шаг 
$$
\alpha_k = \overline{\alpha}
$$
- Априорно заданная последовательность
$$
\alpha_k = \dfrac{\overline{\alpha}}{\sqrt{k+1}}
$$
- Наискорейший спуск
$$
\alpha_k = \arg\min_{\alpha \geq 0} f(x_k - \alpha f'(x_k))
$$
- Правила Гольдштейна-Армихо: для некоторых $\beta_1, \beta_2$, таких что $0 < \beta_1 < \beta_2 < 1$ найти $x_{k+1}$ такую что
\begin{equation}
\begin{split}
& \beta_1 \langle f'(x_k), x_k - x_{k+1} \rangle \leq f(x_k) - f(x_{k+1}) \\
& \beta_2 \langle f'(x_k), x_k - x_{k+1} \rangle \geq f(x_k) - f(x_{k+1})
\end{split}
\end{equation}

### Анализ и мотивация подходов к выбору шага $\alpha_k$

## Резюме
1. Методы спуска
2. Направление убывания
3. Градиентный метод
4. Правила выбора шага
5. Теоремы сходимости
6. Эксперименты