# Семинар 19
# Оптимизация на множествах простой структуры

## На прошлом семинаре...

- История линейного программирования
- Концепция методов внутренней точки
- Прямой барьерный метод


## Методы решения каких задач уже известны

- Безусловная минимизация: функция достаточно гладкая, но ограничений на аргумент нет.
- Линейное программирование: линейная функция при линейных ограничениях

Следующий шаг: произвольная достаточно гладкая функция на достаточно простом множестве - не обязательно полиэдральном.

## Что такое "простое множество"?


**Определение.** Множество будем называть *простым*, если проекцию на него можно найти существенно быстрее (чаще всего аналитически) по сравнению с решением исходной задачи минимизации.

## Примеры простых множеств

- Полиэдр $Ax = b, Cx \leq d$
    - аффинное множество
    - гиперплоскость
    - полупространство
    - отрезок, интервал, полуинтервал
    - симплекс
- Конусы
    - положительный ортант
    - Лоренцев конус
    - $\mathbb{S}^n_{+}$
    
**Замечание:** убедитесь, что Вы понимаете, что стоит за этими названиями и обозначениями!

## Напоминание: как искать проекцию?
Для данной точки $y \in \mathbb{R}^n$ требуется решить следующую задачу
$$
\min_{x \in P} \|x - y \|_2
$$
Обозначение: $\pi_P(y)$ - проекция точки $y$ на множество $P$.

## Примеры проекций

- Отрезок $P = \{x | l \leq x \leq u \}$
$$
(\pi_P(y))_k = 
\begin{cases}
u_k & y_k \geq u_k \\
l_k & y_k \leq l_k \\
y_k & \text{otherwise.}
\end{cases}
$$

- Аффинное множество $P = \{ x| Ax = b \}$
$$
\pi_P(y) = y - A^+(Ay - b),
$$ 
где $A^+$ - псевдообратная матрица. Если $A$ полного ранга и столбцы линейно-независимы, тогда $A^+ = (A^{\top}A)^{-1}A^{\top}$.

- Конус положительно полуопределённых матриц $P = \mathbb{S}^n_+ = \{X \in \mathbb{R}^{n \times n} | X \succeq 0, \; X^{\top} = X \}$
$$
\pi_P(Y) = \prod_{i=1}^n (\lambda_i)_+ v_i v_i^{\top},
$$
где $(\lambda_i, v_i)$ - пары собственных значений и векторов матрицы $Y$. 

## Метод проекции градиента

$$
\min_{x \in P} f(x)
$$
**Идея**: делать шаг градиентного спуска и проецировать полученную точку на допустимое множество $P$.

## Псевдокод

```python
def ProjectedGradientDescent(f, gradf, proj, x0, tol):
    x = x0
    while True:
        gradient = gradf(x)
        alpha = get_step_size(x, f, gradf, proj)
        x = proj(x - alpha * grad)
        if check_convergence(x, f, tol):
            break
    return x
```

## Поиск шага

- Постоянный шаг: $\alpha_k = \alpha$, где $\alpha$ достаточно мало
- Наискорейший спуск: 
$$
\min_{\alpha > 0} f(x_k(\alpha))
$$
$x_k(\alpha) = \pi_P (x_k - \alpha f'(x_k))$
- Линейный поиск: уменьшать шаг по правилу Армихо, пока не будет выполнено условие
$$
f(x_k(\alpha)) - f(x_k) \leq c_1 \langle f'(x_k), x_k(\alpha) - x_k \rangle
$$

## Теорема сходимости (Б.Т. Поляк "Введение в оптимизацию", гл. 7, $\S$ 2)

**Теорема.** Пусть $f$ выпуклая дифференцируемая функция и её градиент липшицев на $P$ с константой $L$. Пусть $P$ выпуклое и замкнутое множество и $0 < \alpha < 2 / L$. 

Тогда
- $x_k \to x^*$
- если $f$ сильно выпуклая, то $x_k \to x^*$ со скоростью геометрической прогрессии
- если $f$ дважды дифференцируема и $f''(x) \succeq l\mathbf{I}, \; x \in P$, $l > 0$, то знаменатель прогрессии $q = \max \{ |1 - \alpha l|, |1 - \alpha L|\}$.

## Критерии остановки
- Сходимость по аргументу, то есть сходимость последовательности $x_k$ к предельной точке $x^*$
- $x^* = \pi_P(x^*)$

**Важное замечание:** проверять норму градиента бессмысленно, так как это условная оптимизация!

## Pro & Contra

Pro
- часто можно аналитически вычислить проекцию
- сходимость аналогична градиентному спуску в безусловной оптимизации
- обобщается на негладкий случай - метод проекции субградиента

Contra
- при больших $n$ аналитическое вычисление проекции может быть слишком затратно: $O(n)$ для симплекса vs. решение задачи квадратичного программирования для полиэдрального множества
- при обновлении градиента может теряться структура задачи: разреженность, малоранговость...

## Что такое "простое множество"?

**Определение.** Множество $D$ будем называть *простым*, если можно найти решение следующей задачи
$$
\min_{x \in D} c^{\top}x
$$
существенно быстрее (чаще всего аналитически) по сравнению с решением исходной задачи минимизации.

## Примеры простых множеств

- Полиэдральное множество - задача линейного программирования вместо квадратичного программирования
- Симплекс - $x^* = e_i$, где $c_i = \max\limits_{k = 1,\ldots, n} c_k$
- Лоренцев конус - $x^* = -\frac{ct}{\| c\|_2}$
- Все остальные множества из предыдущего определения

**Замечание 1:** отличие этого определения от предыдущего в линейности целевой функции (была квадратичная), поэтому простых множеств для этого определения больше.

**Замечание 2:** иногда на допустимое множество легко найти проекцию, но задача линейного программирования является неограниченной. Например, для множества $D = \{ x \in \mathbb{R}^n \; | \}$

## Метод условного градиента <br> (aka Frank-Wolfe algorithm (1956))

$$
\min_{x \in D} f(x)
$$

**Идея**: делать шаг не по градиенту, а по направлению, которое точно не выведет из допустимого множества.

Аналогия с градиентным спуском: линейная аппроксимация **на допустимом множестве**:
$$
f(x_k + s_k) = f(x_k) + \langle f'(x_k), s_k \rangle \to \min_{{\color{red}{s_k \in D}}}
$$

## Условный градиент

**Определение** Направление $s_k - x_k$ называют *условным градиентом* функции $f$ в точке $x_k$ на допустимом множестве $D$.

## Псевдокод
```python
def FrankWolfe(f, gradf, linprogsolver, x0, tol):
    x = x0
    while True:
        gradient = gradf(x)
        s = linprogsolver(gradient)
        alpha = get_step_size(s, x, f)
        x = x + alpha * (s - x)
        if check_convergence(x, f, tol):
            break
    return x
```

## Выбор шага

- Постоянный шаг: $\alpha_k = \alpha$
- Наискорейший спуск:
$$
\min_{{\color{red}{0 \leq \alpha_k \leq 1}}} f(x_k + \alpha_k(s_k - x_k))
$$
- Линейный поиск по правилу Армихо: должно выполняться условие
$$
f((x_k + \alpha_k(s_k - x_k)) \leq f(x_k) + c_1 \alpha_k \langle f'(x_k), s_k - x_k \rangle
$$
Начинать поиск нужно с $\alpha_k = 1$

## Теорема сходимости (лекции)

**Теорема 4.2.1.** Пусть $X$ - выпуклый компакт и $f(x)$ - дифференцируемая функция на $X$ с Липшицевым градиентом. Шаг выбирается по правилу Армихо. Тогда **для любого ${\color{red}{x_0 \in X}}$ **
- метод условного градиента генерирует последовательность $\{x_k\}$, которая имеет предельные точки
- любая предельная точка $x^*$ является **стационарной**
- если $f(x)$ выпукла на $X$, то $x^*$ - решение задачи


Исчерпывающее описание метода и его вариантов приведено в [cтатье](http://jmlr.csail.mit.edu/proceedings/papers/v28/jaggi13.pdf)

## Теорема сходимости (Б.Т. Поляк "Введение в оптимизацию", гл. 7, $\S$ 2)

**Теорема.** Пусть $f$ - дифференцируема и её градиент Липшицв с константой $L$. Множество $X$ - выпуклый компакт диаметра $d > 0$. 
Тогда
$$
f(x_{k+1}) - f(x_k) \leq \dfrac{2d^2L}{k + 2}, \quad k \geq 1
$$

## Критерий остановки

- Так как показана сходимость к предельной точке $x^*$, то критерием остановки является сходимость по аргументу

## Pro & Contra

Pro
- Оценка сходимости для функционала **не зависит** от размерности
- Если множество - многоугольник, то $x_k$ - выпуклая комбинация $k$ вершин многоугольника - разреженная решение для $k \ll n$
- Сходимость по функционалу не улучшаема даже для сильно выпуклых функций
- Упрощение понятия "простое множество"

Contra
- Сходимость по функционалу только сублинейная вида $\frac{C}{k}$
- Не обобщается на негладкие задачи

## Резюме
- Множество простой структуры
- Проекция
- Метод проекции градиента
- Метод условного градиента