# Курс "Компонентные модели"

## Автор: Харюк Павел, аспирант факультета ВМК МГУ имени М.В. Ломоносова
### Составлено: 2017-2018 гг.

# Занятие 4. Методы условной оптимизации

Занятия, посвящённые методам оптимизации, во многом опираются на курс Ника Гоулда ["Непрерывная оптимизация"](http://www.numerical.rl.ac.uk/people/nimg/course/lectures/raphael/lectures/courseoutline.pdf) (Оксфорд):
http://www.numerical.rl.ac.uk/people/nimg/course/lectures/raphael/lectures/

## Выпуклая оптимизация

В условной оптимизации значения переменных ограничены условиями. Это означает, что условия задают некоторое подмножество $Q \subset \mathbb{R}^{n}$. Одним из важных классов задач является выпуклая оптимизация, где множество $Q$ является выпуклым, и оптимизируемый на нём функционал также выпуклый.

**Определение.** Множество $Q \subset \mathbb{R}^{n}$  является выпуклым, если для $\forall x, y \in Q$ точка $(\lambda x + (1- \lambda) y) \in Q$,  $\forall \lambda \in [0, 1]$.

То есть, если провести отрезок между любыми двумя точками выпуклого множества, то все точки этого отрезка также будут принадлежать множеству.

**Примеры выпуклых множеств**. 
- пустое множество;
- полупространства, $\{x \big| \, (x, a) \geq 0\}$;
- многогранники, $\{ x \big| \, Ax \geq b\}$;
- открытые шары, $B_{\varepsilon} (u) = \{ x \big| \, \| x - u\| < \rho\}$;
- эллипсоиды, $\{ x \big| \, (Ax, x) \leq b, \, A > 0\}$;
- афинные подпространства, $\{ x \big| \, (a, x) = b\}$.

Важно, что линейное отображение сохраняет выпуклость множеств:
если $Q_1, Q_2 \subseteq \mathbb{R}^{n}$ - выпуклые, $\alpha \in \mathbb{R}$, $\phi: \mathbb{R}^{n} \to \mathbb{R}^{m}$ - произвольное линейное отображение, тогда выпуклыми будут следующие множества:
1. $Q_1 + Q_2 = \{x+y \big| \, x \in Q_1, \, y \in Q_2\}$;
2. $\alpha Q_1 = \{\alpha x \big| \, x \in Q_1\}$;
3. $\phi(Q_1) = \{\phi(x) \big| \, x \in Q_1\}$;
4. $Q_1 \cap Q_2$.

Выпуклые задачи обладают дифференциальными свойствами. Приводим их без доказательства (доказательства можно найти в [o])

$f: Q \to \mathbb{R}$, $Q \subset \mathbb{R}^n$ - открытое выпуклое подмножество, тогда:

1. Для выпуклой $f(x)$ локальный минимум совпадает с глобальным;
2. Если $f(x)$ непрерывно дифференцируем на $Q$, тогда выпуклость функционала $f(x)$ эквивалентна условию
$f(y) \geq f(x) + \nabla f(x) (y-x)$ $\forall x, y \in Q$;
3. Если $f(x)$ выпукла и $\nabla f(x^*) = 0$, то $x^*$ - точка глобального минимума. Условие является необходимым и достаточным, если $Q \equiv \mathbb{R}^n$

## Общая задача условной оптимизации

В общем виде в задаче условной оптимизации дополнительно к оптимизации исходного целевого функционала $f(x)$ добавляется несколько условий, записанных в виде равенств и неравенств:

$$\begin{array}{rl}
\min & f(x) \\
s.t. & g_i(x) = 0, \quad i=\overline{1, I} \\
     & h_j(x) \geq 0, \quad j=\overline{1, J}\\
\end{array}$$



## Метод множителей Лагранжа

рассмотрим условную задачу оптимизации с условиями только типа равенства. Классический метод, в котором соответствие каждому условию контролируется специальной переменной, - метод множителей Лагранжа:

$$\begin{array}{rl}
\min & f(x) \\
s.t. & g_i(x) = 0, \quad i=\overline{1, I} \\
\end{array} \iff
\begin{array}{l}
\min \mathcal{L}(x, \lambda), \\
\mathcal{L}(x, \lambda) = f(x) + \big( \lambda, g(x) \big),\\
\end{array} \quad
\begin{array}{l}
    \lambda = \begin{bmatrix} \lambda_1, & \ldots, & \lambda_I \end{bmatrix}^T \\
    g(x) = \begin{bmatrix} g_1(x), & \ldots, & g_I(x) \end{bmatrix}^T \\
    A = \begin{bmatrix} A_1, & \ldots, & A_I \end{bmatrix}^T \\
\end{array}$$

Таким образом, исходная задача сводится к безусловной задаче оптимизации. Далее для нового функционала ищутся стационарные точки из векторного уравнения $\nabla \mathcal{L}(x, \lambda) = 0$, которому соответсвует следующая система уравнений:

$$\begin{cases}
\nabla f(x) + \sum\limits_{i=1}^I \lambda_i \nabla g_i(x) = 0\\
g(x) = 0
\end{cases}$$

Стационарные точки можно найти методом Ньютона:

$$\begin{bmatrix}
H & 
\begin{array}{c}
\nabla g_1 & \ldots & \nabla g_I \\
\end{array} \\
\begin{array}{c}
(\nabla g_1)^T\\
\vdots & \\
(\nabla g_I)^T\\
\end{array} & {\large O} \\
\end{bmatrix}
\begin{bmatrix}
\Delta x \\
\Delta \lambda_1 \\
\vdots \\
\Delta \lambda_I \\
\end{bmatrix} = 
-\begin{bmatrix}
\nabla f + \sum_{i=1}^I \lambda_i \nabla g_i \\
g_1 \\
\vdots \\
g_I \\
\end{bmatrix}
$$

Условия типа неравенств учитываются с помощью т.н. **дополняющей нежёсткости**. Вновь составляется функция Лагранжа, $\mathcal{L}(x, \mu) = f(x) + \big( \mu, h(x) \big)$, для неё выписывается уравнение стационарных точек, которая справедлива для случая $h_j(x) = 0$, $j=\overline{1, J}$. В этом случае $\mu_j \geq 0$. Если же условие равенства не выполнено, то его игнорируют выбором $\mu_j = 0$, что формулируется в виде $\mu_j \frac{\partial \mathcal{L}(x, \mu)}{\partial \mu_j} = 0$, условия дополняющей нежёсткости. Таким образом, задача поиска стационарных точек условной задачи оптимизации с условиями типа неравенств принимает вид

$$\begin{cases}
    \frac{\partial \mathcal{L}(x, \mu)}{\partial x} = \nabla f(x) + \sum_{j=1}^{J} \mu_j (h_j(x) ) = 0, \\
    \frac{\partial \mathcal{L}(x, \mu)}{\partial \mu_j} = \mu_j (h_j(x) ) = 0, \\
    h_j(x) \geq 0, \\
    \mu_j \geq 0, \\
\end{cases}$$

Далее для обозначения $\mu_j$ будем использовать $\lambda_j$.

**Необходимое условие оптимальности первого порядка:**  Если $x^*$ является точкой локального минимума условной задачи оптимизации и выполнено условие линейной независимости градиентов $\nabla g_i(x^*)$ и $\nabla h_j(x^*)$ (для тех условий типа неравенств, которые обращаются в ноль: $h_j(x^*) = 0$), то найдётся такое $\lambda^*$, что пара $(x^*, \lambda^*)$ являются решением системы:
$$\begin{cases}
\frac{\partial \mathcal{L}(x^*, \lambda^*)}{\partial x} = 0, \\
\lambda_j \geq 0, & j = \overline{1, J} \\
\lambda_j^* h_j(x^*) = 0, &  j = \overline{1, J} \\
h_j(x^*) \geq 0, &  j = \overline{1, J} \\
g_i(x^*) = 0, & i = \overline{1, I} \\
\end{cases}\quad\quad (*)$$

Условия (*) называют также условиями Каруша-Куна-Таккера.


**Необходимое условие оптимальности второго порядка:**  Если $x^*$ является точкой локального минимума условной задачи оптимизации, выполнено условие линейной независимости градиентов $\nabla g_i(x^*)$ и $\nabla h_j(x^*)$ (для тех условий типа неравенств, которые обращаются в ноль: $h_j(x^*) = 0$), выполнено необходиомое условие оптимальности первого порядка с соответсвующим $\lambda^*$, тогда для любых $d$ из окрестности $x^*$, удовлетворяющих условиям
$$\begin{cases}
\lambda_i^*(\nabla g_i(x^*), d) = 0, & i = \overline{1, I} \\
\lambda_j^*(\nabla h_j(x^*), d) = 0, & j = \overline{1, J} \\
\end{cases}$$
справедливо неравенство
$$\Big(\frac{\partial^2 \mathcal{L}(x^*, \lambda^*)}{\partial x^2} d, d\Big) \geq 0$$

**Достаточное условие оптимальности второго порядка:** Пусть $x^*$ и $\lambda^*$ такие, что выполнены условия ($(*)$) и условия линейной независимости градиентов (как в неоьходимом условии оптимальности первого порядка), тогда для того, чтобы $x^*$ была точкой локального минимуму, достаточно, чтобы
для любых $d$ из окрестности $x^*$, удовлетворяющих условиям
$$\begin{cases}
\lambda_i^*(\nabla g_i(x^*), d) = 0, & i = \overline{1, I} \\
\lambda_j^*(\nabla h_j(x^*), d) = 0, & j = \overline{1, J} \\
\end{cases}$$
выполнялось неравенство
$$\Big(\frac{\partial^2 \mathcal{L}(x^*, \lambda^*)}{\partial x^2} d, d\Big) > 0$$

## Метод штрафов

В метод штрафов условная задача оптимизации сводится к последовательности безусловных задач. Это происходит следующим образом: к основному функционалу добавляются слагаемые с некоторыми весами, штрафующие решение задачи за выход из области допустимости. Примером штрафной функции яфляется функция вида
$$\phi_{h_j}(x) = \min(0, h_j(x))$$

$$\begin{array}{rl}
\min\limits_x & f(x) \\
\text{s.t.} & h_j(x) \geq 0. \quad j = \overline{1, J} \\
\end{array} \iff
\min\limits_x \quad f(x) + \frac{1}{2 \mu_k} \sum\limits_j \phi_{h_j}^2 (x), \quad \mu_k > 0 $$

Параметр $\mu_k$ последовательно уменьшается.

**Сходимость метода штрафов**
Пусть $f, h_j \in C^1$, $x^*$ - точка накопления последовательности решений исходной задачи методом штрафов при уменьшающемся параметре $\mu_k$, пусть некоторая подпоследовательность $\{x_{k_l}\}$ этой последовательности сходится к $x^*$. Пусть все градиенты функций условий $\nabla h_j(x) : h_j(x) \leq 0$ линейно независимы. Пусть $\lambda_{j; k} = -\frac{\phi_{h_j}(x_{k+1})}{\mu_k}$, тогда справедливы утверждения:

1. $x^*$ удовлетворяет условиям оптимизации;
2. выполнено условие линейной независимости градиентов  $\nabla h_j(x^∗) : h_j(x^*) = 0$
3. существует предел $\lim_{l\to \infty} \lambda_{;k_l} = \lambda^*$ 
4. $(x^*, \lambda^*)$ удовлетворяет необходимым условиям оптимальности первого порядка.

Метод можно применять и в случае наличия условий типа равенств.

## Метод расширенного Лагранжиана

(англ. Augmented Lagrange method)

Как и в классическом методе множителей Лагранжа, исходная условная задача заменяется на безусловную через введение множителей Лагранжа. Отличие состоит в том, что в функционал включается штраф за выход приближения из области допустимости:

$$\begin{array}{lcl}
\begin{array}{rl}
\min\limits_{x} & f(x) \\
\text{s.t.} & g_i(x) = 0,  & i=\overline{1, I} \\
 & h_j(x) \geq 0,  & j=\overline{1, J} \\
\end{array} & 
\iff & 
\begin{array}{l}
\min\limits_{x, \lambda} \quad f(x) + \sum_i \lambda_i g_i(x) + \sum_j \lambda_j h_j(x) + \frac{1}{2 \mu} \Big(\sum_i g_i^2 (x) + \sum_j \phi_{h_j}^2 (x)\Big) = \\
= f(x) + \sum_i \Big(\frac{g_i (x)}{2 \mu} + \lambda_i \Big) g_i(x) + \sum_j \Big(\frac{\phi_{h_j} (x)}{2 \mu} + \lambda_j \Big) h_j(x)
\end{array}
\end{array}$$

Решение обновляется следующим образом:
$$x_{k+1} = \arg \min_x \mathcal{L}(x, \lambda_{k}; \mu_k), \\
(\lambda_{i})_{k+1} = \max \Big(0, \quad (\lambda_{i})_k + \frac{g_i (x_{k+1})}{\mu_k} \Big), \\
(\lambda_{j})_{k+1} = \Big( 0, \quad (\lambda_{j})_k + \frac{\phi_{h_j} (x_{k+1})}{\mu_k} \Big), \\
0 < \mu_{k+1} < \mu_k
$$

В отличие о метода штрафов, метод дополненного (расширенного) Лагранжиана не требует сходимости к нулю от $\mu_k$ для получения локально оптимального решения.

**Сходимость метода**. Пусть $x^*$ - точка локального минимума исходной задачи, в которой выполнено условие линейной независимости градиентов $\nabla g_i(x^*)$, $\nabla h_j(x^∗) : h_j(x^*) = 0$; выполнены необходимые условия оптимальности первого и второго порядка для некоторого $\lambda^*$. Тогда существует такая строго положительная константа $\mu^* > 0$, что $x^*$ является точкой локального минимума задачи
$$\min_x \mathcal{L}(x, \lambda^*; \mu), \quad \forall \mu \in (0, \mu^*].$$


## Барьерный метод

В барьерных методах

$$\min\limits_{x \in D \subset \mathbb{R}^n} f(x) \iff \min\limits_{x \in \mathbb{R}^n} f(x) + B(x), \quad
B(x) \to +\infty \text{ при } x \to \partial D$$

Важно, что начальное приближение выбирается из области допустимости. Отсюда следует второе название - методы внутренней точки. Влияние дополнительного слагаемого на решение можно уменьшить, выбирая для $B(x)$ на каждой итерации последовательность множителей $\alpha_k \overset{k\to\infty}{\to} 0$

Одним из распространённых варинтов барьерной функции - логарифмическая. Например, условие $x > a$ можно включить следующим образом:
$$\min\limits_{x \in \mathbb{R}^n_{> a} \subset \mathbb{R}^n} f(x) \iff \min\limits_{x \in \mathbb{R}^n} f(x) - \log(x-a), \quad x_0 \in \mathbb{R}^n_{> a}$$

## Проекционный метод

В проекционных итерационных методах каждая итерация включает в себя два шага:
- получение следующего приближения решения безусловной оптимизации;
- проекция приближения на допустимое множество

Проекция определяется как линейное отображение $P$, для которого $P^2 = P$.

Такие методы имеет смысл применять в том случае, если проектирование недорого относительно обновления решения безусловной задачи.

Примеры:

1. $x \geq a$: $\quad$ $Px = \max(x, a)$ (проекция на неотрицательную полуось)
2. $Px \in L(Y[:, 1], \ldots, Y[:, n])$: $\quad$ $P x = Y(Y^T Y)^{-1} Y^T x$ (проекция на линейное пространство, наятнутое на столбцы матрицы $Y$)

## Задания

1) Докажите, что приведённые примеры выпуклых множеств на самом деле являются выпуклыми множествами.

2) На предыдущем занятии было предложено реализовать алгоритм вычисления малорангового матричного разложения $A = UV^T$ с помощью задачи безусловной оптимизации (в смысле наименьших квадратов). Попробуйте добавить к ней условия:

2.1) на элементы матрицы $U$: $a \leq u_{i,j} \leq b$;

2.2) на элементы матрицы $V$: $V^T V = I$;

2.3) на матричное произведение: $U V^T \geq 0$ 

Реализуйте алгоритм, приведите графики сходимости решения. Насколько точно полученные решения соответствуют условиям?

# Список материалов

[o] http://www.numerical.rl.ac.uk/people/nimg/course/lectures/raphael/lectures/lecture1.pdf

http://www.mit.edu/~dimitrib/Constrained-Opt.pdf

https://www.him.uni-bonn.de/fileadmin/him/Section6_HIM_v1.pdf

https://projecteuclid.org/download/pdf_1/euclid.twjm/1500558299

http://www.mcs.anl.gov/~anitescu/CLASSES/2011/LECTURES/STAT310-2011-lec10.pdf

https://www.cs.jhu.edu/~svitlana/papers/non_refereed/optimization_1.pdf