# Constrained minimization algorithms

Some of the algorithms and techniques
used to find local minima
of **unconstrained** optimization problems
can be applied *mutatis mutandis*
for the **constrained** problem case.

## Sequential Quadratic Programming (SQP)

For the sake of simplicity
the equality constrained minimization problem is considered:

$$
\begin{array}{lll}
\textrm{minimize}   & f(x)          & \\
\textrm{subject to} & h_{j}(x) = 0, & j = 1, \ldots, p, \\
\end{array}
$$

with corresponding **Lagrangian**:

$$
L(x, \mu) := f(x) + \sum_{j = 1}^{p} \mu_{j} h_{j}(x),
$$

and **KKT optimality conditions**:

$$
\begin{aligned}
\nabla_{x} L(x^{*}, \mu^{*})
&=\; \nabla f(x^{*}) + \sum_{j = 1}^{p} \mu_{j}^{*} \nabla h_{j}(x^{*})
&=\; 0 & \\
\nabla_{\mu} L(x^{*}, \mu^{*})
&=\; ( h_{j}(x^{*}) )
&=\; 0 &,
\quad j = 1, \ldots, p
\end{aligned}
$$

Again the goal is to perform an iteration

$$
\mathbf{x}^{k+1} = \mathbf{x}^{k} + \alpha \mathbf{d}^{k}.
$$

with $\mathbf{x} = (x, \mu)^{T}$,
which converges from a starting point $\mathbf{x}^{0}$
to a local minimum $\mathbf{x}^{*}$
(a stationary point of the KKT optimality conditions)
choosing a **descent direction** $\mathbf{d} = (\Delta x, \Delta \mu)^{T}$
and a **step size** $\alpha$ in each step
(cf. [Gradient methods](gradient_methods)).

In [None]:
sowie die Newton-Gleichung
$(\nabla^{2} \mathcal{L}) \Delta = -\nabla L$ auf.

\ifSOLUTION
\tex_1tbf{Lösung:} Die Newton-Korrektur
$(\Delta x_1, \Delta x_2, \Delta\mu)^{T}$ ist
\begin{equation*}
\begin{pmatrix_1} x_1_{k+1} \\ x_2_{k+1} \\ \mu_{k+1} \end{pmatrix_1}
= \begin{pmatrix_1} x_1_{k} \\ x_2_{k} \\ \mu_{k} \end{pmatrix_1}
+ \begin{pmatrix_1} \Delta x_1_{k} \\ \Delta x_2_{k} \\ \Delta \mu_{k} \end{pmatrix_1}.
\end{equation*}

Berechnet wird die Korrektur über die Newton-Gleichung
\begin{equation*}
\underbrace{\begin{pmatrix_1} \nabla^{2}_{x_1,x_1} \mathcal{L}
& \nabla^{2}_{x_1,x_2} \mathcal{L}
& \nabla^{2}_{x_1,\mu} \mathcal{L} \\
\nabla^{2}_{x_2,x_1} \mathcal{L}
& \nabla^{2}_{x_2,x_2} \mathcal{L}
& \nabla^{2}_{x_2,\mu} \mathcal{L} \\
\nabla^{2}_{\mu,x_1} \mathcal{L}
& \nabla^{2}_{\mu,x_2} \mathcal{L}
& \nabla^{2}_{\mu,\mu} \mathcal{L}
\end{pmatrix_1}}_{\nabla^{2}_{x_1,x_2,\mu} \mathcal{L}(x_1,x_2,\mu)}
\begin{pmatrix_1} \Delta x_1_{k} \\ \Delta x_2_{k} \\ \Delta \mu_{k} \end{pmatrix_1}
= -\begin{pmatrix_1} \nabla_{x_1} \mathcal{L}(x_1,x_2,\mu) \\ \nabla_{x_2} \mathcal{L}(x_1,x_2,\mu) \\ \nabla_{\mu} \mathcal{L}(x_1,x_2,\mu) \end{pmatrix_1}
\end{equation*}
wobei eine gewisse Struktur in der Newton-Gleichung erkannt werden kann.
Das Element $\nabla^{2}_{\mu,\mu} \mathcal{L}$ ist $0$,
da die Lagrange-Funktion linear bezüglich des Lagrange-Multiplikators $\mu$ ist.
Außerdem gilt $\nabla_{\mu} \mathcal{L}(x_1,x_2,\mu) = h(x_1,x_2)$
und aufgrund der Austauschbarkeit der partiellen Ableitungen
(\cite[Satz 17.1.11, ``Satz von Schwarz'']{Ansorge2011})
kann in der letzten Spalte der Hesse-Matrix_1
der Gradient $\nabla_{x_1,x_2} h(x_1,x_2)$,
bzw. in der untersten Zeile sein Transponiertes erkannt werden.
\begin{equation*}
\begin{pmatrix_1}
\nabla^{2}_{x_1,x_2} \mathcal{L}(x_1,x_2,\mu) & \nabla_{x_1,x_2} h(x_1,x_2) \\
\nabla_{x_1,x_2} h(x_1,x_2)^{T} & 0
\end{pmatrix_1}
\begin{pmatrix_1} \Delta x_1_{k} \\ \Delta x_2_{k} \\ \Delta \mu_{k} \end{pmatrix_1}
= -\begin{pmatrix_1} \nabla_{x_1} \mathcal{L}(x_1,x_2,\mu) \\ \nabla_{x_2} \mathcal{L}(x_1,x_2,\mu) \\ h(x_1,x_2) \end{pmatrix_1}
\end{equation*}
Diese Struktur wird in der folgenden Teilaufgabe über ein äquivalentes
Optimierungsproblem hergeleitet.
\fi


The derived Newton-equation happens to be identical
to the KKT optimality conditions
of the following quadratic optimization problem:

$$
\begin{array}{lll}
\textrm{minimize}
& F(\boldsymbol{\delta})
&:= \frac{1}{2} \boldsymbol{\delta}^{T} \nabla^{2}_{x} L(x,\mu) \boldsymbol{\delta} + \nabla_{x} L(x,\mu)^{T} \boldsymbol{\delta} \\
\textrm{subject to}
& H(\boldsymbol{\delta})
&:= \nabla_{x} h(x)^{T} \boldsymbol{\delta} + h(x) = 0,
\end{array}
$$

with $\boldsymbol{\delta} = \Delta x^{k}$
and Lagrange multipliers $\lambda = \Delta \mu^{k}$
for the equality constraint.

The corresponding Lagrangian is:

$$
L(\boldsymbol{\delta},\lambda) = F(\boldsymbol{\delta}) + \lambda^{T} H(\boldsymbol{\delta})
$$

and the KKT optimality conditions:

$$
\begin{aligned}
\nabla_{\boldsymbol{\delta}} \mathcal{L}(\boldsymbol{\delta},\lambda)
&:=& \nabla^{2}_{x} L(x,\mu) \boldsymbol{\delta} +  \nabla_{x} L(x,\mu) + \lambda^{T} \nabla_{x} h(x) &= 0 \\
H(\boldsymbol{\delta}) = \nabla_{\lambda} \mathcal{L}(\boldsymbol{\delta},\lambda)
&:=& \nabla_{x} h(x)^{T} \boldsymbol{\delta} + h(x) &= 0.
\end{aligned}
$$

Das sich zu der zuvor hergeleiteten Newton-Gleichung umformen lässt.

$$
\Rightarrow
\begin{pmatrix}
\nabla^{2}_{x} L(x,\mu) & \nabla_{x} h(x) \\
\nabla_{x} h(x)^{T} & 0
\end{pmatrix}
\begin{pmatrix} \boldsymbol{\delta} \\ \lambda \end{pmatrix}
= -\begin{pmatrix} \nabla_{x} L(x,\mu) \\ h(x) \end{pmatrix}
$$