# Devoir 1, MTH8408

## Question 1
L'algorithme demandé est présenté dans la cellule ci-dessous.

In [None]:
function steepest_descent_exact_linesearch_quadratique_convexe(A, b, x0; eps::Float64 = 1e-6)
    # This method solves the quadratic convex function f(x) = 1/2 * (x' A x) + b x
    # Using the steepest descent with exact linesearch method

    xk = x0                             # Initialize xk
    gk = A * xk + b                     # Initialize gradient
    gnorm = gnorm0 = gk' * gk           # Initialize norm of gradient and save gnorm0
    k = 0
    continue_eval = true
    while continue_eval
        dk = -gk                        # Set descent direction to steepest descent (-gradient)
        t = gnorm / (dk' * A * dk)      # Minimize f(xk + t*dk) for t > 0

        xk += t * dk                    # Update xk for next iteration
        gk = A * xk + b                 # Calculate gradient for next iteration
        gnorm = gk' * gk                # Calculate norm of gradient for next iteration
        k += 1                          # Update k

        # Check stop condition
        if gnorm <= eps + eps * gnorm0
            # Solution found
            continue_eval = false
        end
    end
    return xk
  end

## Question 2
Soit la fonction suivante.
$$f(x_1,x_2)=x_1^2x_2^2-4x_1^2x_2+4x_1^2+2x_1x_2^2+x_2^2-8x_1x_2+8x_1-4x_2$$

Les points stationnaires $(x_1^*,x_2^*)$ de cette fonctions sont tels que le gradient $\nabla f(x_1^*,x_2^*)$ est null. \
Par conséquent, on cherche à satisfaire les deux équations suivantes :

$$
\begin{align*}
    \nabla f(x_1^*,x_2^*) = & \begin{bmatrix} \frac{\partial f}{\partial x_1} \\ \frac{\partial f}{\partial x_2} \end{bmatrix} = 0 \\
    \nabla f(x_1^*,x_2^*) = & \begin{bmatrix} 2(x_1^*+1)(x_2^*-2)^2 \\ 2(x_1^*+1)^2(x_2^*-2) \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \end{bmatrix}
\end{align*}
$$

On remarque que $x_1=-1$ annule le gradient $\forall x_2 \in R$ et $x_2=2$ annule le gradient $\forall x_1 \in R$. \
Cela signifie que tous les points $(x_1^*,x_2^*)$ se trouvant sur les droites $x_1=-1$ et $x_2=2$ sont des points stationnaires.

On détermine la nature de ces points à partir de la matrice Hessienne. \
On remarque d'ailleurs que la matrice Hessienne est semi-définie positive pour tous les points stationnaires de la fonction.

$$
\begin{align*}
    H(x_1,x_2) = & 
    \begin{bmatrix}
        \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\
        \frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2}
    \end{bmatrix} \\
    H(x_1,x_2) = & 
    \begin{bmatrix}
        2(x_2-2)^2 & 4(x_1+1)(x_2-2) \\
        4(x_1+1)(x_2-2) & 2(x_1+1)^2
    \end{bmatrix} \\
    H(x_1^*,x_2^*) = &
    \begin{bmatrix}
        \lambda_1 & 0 \\
        0 & \lambda_2
    \end{bmatrix}
    \text{ avec $\lambda_1,\lambda_2 \geq 0$}
\end{align*}
$$

Finalement, on observe que $f(x_1^*,x_2^*)=0$ pour tous les points d'optimalité décrits ci-haut. \
Comme $f(x_1,x_2)=(x_1+1)^2(x_2-2)^2 \geq 0$, on en déduit que tous ces points stationnaires sont des minimums de la fonction $f$. \
De plus, ceux-ci sont tous des minimums globaux, puisque $f(x_1,x_2) \geq f(x_1^*,x_2^*) \, \forall (x_1,x_2) \in R^2$.

## Question 3.
### a) Trouver $a_k$ tel que $B_k = B_{k-1} + a_k s_k^T$
À partir de l'équation sécante et de la définition de la mise à jour de la matrice $B_k$, on isole le vecteur $a_k$.

$$
\begin{align*}
    B_k s_k = & \,\, y_k \\
    (B_{k-1} + a_k s_k^T) s_k = & \,\, y_k \\
    B_{k-1} s_k + a_k s_k^T s_k = & \,\, y_k \\
    a_k = & \,\, \frac{y_k - B_{k-1} s_k}{s_k^T s_k}
\end{align*}
$$

Cette méthode n'est pas particulièrement utilisée en optimisation.


### b) Trouver $a_k$ tel que $B_k = B_{k-1} + \sigma_k a_k a_k^T$, avec $\sigma_k \in \{-1, 1\}$
À partir de l'équation sécante et de la définition de la mise à jour de la matrice $B_k$, on isole le vecteur $a_k$.

$$
\begin{align*}
    B_k s_k = & \,\, y_k \\
    (B_{k-1} + \sigma_k a_k a_k^T) s_k = & \,\, y_k \\
    B_{k-1} s_k + \sigma_k a_k a_k^T s_k = & \,\, y_k \\
    a_k a_k^T s_k = & \,\, \frac{y_k - B_{k-1} s_k}{\sigma_k} \\
    a_k = & \,\, \frac{y_k - B_{k-1} s_k}{\sqrt{\sigma_k (y_k - B_{k-1} s_k)^T s_k}} \text{, avec $\sigma_k$ choisi de sorte à obtenir un dénominateur réel}
\end{align*}
$$

Afin d'éviter que le dénominateur ne tende vers $0$ et cause des problèmes de convergences, la condition suivante est utilisée :
$$|s_k^T(y_k - B_{k-1} s_k)| \geq r \|s_k\| \|y_k - B_{k-1} s_k\| \text{, avec $r$ très petit, $r \approx 10^{-8}$}$$

Comme avantage, cette méthode garantit la conservation de la symmétrie de la matrice mise à jour $B_k$. \
Par contre, un désavantage est que $B_k$ n'est pas garantie d'être définie positive, il faut choisir $\sigma_k$ adéquatement afin que ce soit le cas.

## Question 4
### a) Résoudre le problème à une dimension suivant

$$
\max_{t \in R} t \| g_k \|_2^2 - \frac{1}{2} t^2 L_g \| g_k \|_2^2
$$

On résout le problème en prenant la dérivée par rapport à la variable $t$.

$$
\begin{align*}
    \frac{d}{d t} (t \| g_k \|_2^2 - \frac{1}{2} t^2 L_g \| g_k \|_2^2) = & \,\, 0 \\
    \| g_k \|_2^2 - t L_g \| g_k \|_2^2 = & \,\, 0 \\
    t = & \,\, \frac{1}{L_g} \text{, si $\| g_k \|_2^2 \neq 0$} 
\end{align*}
$$

On vérifie qu'il s'agit bien d'un maximum avec la dérivée seconde.

$$
\begin{align*}
    \frac{d^2}{d t^2} ( t \| g_k \|_2^2 - \frac{1}{2} t^2 L_g \| g_k \|_2^2 ) < & \,\, 0 \\
    - L_g \| g_k \|_2^2 < & \,\, 0 \text{, vrai $\forall t \in R$} 
\end{align*}
$$

Donc $t = \frac{1}{L_g}$ est un maximum. Par conséquent, la valeur maximale la fonction est :

$$
\begin{align*}
    \max_{t \in R} t \| g_k \|_2^2 - \frac{1}{2} t^2 L_g \| g_k \|_2^2 = & \,\, \frac{1}{L_g} \| g_k \|_2^2 - \frac{1}{2} \frac{1}{L_g^2} L_g \| g_k \|_2^2 \\
    \max_{t \in R} t \| g_k \|_2^2 - \frac{1}{2} t^2 L_g \| g_k \|_2^2 = & \,\, \frac{\| g_k \|_2^2}{2 L_g}
\end{align*}
$$


### b) Démonstration 1.

Soit la propriété suivante

$$
\| R(x,y) \|_2 \leq \frac{L_g}{2} \| y-x \|_2^2
$$

On montre le résultat demandé à partir du développement de Taylor d'ordre 1 de la fonction $f$ autour du point $x$.

$$
\begin{align*}
    f(y) = & \,\, f(x) + (y-x)^T \nabla f(x) + R(x,y) \\
    f(x-t g_k) - f(x) = & \,\, -t g_k^T g_k + R(x,x-t g_k) \\
    f(x-t g_k) - f(x) \leq & \,\, -t \|g_k\|_2^2 + \frac{L_g}{2} \|x-t g_k-x\|_2^2 \\
    f(x) - f(x-t g_k) \geq & \,\, t \|g_k\|_2^2 - \frac{1}{2} t^2 L_g \|g_k\|_2^2 \text{, $\forall t \geq 0$}
\end{align*}
$$


### c) Démonstration 2.

Comme on trouve $x_{k+1} = x_k - t g_k$ par une recherche linéaire exacte, on a le résultat suivant concernant $g_{k+1}$

$$
g_{k+1}^T g_k = 0
$$

Par conséquent, on peut réécrire l'hypothèse H2 ainsi :

$$
\begin{align*}
    \|g_k-g_{k+1}\|_2 \leq & \,\, L_g \|x_k - x_{k+1}\|_2 \\
    \|g_k-g_{k+1}\|_2^2 \leq & \,\, L_g^2 \|x_k - x_{k+1}\|_2^2 \\
    \|g_k\|_2^2+\|g_{k+1}\|_2^2 - 2 g_{k+1}^T g_k \leq & \,\, L_g^2 \|t g_k\|_2 \\
    \|g_k\|_2^2+\|g_{k+1}\|_2^2 \leq & \,\, (t L_g)^2 \|g_k\|_2^2
\end{align*}
$$

On isole ensuite $t$ pour obtenir une borne minimale sur la valeur de $t$.

$$
\begin{align*}
    t \geq & \,\, \frac{1}{L_g} \sqrt{1+\frac{\|g_{k+1}\|_2^2}{\|g_k\|_2^2}} \\
    t \geq & \,\, \frac{1}{L_g}
\end{align*}
$$

Ceci implique que la solution à $\argmin_{t \geq 0} f(x_k - t g_k)$ est donnée par $t \geq \frac{1}{L_g}$, donc 

$$
\begin{align*}
    f(x_k-t g_k) \leq & \,\, f(x_k-\frac{1}{L_g} g_k) \\
    f(x_k) - f(x_k-t g_k) \geq & \,\, f(x_k) - f(x_k-\frac{1}{L_g} g_k)
\end{align*}
$$

On utilise ensuite le résultat de la question précédente pour obtenir $f(x_k) - f(x_k-\frac{1}{L_g} g_k) \geq \frac{1}{2 L_g} \|g_k\|_2^2$, donc

$$
\begin{align*}
    f(x_k) - f(x_k-t g_k) \geq & \,\, f(x_k) - f(x_k-\frac{1}{L_g} g_k) \geq \frac{1}{2 L_g} \|g_k\|_2^2 \\
    f(x_k) - f(x_k-t g_k) \geq & \,\, \frac{1}{2 L_g} \|g_k\|_2^2 
\end{align*}
$$


### d) Preuve du nombre maximal d'itérations nécessaires pour atteindre $\|g_k\|_2^2 \leq \epsilon$

Soit un point de départ $x_0$, $f(x_0)$ et $g_0$, le gradient évalué à ce point. On a

$$
\begin{align*}
    f(x_0) - f(x_0 - t_0 g_0) \geq & \,\, \frac{1}{2 L_g} \|g_0\|_2^2 \\
    f(x_1) \leq & \,\, f(x_0) - \frac{1}{2 L_g} \|g_0\|_2^2
\end{align*}
$$

Et de même pour tous $k$.

$$
\begin{align*}
    f(x_k) \leq & \,\, f(x_{k-1}) - \frac{1}{2 L_g} \|g_{k-1}\|_2^2
\end{align*}
$$

En partant de $x_0$ et allant jusqu'à l'itération $k^*$ (identifiant l'obtention d'une solution suffisante), on écrit

$$
\begin{align*}
    f(x_{k^*}) \leq & \,\, f(x_0) - \frac{1}{2 L_g} \sum_{n=0}^{k^*-1} \|g_{n}\|_2^2
\end{align*}
$$

On sait que $\|g_{n}\|_2^2 > \epsilon^2 \,\, \forall n < k^*$, puisque si $\|g_{n}\|_2^2 \leq \epsilon^2$, alors l'algorithme prend fin et $n=k^*$. \
Posons $\|g_{n}\|_2^2 = \epsilon^2 + \delta_n$, avec $\delta_n > 0$ $\forall n < k^*$. Avec $\delta_n = \delta \rightarrow 0 \,\, \forall n$, on obtient la progression la plus lente possible. Ainsi,

$$
\begin{align*}
    f(x_{k^*}) \leq & \,\, \lim_{\delta \rightarrow 0} (f(x_0) - \frac{1}{2 L_g} \sum_{n=0}^{k^*-1} (\epsilon^2 + \delta)) \\
    f(x_{k^*}) \leq & \,\, f(x_0) - \frac{1}{2 L_g} (\epsilon^2 + \lim_{\delta \rightarrow 0} \delta) \sum_{n=0}^{k^*-1} 1 \\
    f(x_{k^*}) \leq & \,\, f(x_0) - \frac{1}{2 L_g} \epsilon^2 k^* \\
    k^* \leq & \,\, \frac{2 L_g}{\epsilon^2}  (f(x_0) - f(x_{k^*}))
\end{align*}
$$

En supposant qu'il existe au moins un point $x^*$ situé près de $x_{k^*}$ pour lequel $\nabla f(x^*)=0$ et connaissant une borne minimale pour l'évaluation de la fonction à ce point, dénotée $f(x^*)$ et telle que $f(x^*) \leq f(x_{k^*})$, on écrit

$$
\begin{align*}
    k^* \leq & \,\, \frac{2 L_g}{\epsilon^2}  (f(x_0) - f(x_{k^*})) \leq \frac{2 L_g}{\epsilon^2}  (f(x_0) - f(x^*)) \\
    k^* \leq & \,\, \frac{2 L_g (f(x_0) - f(x^*))}{\epsilon^2}
\end{align*}
$$
