# La méthode du gradient (ou de Richardson dynamique)

On introduit la notion de résidu à la $k$-ième itération :



$$
\mathbf{r}^{(k)}=\mathbf{b}-A\mathbf{x}^{(k)},\quad k\geq 0.
$$


Alors, on peut réécrire [[eq2]](#eq2) sous la forme



$$
\label{eq:igra}
P(\mathbf{x}^{(k+1)}-\mathbf{x}^{(k)})=\mathbf{r}^{(k)},\quad k\geq 0.
$$


Considérons la méthode modifiée, dite *la méthode du gradient* :



$$
\label{eq:rich}
P(\mathbf{x}^{(k+1)}-\mathbf{x}^{(k)})=\alpha_k\mathbf{r}^{(k)},\quad k\geq 0,
$$


où $\alpha_k$ est un ***paramètre à choisir afin d&#8217;accélérer la convergence.***


Une formulation plus intèressante au niveau algorithmique est la suivante: on définit $\mathbf{r}^0=\mathbf{b}-A\mathbf{x}^{(0)}$ de telle manière que chaque étape de la méthode de Richardson est donnée à partir des sous-itérations suivantes :



$$
\label{gradpre}
\begin{split}
P\mathbf{z}^{(k)}=\mathbf{r}^{(k)}\\
\mathbf{x}^{(k+1)}=\mathbf{x}^{(k)}+\alpha_k\mathbf{z}^{(k)}\\
\mathbf{r}^{(k+1)}=\mathbf{r}^{(k)}-\alpha_k A\mathbf{z}^{(k)}
\end{split}
$$

## Choix de $\alpha_k$

On a les résultats suivants.
*Théorème: Cas stationnaire*\
On suppose la matrice $P$ inversible et les valeurs propres de $P^{-1}A$ strictement positives et telles que latexmath:[\lambda_{max}=\lambda_1\geq\lambda_2\geq \ldots\geq
\lambda_n=\lambda_{min}&gt;0]. Alors la méthode de Richardson stationnaire est convergente si et seulement si latexmath:[0&lt;\alpha&lt;2/
\lambda_1]. De plus, le rayon spectral de la matrice d&#8217;itération $R_\alpha$ est minimal si $\alpha=\alpha_{opt}$


$$
\alpha_{opt}= \frac{2}{\lambda_{min}+\lambda_{max}},
$$

avec


$$
\rho_{opt}=\frac{\lambda_{max}-\lambda_{min}}{\lambda_{min}+\lambda_{max}}
$$
*Preuve*\
La matrice d&#8217;itération de la méthode est donnée par $R_\alpha=I-\alpha P^{-1}A$, donc les valeurs propres de $R_\alpha$ sont de la forme $1-\alpha\lambda_i$. La méthode sera convergente si et seulement si $|1-\alpha\lambda_i|<1$ pour $i=1,\ldots,n$, soit donc si $-1<1-\alpha\lambda_i<1$ pour $i=1,\ldots,n$. Comme $\alpha>0$, ceci est équivalent à que $-1<1-\alpha\lambda_{max}$, d&#8217;où la condition necessaire et suffisante de convergence reste $\alpha <2/  \lambda_{max}$. Par conséquent, $\rho(R_\alpha)$ est minimal si $1-\alpha\lambda_n=\alpha\lambda_1-1$, c&#8217;est-à-dire, pour $\alpha_{opt}=2/(\lambda_{1}+\lambda_{n})$. Par substitution, on obtient


$$
\rho_{opt}=\rho(R_{opt})=1-\alpha_{opt}\lambda_{min}=
1-\frac{2\lambda_{min}}{\lambda_{min}+\lambda_{max}}=
\frac{\lambda_{max}-\lambda_{min}}{\lambda_{min}+\lambda_{max}}
$$

ce qui permet de completer la preuve. $\Box$
*Théorème: Cas dynamique*\
Si $A$ est symétrique définie positive, le choix optimal de $\alpha_k$ est donné par


$$
\alpha_k=\frac{(\mathbf{r}^{(k)}, \mathbf{z}^{(k)})}{(A
\mathbf{z}^{(k)}, \mathbf{z}^{(k)})},
\quad
\quad k\geq 0 \quad,
$$

où $\mathbf{z}^{(k)}=P^{-1}\mathbf{r}^{(k)}$.
*Preuve*\
D&#8217;une part on a


$$
\mathbf{r}^{(k)}=\mathbf{b}-A\mathbf{x}^{(k)}=A(\mathbf{x}-\mathbf{x}^{(k)})=-A\mathbf{e}^{(k)}
$$

où $\mathbf{e}^{(k)}$ represente l&#8217;erreur à l&#8217;étape $k$, et d&#8217;autre part


$$
\mathbf{e}^{(k+1)}=\mathbf{e}^{(k+1)}(\alpha)=\underbrace{(I-\alpha
P^{-1}A)}_{\displaystyle R_\alpha}\mathbf{e}^{(k)}.
$$

En autre, grâce à la relation latexmath:[\mathbf{x}^{(k+1)} =
\mathbf{x}^{(k)} + \alpha (P^{-1} \mathbf{b} - P^{-1} A
\mathbf{x}] on trouve:


$$
\begin{aligned}
\mathbf{r}^{(k+1)} &=& \mathbf{b} - A \mathbf{x}^{(k+1)} \\
&=& \mathbf{b} - A [ \mathbf{x}^{(k)} + \alpha (P^{-1} \mathbf{b}
- P^{-1} A \mathbf{x}^{(k)} )]\\
&=& \mathbf{b} - A \mathbf{x}^{(k)} - \alpha A P^{-1} (\mathbf{b}
- A \mathbf{x}^{(k)} )\\
&=& \mathbf{r}^{(k)} - \alpha A P^{-1} \mathbf{r}^{(k)}.
\end{aligned}
$$

Donc, en notant avec $\|\cdot\|_A$ la norme vectorielle issue du produit scalaire $(\mathbf{x},\mathbf{y})_A=(A\mathbf{x},\mathbf{y})$, c&#8217;est-à-dire, $\|\mathbf{x}\|_A=(A\mathbf{x},\mathbf{x})^{1/2}$ on tire que


$$
\begin{aligned}
\|\mathbf{e}^{(k+1)}\|^2_A &=& (A\mathbf{e}^{(k+1)},\mathbf{e}^{(k+1)})=-(\mathbf{r}^{(k+1)},\mathbf{e}^{(k+1)})\\
&=& - (\mathbf{r}^{(k)} - \alpha A P^{-1} \mathbf{r}^{(k)},
\mathbf{e}^{(k)} - \alpha P^{-1} A \mathbf{e}^{(k)}) \\
&=& -(\mathbf{r}^{(k)},\mathbf{e}^{(k)}) + \alpha
[(\mathbf{r}^{(k)},P^{-1}A\mathbf{e}^{(k)})+(A\mathbf{z}^{(k)},\mathbf{e}^{(k)})]
- \alpha^2(A\mathbf{z}^{(k)},P^{-1}A\mathbf{e}^{(k)})
\end{aligned}
$$

Maintenant on choisi $\alpha$ comme le $\alpha_k$ qui minimise $\|\mathbf{e}^{(k+1)}(\alpha)\|_A$, c&#8217;est-à-dire,


$$
\left.\frac{d}{d\alpha}\|\mathbf{e}^{(k+1)}(\alpha)\|_A\right|_{\alpha=\alpha_k}=0
$$

On obtient donc


$$
\alpha_k=\frac{1}{2}
\frac{(\mathbf{r}^{(k)},P^{-1}A\mathbf{e}^{(k)})+(A\mathbf{z}^{(k)},\mathbf{e}^{(k)})}{(A\mathbf{z}^{(k)},P^{-1}A\mathbf{e}^{(k)})}
=\frac{1}{2}\frac{-(\mathbf{r}^{(k)},\mathbf{z}^{(k)})+
(A\mathbf{z}^{(k)},\mathbf{e}^{(k)})}{-(A\mathbf{z}^{(k)},\mathbf{z}^{(k)})}
$$

et grâce à l&#8217;égalité latexmath:[(A\mathbf{z}^{(k)},
\mathbf{e}^{(k)} ) = (\mathbf{z}^{(k)}, A \mathbf{e}^{(k)})] dûe au fait que $A$ est symétrique définie positive, et en remarquant que latexmath:[A\mathbf{e}^{(k)} =
-\mathbf{r}^{(k)}], on trouve


$$
\alpha_k=\frac{(\mathbf{r}^{(k)}, \mathbf{z}^{(k)})}{(A
   \mathbf{z}^{(k)}, \mathbf{z}^{(k)})} \, ,
$$

ce qui complète la démonstration. $\Box$
En résumé, la méthode du gradient ($P=Id$) ou du gradient préconditionnée ($P \neq Id$) peut donc s&#8217;écrire:
étant donné $\mathbf{x}^{(0)} \in \mathbb{R}^n$, calculer latexmath:[\mathbf{r}^{(0)} = \mathbf{b} - A
\mathbf{x}^{(0)}] et pour $k = 0, 1, \ldots$ jusqu&#8217;à convergence

$$
\begin{array}{ll}
P\mathbf{z}^{(k)} = \mathbf{r}^{(k)} & \textrm{résidu
préconditionné}\\
\displaystyle{\alpha_k = \frac{ (\mathbf{r}^{(k)},
\mathbf{z}^{(k)})}{(A
\mathbf{z}^{(k)}, \mathbf{z}^{(k)} )}} \\
\mathbf{x}^{(k+1)} = \mathbf{x}^{(k)} + \alpha_k \mathbf{z}^{(k)}
& \\
\mathbf{r}^{(k+1)} = \mathbf{r}^{(k)} - \alpha_k A \mathbf{z}^{(k)} & \textrm{mise à jour du résidu}
\end{array}
$$

## Convergence de la méthode du gradient

*Théorème: Convergence de la méthode du gradient préconditionnée*\
Si $A$ est une matrice symétrique définie positive, alors la méthode de Richardson stationnaire préconditionnée est convergente et


$$
\| \mathbf{e}^{(k+1)}\|_A
\leq\frac{K_2(P^{-1}A)-1}{K_2(P^{-1}A)+1}\|
\mathbf{e}^{(k)}\|_A, \quad k\geq 0,
$$

si $P$, $A$ et $P^{-1}A$ sont symétriques définies positives. Le même résultat est valable pour la méthode du gradient préconditionnée._
*Preuve*\
Voir Corollaire 4.1 p. 130, et Théorème 4.10 p. 139 du livre de Quarteroni et Sacco. $\Box$
*Important:* En général, on choisit $P$ de façon à avoir

$$
K_2(P^{-1}A) \ll K_2(A).
$$
En conséquence,

$$
\frac{K_2(P^{-1}A)-1}{K_2(P^{-1}A)+1} \ll  \frac{K_2(A)-1}{K_2(A)+1}.
$$

## Pourquoi la "méthode du gradient"?

La fonctionnelle

$$
\Phi: \mathbb{R}^n \to \mathbb{R}, \quad
  \Phi(\mathbf{x})=\frac{1}{2}\mathbf{x}^TA\mathbf{x}-\mathbf{x}^T\mathbf{b}, \quad
  \Phi(\mathbf{x}) = \frac{1}{2} \sum_{i,j=1}^n x_i a_{ij}x_j - \sum_{i=1}^n b_i x_i,
$$
définit l&#8217;énergie du système $A\mathbf{x}=\mathbf{b}$. En effet, comme $A$ est symétrique

$$
\frac{\partial \Phi}{\partial x_m} = \frac{1}{2} \left( \sum_{j=1}^n a_{mj} x_j + \sum_{i=1}^n x_i a_{im}
  \right) - b_m = \frac{1}{2} \left[ (A\mathbf{x})_m + (A^T \mathbf{x})_m \right] - b_m = (A \mathbf{x})_m -
  b_m
$$

$$
\Rightarrow \quad \nabla\Phi(\mathbf{x})=\frac{1}{2}(A^T+A)\mathbf{x}-\mathbf{b}=A\mathbf{x}-\mathbf{b} \, .
$$
Par conséquent,

$$
\label{gradres}
\mathbf{r}(\mathbf{x})=-\nabla\Phi(\mathbf{x})
$$
et si $\nabla\Phi(\mathbf{x})=0$ alors $\mathbf{x}$ est solution du système.
Inversement, si $\mathbf{x}$ est solution du système alors $\mathbf{x}$ minimise la fonctionnelle $\Phi$, car comme $\Phi$ est une fonctionnelle quadratique un développement de Taylor donne

$$
\begin{aligned}
\Phi(\mathbf{y})=\Phi(\mathbf{x}+(\mathbf{y}-\mathbf{x}))= \Phi ({\bf x}) + \frac{1}{2}
({\bf y} - {\bf x})^T {\rm A} ( {\bf y} - {\bf x} ),
\qquad \forall {\bf y} \in \mathbb{R}^n
\end{aligned}
$$
et donc $\Phi ( {\bf y} ) > \Phi ( {\bf x} )$ pour ${\bf y} \neq {\bf x}$.
Considèrons la méthode [[eq13]](#eq13) avec $P^{-1}$, à l&#8217;étape $k$, $\mathbf{x}^{(k+1)}$ est déterminé par

$$
\mathbf{x}^{(k+1)}=\mathbf{x}^{(k)} + \alpha_k \mathbf{d}^{(k)},
$$
où $\alpha_k$ est la valeur qui fixe la longueur du pas le long de $\mathbf{d}^{(k)}$.
L&#8217;idée la plus naturelle est de prendre la direction de descente de pente maximale $\nabla \Phi(\mathbf{x}^{(k)})$.
C&#8217;est la ***méthode du gradient*** ou ***méthode de plus profonde descente***.
D&#8217;après [l&#8217;équation ci-dessus](#eq16), $\nabla  \Phi ( \mathbf{x}^{(k)} ) =  A\mathbf{x}^{(k)}- \mathbf{b} = -\mathbf{r}^{(k)}$, la direction du gradient de $\Phi$ coı̈ncide donc avec le résidu et peut être immédiatement calculée en utilisant la valeur $\mathbf{x}^{(k)}$.
*Important:* Ceci montre que la méthode du gradient, comme celle de Richardson, revient à se déplacer à chaque étape $k$ le long de la direction $\mathbf{d}^{(k)}=\mathbf{r}^{(k)}$, avec un paramètre $\alpha_k$ à déterminer.
## Implémentation de la méthode du gradient

Implémentons la méthode du gradient préconditionnée avec la documentation


In [0]:
Unresolved directive in 4-gradient.adoc - include::example$tan/syslin/gradient.py[]


## Exemple

Appliquons la méthode du gradient préconditionnée à la résolution du système linéaire suivant:


In [0]:
import numpy as np
# pick a 4x4 matrix symétrique définie positive
A=np.array([[2.,-1.,0.,0.],[-1.,2.,-1.,0.],[0.,-1.,2.,-1.],[0.,0.,-1.,2.]])
print(f"A = {A}")
# on calcule les valeurs propres de A
print(f"Valeurs propres de A: {np.linalg.eigvals(A)}")
print(f"Conditionnement de A: {np.linalg.cond(A)}")


D&#8217;après le théorème [[thm:3]](#thm:3), la méthode du gradient (ou de Richardson) préconditionnée converge.


In [0]:
from tan.syslin.gradient import gradient
[x_g,niter_g,res_g,inc_g]=gradient( A, np.array([1.,0.,1.,0]), P=np.diag(np.diag(A)) )
print(f"Solution: x = {x_g}")
print(f"Nombre d'itérations: {niter_g}")


Nous pouvons tracer la convergence du résidu ainsi que celle de l&#8217;incrément avec `Plotly`


In [0]:
import plotly.graph_objects as go
fig = go.Figure()
fig.add_trace(go.Scatter(x=np.arange(0,niter_g+1), y=inc_g, mode='lines+markers', name='Incrément'))
fig.add_trace(go.Scatter(x=np.arange(0,niter_g+1), y=res_g, mode='lines+markers', name='Résidu'))
fig.update_layout(title='Convergence de la méthode du gradient préconditionnée', xaxis_title='Itération', yaxis_title='Incrément et Résidu', yaxis_type='log')
fig.show()
