# Solveurs itératifs

Les méthodes directes atteignent leurs limites dans le cas de problèmes
à grande largeur de bande et grand nombre de degrés de liberté.
Néanmoins les architectures de calcul modernes multicœurs permettent
d'envisager des performances très intéressantes pour ces méthodes pour
des problèmes à plusieurs millions d'inconnues. Les solveurs itératifs
reposent sur l'introduction d'une tolérance sur le résultat espéré, il
doit s'approcher suffisamment près (dans un sens contrôlé) de la
solution, ils sont potentiellement beaucoup plus rapide que les solveurs
directs (qui obtiennent la solution en temps fixé par le profil de la
matrice) mais beaucoup plus sensible au conditionnement des opérateurs
puisque aux erreurs inévitables d'arrondi sont ajoutés des erreurs
d'approximation dues aux méthodes même.

Les solveurs itératifs sont toujours abordés dans les bouquins de
méthodes numériques (cf références de la première partie). La
littérature relative aux solveurs de Krylov ne cesse de s'accroître,
pour l'instant un point d'entrée incontournable est le *iterative method
for sparse linear systems* de Y. Saad (SIAM).

## Notations et contrôle de l'erreur

On résout toujours
${\mathbf{A}}{\mathbf{x}}={\mathbf{b}}$.
On note ${\mathbf{x}}_i$ la $i$-ème approximation,
${\mathbf{\delta}}_i={\mathbf{x}}-{\mathbf{x}}_i$
l'erreur et
${\mathbf{r}}_i={\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_i ={\mathbf{A}}({\mathbf{x}}-{\mathbf{x}}_i) ={\mathbf{A}}{\mathbf{\delta}}_i$
le résidu associé. L'initialisation joue un rôle un peu particulier, et
on décomposera souvent
${\mathbf{x}}_m={\mathbf{x}}_0+{\mathbf{\tilde{x}}}_m$,
${\mathbf{r}}_m={\mathbf{r}}_0-{\mathbf{A}}{\mathbf{\tilde{x}}}_m$.
On fait souvent appel à des groupes de vecteurs, on les notera comme des
matrices
${\mathbf{R}}_m = \begin{pmatrix}{\mathbf{r}}_0 \cdots {\mathbf{r}}_{m-1}\end{pmatrix}$
(l'indice fait donc référence au nombre de colonnes).

Le principe même d'un solveur itératif est d'être arrêté dès qu'un
critère mesurable est satisfait. Le principal critère est lié au résidu,
on itère tant que
$\|{\mathbf{r}}_i\|>\varepsilon\|{\mathbf{b}}\|$
avec $\varepsilon$ choisi à partir de (i) expérience utilisateur, (ii)
si possible lien avec une erreur issue d'une autre approximation (par
exemple erreur de discrétisation d'une méthode élément fini -- rien ne
sert d'un point de vue mécanique de faire une résolution précise sur un
maillage ultra grossier), (iii) l'erreur d'un solveur de niveau
supérieur (cas des méthodes Newton inexact où on se permet de faire
moins bien converger le solveur tangent quand le résidu non-linéaire est
grand). Bien sûr, on a
$\|\delta_i\|\leqslant\|{\mathbf{A}}^{-1}\|\|{\mathbf{r}}_i\|$
et le résidu est une bonne information que si l'inverse du problème est
de norme raisonnable.

Un autre critère possible est la "stagnation" du solveur
$\|{\mathbf{x}}_{i+1}-{\mathbf{x}}_i\|$. Dans
certains cas on peut lier cette quantité à l'erreur.




In the context of solving a linear system of equations ${\mathbf{A}}{\mathbf{x}}={\mathbf{b}}$, the iterative method is used to approximate the solution ${\mathbf{x}}$. The notation ${\mathbf{x}}_i$ represents the i-th approximation of the solution, ${\mathbf{\delta}}_i={\mathbf{x}}-{\mathbf{x}}_i$ represents the error in that approximation, and ${\mathbf{r}}_i={\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_i ={\mathbf{A}}({\mathbf{x}}-{\mathbf{x}}_i) ={\mathbf{A}}{\mathbf{\delta}}_i$ represents the associated residual. The initial approximation ${\mathbf{x}}_0$ plays a special role, and often ${\mathbf{x}}_m={\mathbf{x}}_0+{\mathbf{\tilde{x}}}_m$, ${\mathbf{r}}_m={\mathbf{r}}_0-{\mathbf{A}}{\mathbf{\tilde{x}}}_m$ is used.

The iterative solver stops when a measurable criterion is satisfied. The main criterion is related to the residual, and the iteration continues until $|{\mathbf{r}}_i|>\varepsilon|{\mathbf{b}}|$ where $\varepsilon$ is chosen based on user experience, the error from other approximations, or the error from a higher level solver. Also, it's worth noting that $|\delta_i|\leqslant|{\mathbf{A}}^{-1}||{\mathbf{r}}_i|$ and the residual is

## Méthodes de stationnarité

Ces méthodes reposent sur le partitionnement de la matrice
${\mathbf{A}}={\mathbf{M}}-{\mathbf{N}}$
avec ${\mathbf{M}}$ facile à inverser. On réécrit le système
:
$${\mathbf{x}}= {\mathbf{M}}^{-1}{\mathbf{N}}{\mathbf{x}}+{\mathbf{M}}^{-1}{\mathbf{b}}$$
On utilise un schéma de type point fixe : $$\begin{aligned}
{\mathbf{x}}_{i+1}&= {\mathbf{M}}^{-1}{\mathbf{N}}{\mathbf{x}}_i+{\mathbf{M}}^{-1}{\mathbf{b}}\\
\mathbf{\delta}_{i+1}&= {\mathbf{M}}^{-1}{\mathbf{N}}\mathbf{\delta}_i
\end{aligned}$$ qui converge dès que
$\rho({\mathbf{M}}^{-1}{\mathbf{N}})<1$.

Un premier partitionnement consiste à choisir
${\mathbf{M}}={\mathbf{I}}/\omega$ et
${\mathbf{N}}={\mathbf{I}}/\omega-{\mathbf{A}}$, où $\omega$ est un paramètre (de relaxation ou d'accélération) - qui peut éventuellement dépendre des itérations - 
ce qui conduit aux itérations de Richardson :
$${\mathbf{x}}_{i+1}= {\mathbf{x}}_i+\omega {\mathbf{r}}_i = ({\mathbf{I}}-\omega{\mathbf{A}}){\mathbf{x}}_i+\omega{\mathbf{b}}$$

Si on écrit
${\mathbf{A}}={\mathbf{D}}-{\mathbf{E}}-{\mathbf{F}}$
avec ${\mathbf{D}}$ diagonale ${\mathbf{E}}$
strictement triangulaire inférieure et ${\mathbf{F}}$
strictement triangulaire supérieure. On distingue les méthodes suivantes
:

-   Jacobi : ${\mathbf{M}}={\mathbf{D}}$ et
    ${\mathbf{N}}={\mathbf{E}}+{\mathbf{F}}$
    ,

-   Gauss-Seidel :
    ${\mathbf{M}}={\mathbf{D}}-{\mathbf{E}}$
    et ${\mathbf{N}}={\mathbf{F}}$,

-   Gauss-Seidel rétrograde (*backward*) :
    ${\mathbf{M}}={\mathbf{D}}-{\mathbf{F}}$
    et ${\mathbf{N}}={\mathbf{E}}$,

-   Gauss-Seidel symétrique : enchainement d'un Gauss-Seidel classique
    et d'un Gauss-Seidel rétrograde,

-   Sur-relaxation, $\omega$ paramètre réel:
    ${\mathbf{M}}={\mathbf{D}}-\omega{\mathbf{F}}$
    et
    ${\mathbf{N}}=(\frac{1}{\omega}-1){\mathbf{D}}+{\mathbf{E}}$
    (en Anglais on parle de *successive overrelaxation* (SOR)),

-   Sur-relaxation rétrograde et symétrique (SSOR).

Dans les méthodes de Richardson et de sur-relaxation on distingue la
zone où $\omega$ rend la méthode convergente, et la valeur qui rend la
convergence optimale (plus petit rayon spectral).

On propose de coder la plus simple des méthode (Jacobi) et la comparer à la méthode directe numpy.

In [37]:
import numpy as np
from numpy import linalg as la
import timeit

n=1000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

x1 = la.solve(A,b)

def jacobi(A, b, nmax_iter, emax,n):
    F = np.triu(A, k = 1)
    E = np.tril(A, k = -1)

    M = np.diagflat(1/np.diag(A))
    N = E + F

    x = np.zeros_like(b)
    iter = 0
    error = 1
    while iter < nmax_iter and error > emax:
        x_old = x.copy()
        x[:] = np.dot(M, b - np.dot(N, x))
        error = la.norm(x -x_old, n)/la.norm(x, n)
        iter+=1
    return x, iter, error


x , n_iter, error = jacobi(A, b, 100, 1e-10,2)

assert(np.allclose(x,x1))
print("Both methods result the same solution\nMax iterations taken by steepest descent:", n_iter)

%timeit jacobi(A, b, 100, 1e-10,np.inf)
%timeit la.solve(A, b)

Both methods result the same solution
Max iterations taken by steepest descent: 16
384 µs ± 45.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
7.5 µs ± 1.25 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


On voit que ces systèmes sont équivalents à résoudre :
$${\mathbf{M}}^{-1}{\mathbf{A}}{\mathbf{x}}={\mathbf{M}}^{-1}{\mathbf{b}}$$
on interprète alors ${\mathbf{M}}^{-1}$ comme un
préconditionneur (à gauche) : un opérateur qui ne modifie pas la
solution du problème mais donne un système équivalent mieux conditionné.
Ici vue la condition de convergence, il s'agit de rendre le rayon
spectral de la matrice d'itération
$({\mathbf{I}}-{\mathbf{M}}^{-1}{\mathbf{A}})$
le plus petit possible (et impérativement inférieur à $1$).

Dans les méthodes de stationnarité, on a les propriétés suivantes :
$$\begin{aligned}
{\mathbf{x}}_{k+1}-{\mathbf{x}}_{k} &= {\mathbf{M}}^{-1}({\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_k)={\mathbf{M}}^{-1}{\mathbf{r}}_k \\&= ({\mathbf{I}}-{\mathbf{M}}^{-1}{\mathbf{N}}){\mathbf{\delta}}_k
\end{aligned}$$ Autrement dit le résidu préconditionné correspond à la
stagnation du solveur. Si
${\mathbf{M}}^{-1}{\mathbf{N}}$ est trop proche de
l'identité (mauvais rayon spectral), la stagnation donne une mauvaise
information sur la convergence de la méthode.

Il existe énormément de résultats de convergence de ces méthodes, selon
le signe des coefficients des matrices ${\mathbf{M}}$,
${\mathbf{N}}$ et ${\mathbf{A}}^{-1}$, le
caractère diagonal-dominant, le caractère symétrique défini positif, le
profil de la matrice, etc.


## Méthodes de projection

### Principes

Soit $\mathbb{V}$ et $\mathbb{W}$ deux sous-espaces de dimension $m$.
Une technique de projection sur $\mathbb{V}$ (espace d'approximation)
orthogonalement à $\mathbb{W}$ (espace de contrainte), en connaissance
d'une initialisation ${\mathbf{x}}_0$, consiste à chercher
l'approximation ${\mathbf{x}}_m$ telle que :
$$\begin{aligned}
{\mathbf{x}}_m &\in {\mathbf{x}}_0 + \mathbb{V} \\
{\mathbf{r}}_m &\perp \mathbb{W} \\
\end{aligned}$$ Ce cadre de recherche (espace d'approximation/espace de
contrainte) très classique forme les conditions de Petrov-Galerkin ;
dans le cas d'une projection orthogonale ($\mathbb{W}=\mathbb{V}$) on
parle simplement de conditions de Galerkin.

Matriciellement la méthode s'écrit
${\mathbf{x}}_m={\mathbf{x}}_0+{\mathbf{V}}{\mathbf{y}}$,
et
$0={\mathbf{W}}^T{\mathbf{r}}_m={\mathbf{W}}^T({\mathbf{r}}_0-{\mathbf{A}}\tilde{{\mathbf{x}}}_m)$
soit $$\label{eq:iterpg}
\begin{aligned}
{\mathbf{x}}_m&={\mathbf{x}}_0+{\mathbf{V}}({\mathbf{W}}^T{\mathbf{A}}{\mathbf{V}})^{-1}{\mathbf{W}}^T{\mathbf{r}}_0\\
{\mathbf{r}}_m&=({\mathbf{I}}-{\mathbf{A}}{\mathbf{V}}({\mathbf{W}}^T{\mathbf{A}}{\mathbf{V}})^{-1}{\mathbf{W}}^T){\mathbf{r}}_0\\
\end{aligned}$$ Sous certaines conditions la matrice
$({\mathbf{W}}^T{\mathbf{A}}{\mathbf{V}})$
est inversible ce qui rend l'approximation bien définie. Les algorithmes
basés sur un principe de projection évitent en général de devoir
inverser réellement cette matrice.


**Proposition 6.1**. *On a deux résultats importants :*

-   *Si ${\mathbf{A}}$ est symétrique définie positive et
    $\mathbb{V}=\mathbb{W}$ alors ${\mathbf{x}}_m$ minimise
    $\|\mathbf{\delta}_m\|_A$ sur $\mathbb{K}$.*

-   *Si $\mathbb{W}={\mathbf{A}}\mathbb{V}$ alors
    ${\mathbf{x}}_m$ minimise
    $\|{\mathbf{r}}_m\|_2$ sur $\mathbb{K}$.*


*Proof.* Avec les notations précédentes,

-   On a
    $\|{\mathbf{x}}-{\mathbf{x}}_0-{\mathbf{V}}{\mathbf{y}}\|^2_A=\|{\mathbf{x}}-{\mathbf{x}}_0\|^2_A+\|{\mathbf{V}}{\mathbf{y}}\|^2_A - 2({\mathbf{V}}{\mathbf{y}})^T{\mathbf{A}}({\mathbf{x}}-{\mathbf{x}}_0)$,
    en utilisant
    ${\mathbf{A}}({\mathbf{x}}-{\mathbf{x}}_0)={\mathbf{r}}_0$
    puis en minimisant par rapport à ${\mathbf{y}}$ on
    obtient la formule avec
    ${\mathbf{W}}={\mathbf{V}}$.

-   On a
    $\|{\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_0-{\mathbf{A}}{\mathbf{V}}{\mathbf{y}}\|_2^2 = \|{\mathbf{r}}_0\|_2^2 + \|{\mathbf{A}}{\mathbf{V}}{\mathbf{y}}\|_2^2 - 2({\mathbf{A}}{\mathbf{V}}{\mathbf{y}})^T {\mathbf{r}}_0$
    en minimisant par rapport à à ${\mathbf{y}}$ on obtient
    la formule avec
    ${\mathbf{W}}={\mathbf{A}}{\mathbf{V}}$.

 ◻

### Algorithmes 1D

On choisit ici de ne retenir que des espaces de dimension $1$
réinitialisés à chaque itération. Autrement dit ces algorithmes ont une
mémoire minimale : d'une itération à l'autre on se souvient uniquement
de l'approximation trouvée (et du résidu associé).

#### Descente optimale -- *Steepest descent*

${\mathbf{A}}$ est SPD. On choisit ici de faire variation
${\mathbf{x}}$ dans la direction qui maximise (localement) la
variation de la ${\mathbf{A}}$-norme de l'erreur. On se place
donc dans le cadre
$\mathbb{V}={\operatorname{vect}}({\mathbf{r}})=\mathbb{W}$.

![algo_1-2.png](attachment:algo_1-2.png)

La méthode converge pour toute matrice SPD. Le taux de convergence est
donné par :
$$\|\mathbf{\delta}_{k+1}\|_A \leqslant \frac{\lambda_{\max}-\lambda_{\min}}{\lambda_{\max}+\lambda_{\min}} \|\mathbf{\delta}_{k}\|_A$$

On propose de coder la méthode steepest descent et la comparer à la résolution directe de numpy.

In [35]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

x1 = la.solve(A,b)


def steep_descent(A, b, max_iter, er_max):
    n_iter = 0
    error = 1
    x = np.zeros_like(b)
    while n_iter<max_iter and error>er_max:
        r = b - np.dot(A,x)
        p = np.dot(A,r)
        alpha = np.dot(r, r)/np.dot(p, r)
        x[:] += alpha*r
        r -= alpha*p
        error = la.norm(r)
        n_iter += 1
        
    return x, n_iter, error


x, n_iter, error = steep_descent(A, b, 100, 1e-10)

assert(np.allclose(x,x1))
print("Both methods result the same solution\nMax iterations taken by steepest descent:", n_iter)

%timeit steep_descent(A, b, 100, 1e-10)
%timeit la.solve(A,b)
        

Both methods result the same solution
Max iterations taken: 12
12.7 ms ± 1.08 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
19.6 ms ± 4.03 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


#### Résidu minimal -- MR

On se place ici dans le cas d'une matrice définie positive (*ie* la
partie symétrique ${\mathbf{A}}^{s}$ de la matrice est SPD).
On se place ici dans le cadre
$\mathbb{V}={\operatorname{vect}}({\mathbf{r}})$
et
$\mathbb{W}={\operatorname{vect}}({\mathbf{A}}{\mathbf{r}})$
et on minimise donc la 2-norme du résidu.

![algo_2-2.png](attachment:algo_2-2.png)

La méthode converge, le taux est donné par:
$$\|{\mathbf{r}}_{k+1}\|_2 \leqslant \left(1-\frac{\lambda_{\min}({\mathbf{A}}^{s})^2}{\sigma({\mathbf{A}})^2}\right)^{1/2} \|{\mathbf{r}}_{k}\|_2$$

On propose comme précédemment de coder la méthode résidu minimal et la comparer à la résolution directe de numpy.

In [9]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

x1 = la.solve(A,b)


#### Descente optimale pour le problème normal

On se place ici dans le cas d'une matrice inversible. On applique une
*steepest descent* sur l'équation normale,
$\mathbb{V}={\operatorname{vect}}({\mathbf{A}}^T{\mathbf{r}})$
et
$\mathbb{W}={\operatorname{vect}}({\mathbf{A}}{\mathbf{r}})$
et on minimise donc la 2-norme du résidu dans la direction optimale.

![algo_3.png](attachment:algo_3.png)

La matrice du problème normal est SPD donc la convergence est guidée par
les résultats de l'algorithme de *steepest descent*.

Coder cette méthode et la comparer à la résolution directe de numpy.

In [12]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

x1 = la.solve(A,b)

## Solveurs de Krylov

Les algorithmes de Krylov sont des méthodes de projection sur des
espaces de dimension croissante. On définit le sous-espace de Krylov
$\mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0)={\operatorname{vect}}\left({\mathbf{r}}_0, \cdots ,{\mathbf{A}}^{m-1}{\mathbf{r}}_0\right)$
dans lequel la solution est recherchée (modulo une initialisation).
L'espace de contrainte $\mathbb{L}_m$ permettra de définir les
différentes méthodes. Les implémentations permettent de rendre la
recherche de la $m$-ème approximation peu coûteuse malgré l'optimisation
vis-à-vis d'un espace de taille croissante.

Du fait de la forme de l'espace de Krylov, on voit que l'on cherche la
solution sous la forme
${\mathbf{x}}={\mathbf{x}}_0 + q({\mathbf{A}}){\mathbf{r}}_0$
avec $q$ un polynôme de degré $m-1$. On appelle le grade du vecteur
${\mathbf{r}}_0$ le rang $m$ à partir duquel l'espace de
Krylov devient invariant :
$\mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0)=\mathbb{K}_\mu({\mathbf{A}},{\mathbf{r}}_0),\ \mu\geqslant m$.
C'est aussi le degré du polynôme minimal de ${\mathbf{A}}$
associé à ${\mathbf{r}}_0$ (le plus petit polynôme tel que
$q({\mathbf{A}}){\mathbf{r}}_0=0$).

On propose de réaliser une fonction qui génère l'espace de Krylov d'ordre $m$. L'utilité d'une base est son conditionnement : il mesure le degré d'indépendance linéaire des vecteurs. On comparera le conditionnnement de l'espace de Krylov pour différentes valeurs de $m$ pour constater que son conditionnement augmente très rapidement lorsque $m$ augmente.

In [14]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice quelconque
A = np.random.random((n, n))
# r0 est le second membre
r0 = np.random.random((n))


La raison mathématique est que les puissances ${\mathbf{A}}^{m}$ convergent vers le vecteur propre associé à la plus grande valeur propre de ${\mathbf{A}}$. Par conséquent, les itérations successivenet pointent de plus en plus dans la même direction et ne sont plus  linéairement indépendantes. Le cas idéal serait de générer une base orthogonale, où tous les vecteurs de base sont orthogonaux entre eux par paire et de longueur unitaire.

Ceci est accompli par l'algorithme suivant qui, après chaque multiplication avec la matrice A orthogonalise le nouveau vecteur par rapport à tous les vecteurs précédents.

### Algorithmes basés sur la méthode d'Arnoldi

La méthode d'Arnoldi permet de réduire une matrice sous forme Hessemberg
supérieure à l'aide de transformation unitaire.

![algo_4.png](attachment:algo_4.png)


La base des ${\mathbf{V}}_m$ est 2-orthonormale et vérifie
les propriétés suivantes : $$\begin{aligned}
{\mathbf{A}}{\mathbf{V}}_m &= {\mathbf{V}}_{m+1}{\mathbf{\bar{H}}}_m \\
{\mathbf{A}}{\mathbf{V}}_m &= {\mathbf{V}}_{m}{\mathbf{H}}_m+h_{(m+1)m}{\mathbf{v}}_{m+1}{\mathbf{e}}_m^T \\
{\mathbf{V}}_m^T{\mathbf{A}}{\mathbf{V}}_m &= {\mathbf{H}}_m 
\end{aligned}$$ La matrice ${\mathbf{H}}_m$ est carrée
$m\times m$ Hessemberg supérieure (non-nulle dans le triangle supérieur
et la première sous-diagonale). La matrice
${\mathbf{\bar{H}}}_m$ est rectangulaire ($m+1$ lignes, $m$
colonnes), sur la dernière ligne, seul le dernier coefficient est
non-nul.

Les méthodes de résolution vont consister à chercher
${\mathbf{x}}_m={\mathbf{x}}_0+{\mathbf{V}}_m {\mathbf{y}}_m$
en initialisant la construction de la base par le vecteur
${\mathbf{v}}_1=\frac{{\mathbf{r}}_0}{\|{{\mathbf{r}}_0}\|}$.

On propose de coder la méthode d'Arnoldi et on vérifiera que le conditionnement vaut toujours $1$ indépendamment de $m$.

In [16]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice quelconque
A = np.random.random((n, n))
# r0 est le second membre
r0 = np.random.random((n))


#### Méthode FOM

La méthode FOM (*full orthogonalisation method*) consiste à choisir pour
espace de projection $\mathbb{L}_m=\mathbb{K}_m$. $$\begin{aligned}
{\mathbf{V}}_m^T {\mathbf{A}}{\mathbf{x}}_m &= {\mathbf{V}}_m^T{\mathbf{r}}_0 = \|{\mathbf{r}}_0\|{\mathbf{e}}_1\\
{\mathbf{x}}_m& ={\mathbf{x}}_0 +  \|{\mathbf{r}}_0\|{\mathbf{V}}_m{\mathbf{H}}_m^{-1}{\mathbf{e}}_1
\end{aligned}$$

Cette méthode est très conceptuellement très simple, elle est à la base
de beaucoup d'autres et beaucoup d'algorithmes peuvent être décrits
comme une FOM appliquée à un problème modifié. Néanmoins cette méthode
est très peu employée car elle présente d'importantes lacunes pratiques,
notamment il est impossible de connaitre la qualité de l'approximation
sans faire explicitement le calcul de ${\mathbf{x}}_m$ (pour
en déduire la norme du résidu ${\mathbf{r}}_m$). Or
l'inversion de ${\mathbf{H}}_m$ reste une opération couteuse.
Pour les systèmes généraux, on préfère donc en général l'utilisation de
GMRes ; pour les systèmes symétriques, FOM est équivalente à un gradient
conjugué dont la mise en œuvre est très efficace.

On remarque au passage que comme
${\mathbf{r}}_{m+1}\perp\mathbb{K}_m$, l'espace de Krylov est
également engendré par la suite des résidus :
$\mathbb{K}_{m+1}=\operatorname{vect}({\mathbf{r}}_0,{\mathbf{r}}_1,\ldots,{\mathbf{r}}_m)$.
Plus précisément, on a $$\begin{aligned}
{\mathbf{r}}_m& =  {\mathbf{r}}_0 - \|{\mathbf{r}}_0\|{\mathbf{A}}{\mathbf{V}}_m{\mathbf{H}}_m^{-1}{\mathbf{e}}_1 \\
&=  \|{\mathbf{r}}_0\|({\mathbf{v}}_1 -{\mathbf{V}}_{m}{\mathbf{H}}_m+h_{(m+1)m}{\mathbf{v}}_{m+1}{\mathbf{e}}_m^T){\mathbf{H}}_m^{-1}{\mathbf{e}}_1 \\
&= \|{\mathbf{r}}_0\|h_{(m+1)m}({\mathbf{e}}_m^T{\mathbf{H}}_m^{-1}{\mathbf{e}}_1){\mathbf{v}}_{m+1}
\end{aligned}$$ Le résidu à l'itération $m$ est colinéaire au $m+1$
vecteur de la base d'Arnoldi.



#### Méthode GMRes

GMRes est une méthode dont il existe des mises en oeuvre très
astucieuses. La méthode repose sur le choix
$\mathbb{L}_m={\mathbf{A}}\mathbb{K}_m$ qui est équivalent à
choisir de minimiser la norme du résidu à chaque itération. On a, en
utilisant l'orthogonalité des colonnes de
${\mathbf{V}}_{m+1}$ : $$\label{eq:gmres:2}
\begin{aligned}
{\mathbf{r}}_m&={\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_m={\mathbf{r}}_0-{\mathbf{A}}{\mathbf{V}}_m{\mathbf{y}}_m\\
&=\|{\mathbf{r}}_0\|{\mathbf{v}}_1 - {\mathbf{V}}_{m+1} {\mathbf{\bar{H}}}_m {\mathbf{y}}_m\\
&={\mathbf{V}}_{m+1} (\|{\mathbf{r}}_0\|{\mathbf{e}}_1 - {\mathbf{\bar{H}}}_m {\mathbf{y}}_m)\\
\|{\mathbf{r}}_m\|_2&= \|\|{\mathbf{r}}_0\|{\mathbf{e}}_1 - {\mathbf{\bar{H}}}_m {\mathbf{y}}_m\|_2
\end{aligned}$$

L'intérêt de GMRes est qu'il n'est pas nécessaire de minimiser
la deuxième expression du résidu pour obtenir un indicateur de convergence. Il
est en effet possible de connaître la norme du résidu sans calculer
explicitement la solution à chaque itération. 

Le principe repose sur
l'utilisation de rotations de Givens pour triangulariser la matrice
${\mathbf{\bar{H}}}_m$:

-   à chaque itération on rajoute une colonne à
    ${\mathbf{\hat{H}}}_m$

-   on applique à cette colonne les rotations précédemment déterminée
    (la matrice obtenue n'a qu'un coefficient non triangulaire),

-   on détermine l'angle qui permet de triangulariser la matrice
    (supprimer le seul coefficient hors triangle)

-   on met à jour le second membre en appliquant la nouvelle rotation
    (le second membre est un vecteur de taille $m+1$)

A la fin du processus on a face à face une matrice rectangulaire
(triangulaire supérieure avec la dernière ligne de zéros) et un vecteur
$m+1$. Puisqu'on appliqué des transformations unitaires, la norme du
second membre est inchangée et le $(m+1)^{eme}$ coefficient est égal à
la norme du résidu après inversion (virtuelle) de la matrice
triangulaire.

Ainsi à chaque itération la matrice est agrandie, triangularisée, la
norme du résidu est évaluée, quand elle est suffisamment petite on
stoppe les itérations et on inverse le système triangulaire pour avoir
la solution.

Une version simple de l'algorithme GMRes (pas si éloigné de la méthode d'Arnoldi) est donné ci-dessous.

![algo_5.png](attachment:algo_5.png)

On se propose de l'implémenter et de le comparer au solver direct numpy.

In [17]:
import numpy as np
from numpy import linalg as la

n=5000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

x1 = la.solve(A,b)


### Algorithmes basés sur la méthode de Lanczos symétrique

La méthode de Lanczos peut être vue comme une simplification de la
méthode d'Arnoldi dans le cas symétrique puisqu'alors la matrice
${\mathbf{H}}_m$ est tridiagonale symétrique.
L'orthogonalisation peut alors se faire selon une récurrence courte. On
pose
${\mathbf{H}}_m=\operatorname{tridiag}(\beta_{i},\alpha_i,\beta_{i+1})$.


L'équivalent de FOM consiste a effectuer $m$ itérations de Lanczos
suivies du calcul suivant : $$\begin{aligned}
{\mathbf{y}}_m &= \|{\mathbf{r}}_0\|{\mathbf{H}}_m^{-1} {\mathbf{e}}_1 \\
{\mathbf{x}}_m &= {\mathbf{x}}_0 + {\mathbf{V}}_m {\mathbf{y}}_m \\
{\mathbf{r}}_m &= {\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_m = - \beta_{m+1} {\mathbf{e}}_m^T{\mathbf{y}}_m {\mathbf{v}}_{m+1}
\end{aligned}$$ où l'on observe notamment que la suite des résidus est
orthogonale (pour le produit scalaire euclidien).

![algo_6.png](attachment:algo_6.png)

#### Gradient conjugué

Le gradient conjugué peut être vu comme une adaptation de la méthode FOM
dans le cas des matrices symétriques définies positives. Il repose sur
l'introduction d'une base ${\mathbf{A}}$-orthogonale
$({\mathbf{w}}_j)$ de l'espace de Krylov.

L'idée est la suivante : on factorise
${\mathbf{H}}_m = {\mathbf{L}}_m{\mathbf{U}}_m$
avec $${\mathbf{L}}_m = \begin{pmatrix}
1 & & &\\
\lambda_2 & \ddots & &\\
& \ddots & \ddots &\\
&  & \lambda_m  & 1 \\
\end{pmatrix} \qquad {\mathbf{U}}_m = \begin{pmatrix}
\delta_1 & \beta_2 & &\\
& \ddots &\ddots &\\
& & \ddots & \beta_m \\
&  &  & \delta_m \\
\end{pmatrix}$$ On voit que
${\mathbf{x}}_m={\mathbf{x}}_0+\|{\mathbf{r}}_0\|{\mathbf{V}}_m{\mathbf{U}}_m^{-1}{\mathbf{L}}_m^{-1}{\mathbf{e}}_1$
et on note
${\mathbf{W}}_m={\mathbf{V}}_m{\mathbf{U}}_m^{-1}$
et
${\mathbf{z}}_m=\|{\mathbf{r}}_0\|{\mathbf{L}}_m^{-1}{\mathbf{e}}_1$.
La famille ${\mathbf{W}}_m$ est
${\mathbf{A}}$-orthogonale en effet :
$${\mathbf{W}}_m^T {\mathbf{A}}{\mathbf{W}}_m = {\mathbf{U}}_m^{-T}{\mathbf{V}}_m^T  {\mathbf{A}}{\mathbf{V}}_m{\mathbf{U}}_m^{-1} = {\mathbf{U}}_m^{-T} {\mathbf{H}}_m{\mathbf{U}}_m^{-1} = {\mathbf{U}}_m^{-T} {\mathbf{L}}_m$$
cette dernière matrice étant à la fois symétrique et triangulaire
inférieure, elle est diagonale.

D'après les calculs précédents,
${\mathbf{x}}_m={\mathbf{x}}_0+{\mathbf{W}}_m{\mathbf{z}}_m$
avec : $$\begin{aligned}
{\mathbf{w}}_m &= \delta_m^{-1}({\mathbf{v}}_m-\beta_m {\mathbf{w}}_{m-1}) \quad\text{récurrence courte}\\
\lambda_m &= \beta_m / \delta_{m-1}\\
\delta_m &= \alpha_m -\lambda_m \beta_m
\end{aligned}$$ Si on pose ${\mathbf{z}}_m=\begin{pmatrix}
{\mathbf{z}}_{m-1} \\ z_m^*
\end{pmatrix}$ on voit que
${\mathbf{x}}_m={\mathbf{x}}_{m-1}+z_m^* {\mathbf{w}}_m$,
donc l'approximation se met à jour dans une direction simple, avec au
passage $z_m^*=-\lambda_mz^*_{m-1}$.

Le gradient conjugué s'interprète donc donc une méthode de recherche où
l'inconnue est mise à jour dans une base
${\mathbf{A}}$-orthogonale de l'espace de Krylov tel que les
résidus soient orthogonaux. Dans l'algorithme suivant, les coefficients
$\alpha$ et $\beta$ ne sont pas les mêmes que ceux de Lanczos.

![algo_7.png](attachment:algo_7.png)

Normalement les deux dernières lignes de l'algorithme permettent
d'assurer l'${\mathbf{A}}$-orthogonalité (la conjugaison) de
l'ensemble des $({\mathbf{w}}_j)$. Un problème récurent est
la perte numérique d'orthogonalité : au bout d'un nombre important
d'itérations, les vecteurs nouvellement générés ne sont plus orthogonaux
à ceux générés au début ; les conséquences d'une telle perte
d'orthogonalité peuvent être dramatiques sur la convergence des solveurs
basés sur ces bases. Diverses stratégies de réorthogonalisation sont
possibles. Fondamentalement, on remplace les dernières lignes par
${\mathbf{w}}_{j+1}={\mathbf{r}}_{j+1}-{\mathbf{W}}_{j+1}({\mathbf{W}}_{j+1}^T{\mathbf{A}}{\mathbf{W}}_{j+1})^{-1} {\mathbf{W}}_{j+1}^T{\mathbf{A}}{\mathbf{r}}_{j+1}$,
ceci dit les mises en oeuvre varient (Gram-Schmidt
classique/modifié/itératif).

Implémenter la méthode du gradient conjugué et la comparer au solveur standard numpy.

In [18]:
import numpy as np
from numpy import linalg as la

n=1000
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))

#### MinRes

MinRes est la transposition de GMRes dans le cas des matrices
symétriques. Il requiert un peu plus de ressources de calcul que le
gradient conjugué et est en conséquence moins utilisé.

### Algorithmes basés sur la biorthogonalisation de Lanczos

Ces méthodes s'interprètent comme des projections obliques selon des
espaces définis à partir de l'espace de Krylov associé à l'opérateur
transposé. Elles sont très générales (elles peuvent s'appliquer à des
matrices quelconques) mais parce qu'elles ne sont pas associées à des
propriétés de minimisation, elles sont difficiles à analyser
mathématiquement.

![algo_8.png](attachment:algo_8.png)

**Proposition 6.2**. *Si l'algorithme n'a pas stoppé avant le rang $m$
alors ${\mathbf{V}}_m$ et ${\mathbf{W}}_m$ forment
un système biorthogonal :
$${\mathbf{W}}_m^T{\mathbf{V}}_m ={\mathbf{I}}_m$$
${\mathbf{V}}_m$ est une base de
$\mathbb{K}({\mathbf{A}},{\mathbf{v}}_1)$ et
${\mathbf{W}}_m$ est une base de
$\mathbb{K}({\mathbf{A}}^T,{\mathbf{w}}_1)$.*


**Proposition 6.3**. *On a les relations suivantes : $$\begin{aligned}
    {\mathbf{A}}{\mathbf{V}}_m&={\mathbf{V}}_m {\mathbf{T}}_m + \delta_{m+1}{\mathbf{v}}_{m+1}{\mathbf{e}}_{m}^T \\
    {\mathbf{A}}^T{\mathbf{W}}_m&={\mathbf{W}}_m {\mathbf{T}}_m^T + \beta_{m+1}{\mathbf{w}}_{m+1}{\mathbf{e}}_{m}^T \\
    {\mathbf{W}}_m^T{\mathbf{A}}{\mathbf{V}}_m&={\mathbf{T}}_m
    \end{aligned}$$ où ${\mathbf{T}}_m$ est la matrice
tridiagonale suivante : $${\mathbf{T}}_m = 
    \begin{pmatrix}
    \alpha_1 & \beta_2 & & & \\
    \delta_2 & \alpha_2 & \beta_3 & & \\
    & & \cdots & & \\
    & & \delta_{m-1} & \alpha_{m-1} & \beta_m \\
    & & & \delta_{m} & \alpha_{m}
    \end{pmatrix}$$*


#### BiCG

Le gradient biconjugué est l'exacte adaptation de la méthode de Lanczos
non-symétrique à la résolution de systèmes linéaires. Il permet de fait
de résoudre deux systèmes simultanément (associés avec la matrice et la
matrice transposée) même si en général un seul est d'intérêt. Sa grosse
lacune est l'absence de principe de minimisation équivalent, ce qui rend
l'étude de sa convergence ardue. Son intérêt est la légèreté des calculs
requis contrebalancée par des besoins mémoires importants.

![algo_9.png](attachment:algo_9.png)

On retrouve (en plus compliqué) les problèmes de perte numérique
d'orthogonalité.



## Préconditionnement

Face à un problème mal conditionné (et ils le sont tous), une technique
importante est le préconditionnement : l'objectif est de résoudre un
système équivalent mieux conditionné que l'original. On distingue :

-   Préconditionnement à gauche :
    ${\mathbf{\tilde{A}}}^{-1}{\mathbf{A}}{\mathbf{x}}={\mathbf{\tilde{A}}}^{-1}{\mathbf{b}}$

-   Préconditionnement à droite
    ${\mathbf{A}}{\mathbf{\tilde{A}}}^{-1}{\mathbf{y}}={\mathbf{b}}$
    puis
    ${\mathbf{\tilde{A}}}^{-1}{\mathbf{y}}={\mathbf{x}}$

-   Préconditionnement symétrique
    ${\mathbf{\tilde{L}}}^{-1}{\mathbf{A}}{\mathbf{\tilde{L}}}^{-T}{\mathbf{y}}={\mathbf{\tilde{L}}}^{-1}{\mathbf{b}}$
    puis
    ${\mathbf{\tilde{L}}}^{-T}{\mathbf{y}}={\mathbf{x}}$.

La notation ${\mathbf{\tilde{A}}}^{-1}$ suggère que le
préconditionneur doit autant que possible ressembler à l'inverse de la
matrice. Le préconditionnement à gauche est très souvent employé.
L'intérêt de celui à droite est de ne pas modifier le second membre ce
qui permet de mettre à jour le préconditionneur à chaque itération
(variante Flexible de GMRes).

Dans le cadre du gradient conjugué, on emploie fréquemment le
préconditionnement à gauche ce qui pourrait sembler problématique étant
donné qu'il rompt la symétrie de l'opérateur. Cependant si le
préconditionneur est symétrique défini positif, on montre que la mise en
oeuvre classique (avec préconditionneur à gauche) est équivalente à la
résolution par un gradient conjugué avec préconditionneur symétrique
(avec
${\mathbf{\tilde{L}}}{\mathbf{\tilde{L}}}^T={\mathbf{\tilde{A}}}$
factorisation de Choleski du préconditionneur). Dans ce cadre, le
préconditionnement s'interprète aussi comme une modification de
l'orthogonalité entre les espaces.

L'algorithme du GC préconditionné est donné plus bas (avec
augmentation).

Il n'existe pas de solution de préconditionnement universel, le plus
souvent la connaissance mécanique du système induit un certain
préconditionnement, on retient cependant quelques stratégies classiques
:

-   préconditionneurs diagonaux ou triangulaires par blocs
    (${\mathbf{\tilde{A}}}^{-1}=\operatorname{diag}({\mathbf{A}})^{-1}$)
    ;

-   factorisations incomplètes : on résout
    ${\mathbf{\tilde{L}}}^{-1}{\mathbf{A}}{\mathbf{\tilde{U}}}^{-1}{\mathbf{x}}={\mathbf{\tilde{L}}}^{-1}{\mathbf{b}}$
    où ${\mathbf{\tilde{L}}}{\mathbf{\tilde{U}}}$
    est une factorisation approchée de la matrice
    ${\mathbf{A}}$ qui est par exemple obtenue en ne
    conservant de la factorisation que les termes dans le profil de
    ${\mathbf{A}}$ (dans ce cas les matrices ont la même
    description du remplissage) ;

-   si les calculs sont menés en double précision, on peut envisager de
    calculer une inverse exacte en single précision ;

-   les méthodes de décomposition de domaine algébriques ;

-   les méthodes multigrilles.

### Augmentation

L'augmentation (ou déflation, ou préconditionnement par un projecteur
suivant les points de vues) est une technique puissante d'accélération
des calculs.

Par souci de simplicité, on l'écrit dans le cas du gradient conjugué,
son extension à d'autres méthodes est assez directe. On introduit une
matrice ${\mathbf{C}}$ rectangulaire avec relativement peu de
colonnes, que l'on suppose de rang plein. Les colonnes de cette matrice
forment donc une base d'un sous-espace (dit d'augmentation). Les
méthodes augmentées consistent à modifier le principe de recherche :
$$\begin{aligned}
{\mathbf{x}}_m &\in {\mathbf{x}}_0 + \mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0) \oplus {\operatorname{Im}({\mathbf{C}})} \\
{\mathbf{r}}_m &\perp \mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0) \oplus {\operatorname{Im}({\mathbf{C}})}\\
\end{aligned}$$

On voit que la méthode revient à imposer une contrainte supplémentaire
sur le résidu, vu que cette contrainte est automatiquement vérifiée à
convergence (puisque le résidu alors est nul), la contrainte ne perturbe
pas la solution, elle peut juste modifier le processus de résolution, et
si la matrice ${\mathbf{C}}$ est bien choisie, l'accélérer.

La mise en œuvre classique repose sur le choix d'une initialisation et
une projection adaptées : $$\begin{aligned}
{\mathbf{x}}&={\mathbf{x}}_0+{\mathbf{P}}{\mathbf{\tilde{x}}}\\
{\mathbf{C}}^T{\mathbf{r}}_0={\mathbf{C}}^T({\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_0)&=0 \\
{\mathbf{C}}^T{\mathbf{A}}{\mathbf{P}}&=0
\end{aligned}$$ ${\mathbf{x}}_0$ et ${\mathbf{P}}$
satisfaisant ces équations (sous-déterminées) ne sont pas uniques, les
solutions classiques sont les suivantes : $$\begin{aligned}
{\mathbf{x}}_0&= {\mathbf{C}}\left({\mathbf{C}}^T{\mathbf{A}}{\mathbf{C}}\right)^{-1}{\mathbf{C}}^T{\mathbf{b}}\\
{\mathbf{P}}&= {\mathbf{I}}-{\mathbf{C}}\left({\mathbf{C}}^T{\mathbf{A}}{\mathbf{C}}\right)^{-1}{\mathbf{C}}^T{\mathbf{A}}
\end{aligned}$$

L'idée est alors de calculer l'initialisation
${\mathbf{x}}_0$, d'en déduire le résidu initial
${\mathbf{r}}_0={\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_0={\mathbf{P}}^T{\mathbf{b}}$
est d'appliquer le solveur itératif au système
${\mathbf{A}}{\mathbf{P}}{\mathbf{\tilde{x}}}={\mathbf{r}}_0$,
une fois ce système résolu on en déduit
${\mathbf{x}}={\mathbf{x}}_0+{\mathbf{P}}{\mathbf{\tilde{x}}}$.

Notons au passage que
${\mathbf{A}}{\mathbf{P}}={\mathbf{P}}^T{\mathbf{A}}={\mathbf{P}}^T{\mathbf{A}}{\mathbf{P}}$
et donc le projecteur ne modifie pas la symétrie. De plus, on montre que
(dans le cas du gradient conjugué) le système projeté est bien posé est
que la solution est unique (après projection finale).

Le choix de la matrice ${\mathbf{C}}$ est la grande question
de l'augmentation. Là encore la mécanique guide le choix. Des
applications classiques existent en décomposition de domaine, en
multirésolution.

Finalement notons que les techniques d'augmentation sont une des
traductions algébriques des concepts de multiéchelle, de multigrille, de
réduction de modèle.

Dans le cas d'un solveur en minimum de résidu (GMRes, orthomin,...), il
faut adapter la contrainte : $$\begin{aligned}
{\mathbf{x}}_m &\in {\mathbf{x}}_0 + \mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0) \oplus {\operatorname{Im}({\mathbf{C}})} \\
{\mathbf{r}}_m &\perp {\mathbf{A}}\left(\mathbb{K}_m({\mathbf{A}},{\mathbf{r}}_0) \oplus {\operatorname{Im}({\mathbf{C}})}\right)\\
\end{aligned}$$ La mise en oeuvre classique repose sur le choix d'une
initialisation et une projection adaptées : $$\begin{aligned}
{\mathbf{x}}&={\mathbf{x}}_0+{\mathbf{P}}{\mathbf{\tilde{x}}}\\
{\mathbf{C}}^T{\mathbf{A}}^T{\mathbf{r}}_0={\mathbf{C}}^T{\mathbf{A}}^T({\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}_0)&=0 \\
{\mathbf{C}}^T{\mathbf{A}}^T{\mathbf{A}}{\mathbf{P}}&=0
\end{aligned}$$ ${\mathbf{x}}_0$ et ${\mathbf{P}}$
satisfaisant ces équations (sous-déterminées) ne sont pas uniques, les
solutions classiques sont les suivantes : $$\begin{aligned}
{\mathbf{x}}_0&= {\mathbf{C}}\left({\mathbf{C}}^T{\mathbf{A}}^T{\mathbf{A}}{\mathbf{C}}\right)^{-1}{\mathbf{C}}^T{\mathbf{A}}^T{\mathbf{b}}\\
{\mathbf{P}}&= {\mathbf{I}}-{\mathbf{C}}\left({\mathbf{C}}^T{\mathbf{A}}^T{\mathbf{A}}{\mathbf{C}}\right)^{-1}{\mathbf{C}}^T{\mathbf{A}}{\mathbf{A}}^T
\end{aligned}$$


On propose d'implémenter une version préconditionnée de la méthode du gradient conjugé afin d'améliorer le taux de convergence. On peut prendre comme préconditionneur les termes diagonaux de la matrice $\mathbf{A}$, ou également  une factorisation Cholesky incomplète de la matrice $\mathbf{A}$.

![algo_10.png](attachment:algo_10.png)

In [20]:
import numpy as np
from numpy import linalg as la

n=100
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n))
x0 = np.zeros(n)

x1 = la.solve(A,b)

## Solveurs à membres de droite multiples

Les solveurs de Krylov peuvent résoudre simultanément plusieurs systèmes
linéaires, et les résolutions simultanées bénéficient les unes des
autres. Le résultat principal est que si on résout deux systèmes
simultanément, la résolution se fait en au plus le max du nombre
d'itérations pour résoudre chacun des systèmes. En plus on exploite des
méthodes blocs pour les produits, ce qui est avantageux.

L'idée est de générer à chaque itération autant de directions de
recherche que de seconds membres, et d'optimiser chaque approximation
sur le sous-espace engendré. Le principal problème avec ces méthodes est
le risque de se retrouver avec des directions colinéaires, ce qui se
traduit conduit à devoir prendre quelques précautions numériques. On
donne un gradient conjugué à plusieurs seconds membres, la
pseudo-inversion est requise quand les directions deviennent
colinéaires.

![algo_11.png](attachment:algo_11.png)