# Solveurs directs

Les solveurs directs reposent sur l'observation que trois types de
matrices sont simples à inverser : les matrices diagonales, les matrices
triangulaires (par descente ou remontée), les matrices unitaires (il
suffit de les transposer). Pour les matrices plus compliquées, on
cherche à se ramener à une combinaison multiplicative des cas
précédents. On parle de factorisation.

On considère le système
${\mathbf{A}}{\mathbf{x}}={\mathbf{b}}$
dans $\mathbb{E}^n$.

## Systèmes triangulaires

Les matrices triangulaires supérieures ou inférieures inversibles
forment un groupe pour la multiplication. La résolution d'un système
triangulaire est très simple (par descente ou remontée) et de complexité
$O(n^2)$. Remarquons dès à présent qu'il est possible de travailler
simultanément sur un ensemble de seconds membres (matrice rectangulaire
avec relativement peu de colonnes, aussi appelée multivecteur). Le
calcul du déterminant d'une matrice triangulaire est trivial (produit
des coefficients diagonaux).

Concernant les problèmes de précision, on introduit le nombre
$\gamma_n = n\times u/(1-n\times u)$ (on rappelle que $u$ est l'erreur d'arrondi) qui est très proche de $n\times u$ sauf si la taille du
système devient colossale. On note $|{\mathbf{A}}|$ la
matrice obtenue en appliquant la valeur absolue (le module) à chacune
des composante de ${\mathbf{A}}$.

On peut contrôler l'erreur rétrograde sous la forme
$|\Delta{\mathbf{A}}|\leqslant \gamma_n |{\mathbf{A}}|$.

Concernant l'erreur directe, on a :
$$||\Delta x||_\infty/  \|x\|_\infty \leqslant \operatorname{cond}(T,x)\gamma_n /(1-\kappa_\infty(T) \gamma_n)$$
où
$\operatorname{cond}(T,x)= \frac{\||T^{-1}|\,|T|\,|x|\|_\infty}{\|x\|_\infty}\leqslant\kappa_\infty(T)$.


## Méthode de Gauss et méthodes dérivées

### Gauss

Le principe de la méthode de Gauss est de trouver
${\mathbf{M}}$ triangulaire telle que
${\mathbf{M}}{\mathbf{A}}{\mathbf{x}}={\mathbf{U}}{\mathbf{x}}={\mathbf{M}}{\mathbf{b}}$
avec ${\mathbf{U}}$ triangulaire supérieure. C'est une
méthode extrêmement générale, elle fait intervenir deux types de matrices.

    
-   matrices de permutation de ligne :

$${\mathbf{T}}_{i,j} = \begin{pmatrix}
 1 & & & & & & \\ 
 & 1 & & & & &\\
 & & 0_{ii} & \cdots & \cdots & 1_{ij} & \\
 & & \vdots & 1 & & \vdots & \\
 & & \vdots & & 1 & \vdots & \\
 & & 1_{ji} &\cdots&\cdots& 0_{jj} & \\
 & & & & & & 1
 \end{pmatrix}$$
        
Ces matrices ont un déterminant de $(-1)$. Par convention on pose ${\mathbf{T}}_{i,i}={\mathbf{I}}$ dont le déterminant est 1.

-   matrices d'élimination de colonne :

$$\text{si } {\mathbf{A}}=
        \begin{pmatrix}
        a_{11} & a_{12} &        &  \cdots    &        & a_{n1}  \\ 
        0      & \ddots &        &            &        & \vdots  \\
        & \ddots & \ddots &            &        & \vdots  \\
        \vdots &        & 0      & a_{jj}     & \cdots & a_{jn}  \\
        &        & \vdots & \vdots     &        & \vdots  \\
        0     &        & 0      & a_{nj}     & \cdots & a_{nn} 
        \end{pmatrix} \qquad
        \text{avec }a_{jj}\neq 0$$
        
$$\text{on pose }\gamma_{ij} = -a_{ij}/a_{jj} 
        \qquad
        \text{ soit } {\mathbf{E}}_j = \begin{pmatrix}
        1      &    0     &  \cdots    &        & &0 \\ 
        0      &  \ddots  &  \ddots  &        & &  \\
        \vdots &   0     &  1_{jj}    &        &  & \\
        &  \vdots & \gamma_{(j+1)j} & \ddots &  & \\
        &   \vdots & \vdots         &    0    & \ddots& 0\\
        0     &    0    & \gamma_{nj} &    0    &  0    &1 
        \end{pmatrix}$$

Alors ${\mathbf{E}}_j {\mathbf{A}}$ est une
matrice dont on a recombiné les lignes $(j+1)$ à $n$ pour faire
disparaître les coefficients inférieurs de la colonne $j$. Les matrices
${\mathbf{E}}_j$ ont un déterminant de $1$. En itérant on
construit :
$${\mathbf{M}}={\mathbf{E}}_{n-1}{\mathbf{T}}_{n-1}\cdots{\mathbf{E}}_{2}{\mathbf{T}}_{2}{\mathbf{E}}_{1}{\mathbf{T}}_{1}, \ \text{et alors }  {\mathbf{M}}{\mathbf{A}} = {\mathbf{U}}$$
Le rôle des matrices de permutation est de s'assurer que le pivot
$a_{ii}$ est non nul. Si tous ces coefficients sont nuls la matrice
n'est pas inversible (on verra plus loin comment obtenir alors une base
du noyau et une pseudo-inverse). Comme la matrice
${\mathbf{M}}$ a un déterminant de $\pm 1$ (suivant la parité
du nombre de pivotement), on a très simplement le déterminant de
${\mathbf{A}}$ égal au signe près à celui de
${\mathbf{U}}$.

Numériquement, il est conseillé de toujours prendre le plus grand
coefficient disponible comme pivot. On distingue les stratégies de pivot
partiel où l'on va chercher le coefficient sur la colonne $j$ (ligne $j$
à $n$) et les stratégies de pivot total où l'on va aussi chercher parmi
les coefficients sur la ligne $j$ (colonne $j$ à $n$). Le pivot total
revient à s'autoriser à multiplier la matrice à droite ce qui
complexifie légèrement la méthode (surtout sa mise en œuvre).


Pour calculer complètement l'inverse, on peut utiliser la transformation
de Gauss-Jordan :
$$\text{ soit } {\mathbf{\hat{E}}}_j = \begin{pmatrix}
1      &       & 0 & \gamma_{1j}    &    0    & &0 \\ 
0      &  \ddots & & \vdots       &        & & \\ 
&  \ddots & \ddots &  \gamma_{(j-1)j}  &        & &  \\
\vdots &         & 0&  1_{jj}    &   0     &  & \\
&  &\vdots & \gamma_{(j+1)j} & \ddots &  & \\
&   &\vdots & \vdots         &    0    & \ddots& 0\\
0     &        & 0& \gamma_{nj} &    0    &  0    &1 
\end{pmatrix}$$ qui élimine entièrement la colonne $j$ (sauf le terme
diagonal).

La méthode du pivot de Gauss a une complexité en $O(n^3)$ sans compter
la recherche des pivots qui n'est pas une opération de calcul mais une
succession de conditions (qui ne correspondent pas au même type
d'optimisations matérielles et logicielles).


On peut comparer cette méthode à la méthode de Cramer qui donne la solution d'un système sous forme de quotients de déterminants. Pour appliquer la méthode de Cramer, il faut effectuer le calcul de $det(A)$, puis les calculs successifs de :

$x_{1}=det(bA_{2}\ldots A_{n})/det(A)$ avec $A_{i}$ la $i^{eme}$ colonne de la matrice $A$. 

$x_{2}=det(A_{1}bA_{3}\ldots A_{n})/det(A)$

$\vdots$

$x_{n}=det(A_{1}A_{1}\ldots A_{n-1}b)/det(A)$

Essayons d'estimer le temps de calcul associé à cette résolution. Le nombre d'opérations nécessaires pour le calcul d'un déterminant est donné par la formule suivante : $det(A)=\sum_{k=1}^{n} (-1)^{k}\prod_{i=1}^{n} a_{i,k(i)} \qquad \mbox{$k$ : nombre de permutations}$

On obtient donc $(n-1)n!$ multiplications et $n!-1$ additions. Le nombre d'opérations est donc de l'ordre de grandeur de $(n+1)!$. En évaluant la valeur de $n!$ par la formule de Stirling ($n!\sim n^{n+1/2}e^{-n}\sqrt{2\pi}$), pour un système de dimension 100x100, on obtient $\sim$10$^{160}$ opérations à effectuer.

Le plus puissant supercalculateur en novembre 2022 est le Frontier - HPE Cray EX235a de l'Oak Ridge National Laboratory dans le Tenessee aux USA avec 8 730 112 cœurs. Il possède une puissance de calcul de 1102 Exaflop/s (le seul calculateur exaflopique : 1.102 Exaflop/s), soit un peu plus de $10^{21}$ opérations par seconde. Sachant qu'une année comprend $3.10^{7}$ s on obtient pour un système $100\times100$ un temps de calcul de $10^{132}$ années soit $10^{120}$ fois l'âge de l'univers !!! Alors qu'avec une méthode adéquate le même calcul peut prendre moins d'une seconde. Pour la méthode de Gauss, il faut seulement $\sim10^{6}$ opérations (et ce n'est pas la plus efficace).

On propose de programmer la mathode de Gauss, on cherchera le plus grand pivot uniquement sur les colonnes de la matrice.

In [1]:
# Imports
import numpy as np
import numpy.linalg as la

# Size of the system
n=100
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)
# b est le second membre
b = np.random.random((n,1))

# Solve using numpy
x1 = la.solve(A,b.flatten())

def gauss_elim(A,b):   
    '''Function to Solve a Linear System with Gauss Elimination'''
    
    # Stack the two arrays
    Ab = np.hstack((A,b))
    # Number of rows in stack
    n = Ab.shape[0]
    
    for i in range(n-1): 
        # Finding Pivot
        pivot = i
        for j in range(i + 1, n):
            if abs(A[j][i]) > abs(A[pivot][i]):
                max_row = j
        
        # Swapping
        if pivot!=i:
            Ab[pivot], Ab[i] = Ab[pivot]
        
        # Factoring    
        for j in range(i+1, n):
            c = Ab[j][i] / Ab[i][i]
            Ab[j,:] -= c*Ab[i,:]
    
    # Back Substitution
    x = np.zeros(n)
    for i in range(n-1, -1, -1):
        x[i] = Ab[i][n]
        for j in range(i+1, n):
            x[i] = x[i] - Ab[i][j]*x[j]
        x[i] = x[i] / Ab[i][i]
    return x
    
x = gauss_elim(A,b)

# Assert
assert(np.allclose(x,x1, 1e-6))
print("Assertions PASSED: Solutions are equal\n")
print('Solution using linalg:\n',x1)
print('Solution using Gauss Elimination:\n',x)


Assertions PASSED: Solutions are equal

Solution using linalg:
 [ 7.47897315e-03  7.51214520e-04  6.62917796e-04  2.31704181e-03
  1.52375296e-04  9.61970796e-04 -5.16283239e-04  3.40309184e-03
  4.92500291e-03  3.31790825e-03  4.78018400e-03  7.59783418e-03
  6.36787389e-03  3.23809045e-03  1.43231546e-03  8.83113402e-03
  5.59151275e-03  6.53613351e-03  3.80409197e-03  5.60154103e-03
  6.63899787e-03 -2.01257463e-04  7.99059418e-03  7.39977456e-03
  1.71764094e-03  4.86614616e-03  3.34134224e-03  6.27516977e-03
 -6.22479617e-04  4.55099599e-03  6.82967636e-03  5.76477051e-03
  6.89469416e-03  2.06083610e-03  3.08253759e-03 -8.20588592e-04
  3.73217752e-03  6.32877164e-03  8.29704913e-03  1.55234107e-03
  5.90149494e-03  8.50114282e-03  5.24164402e-03 -1.01655954e-03
  7.25099115e-03  4.78724741e-03  3.54065106e-03 -9.99501210e-04
  1.19992660e-03  2.31243256e-03  1.73580901e-03  2.79906309e-03
  8.67059846e-03  1.79858946e-04 -1.16868512e-03  8.66966883e-03
  8.43048865e-03  1.930115

### Factorisation LU

Dans certains cas, il est possible de ne pas pivoter et d'obtenir
directement ${\mathbf{M}}^{-1}={\mathbf{L}}$, on a
alors la factorisation
${\mathbf{A}}={\mathbf{L}}{\mathbf{U}}$
de la matrice (pour que la factorisation soit unique, on impose que la
matrice ${\mathbf{L}}$ soit à diagonale unitaire). La
condition de non-nécessité de pivotement est que tous les
sous-déterminants soient non-nuls.

La condition ne garantit pas que les pivots naturels soient les
meilleurs (les plus gros des coefficients disponibles), et il est plus
prudent de pivoter malgré tout. Les matrices à diagonale dominante font
exceptions puisque leurs pivots naturels sont automatiquement les plus
gros coefficients disponibles.

Dans le cas tridiagonal, le calcul est particulièrement simple et la
complexité devient de l'ordre de $n$. Les systèmes rectangulaires à
sous-déterminants non-nuls peuvent aussi être factorisés sous forme LU
($\mathbf{L}$ ou $\mathbf{U}$ est de la même forme que $\mathbf{A}$
tandis que l'autre matrice est carrée).

Une variante de la factorisation LU est la factorisation LDU où
$\mathbf{L}$ est triangulaire inférieur à diagonale unitaire,
${\mathbf{D}}$ est diagonale et ${\mathbf{U}}$
triangulaire supérieure à diagonale unitaire. Une telle variante permet
de mettre en exergue les éléments diagonaux (qui doivent être inversés
lors d'une résolution) pour traiter un éventuel problème mal posé.

Concernant la précision de la factorisation, on a le résultat suivant
sur l'erreur rétrograde :
$|\Delta {\mathbf{A}}|  \leqslant \gamma_{3n}/(1-\gamma_n) |{\mathbf{A}}|$.

On propose d'implémenter le calcul d'une décomposition LU.


In [2]:
# Imports
import numpy as np
from scipy import linalg as lina

n=50
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)

# scipy Solution
P, L1, U1 = lina.lu(A)

def lu_decomposition(A):
    '''Function to decompose a matrix A into L and U'''
    
    n = A.shape[0]
    
    # Initializing with Diagonals of L as Identity as choice
    L = np.eye(n)
    
    # For U, start with A
    U = A.copy()
    
    for i in range(n):
        for j in range(i+1,n):
            L[j][i] = U[j][i]/U[i][i]
            U[:][j] = U[:][j] - L[j][i]*U[:][i]     
    return L, U

L, U = lu_decomposition(A)

# Assertions
assert(np.allclose(L1, L, 1e-6))
assert(np.allclose(U1, U, 1e-6))

print('Assertions PASSED:\n')
print("L SAME for scipy and custom function")
print("R SAME for scipy and custom function")

Assertions PASSED:

L SAME for scipy and custom function
R SAME for scipy and custom function


### Factorisation de Crout

Si la matrice est LU-factorisable et qu'elle est symétrique, elle
peut-être factorisée sous la forme de Crout :
${\mathbf{A}}={\mathbf{L}}{\mathbf{D}}{\mathbf{L}}^T$
avec ${\mathbf{D}}$ diagonale et ${\mathbf{L}}$
triangulaire inférieure à diagonale unitaire. Il est toujours recommandé
de pivoter pour diminuer les erreurs d'arrondi, dans ce cas là il est
nécessaire d'utiliser un pivot symétrique (multiplication à gauche par
${\mathbf{T}}_{ij}$ et à droite par
${\mathbf{T}}_{ij}^T={\mathbf{T}}_{ij}$).

### Factorisation de Cholesky

Si la matrice est symétrique définie positive alors elle peut être
factorisée sous la forme
${\mathbf{A}}={\mathbf{L}}{\mathbf{L}}^T$.
On rappelle au passage qu'une matrice SPD a tous ses sous-déterminants
strictement positifs.

Le nombre d'opérations est approximativement deux fois plus petit que
pour une factorisation LU.

La factorisation de Cholesky a déjà été implémentée dans le chapitre 1. On en redonne pour mémoire un code ci-dessous.  


In [3]:
import numpy as np
import numpy.linalg as la

n = 50
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)

def cholesky(A):
    '''Cholesky Factorization Function'''
    
    # Size
    n = A.shape[0]
    L = np.zeros((n,n))
    for i in range(n):
        for j in range(i+1):
            if (i == j):
                v1 = 0
                for k in range(j):
                    v1 += L[i][k]**2
                L[i][i] = (A[i][i] - v1)**(1/2)
            else:
                v2 = 0
                for k in range(j):
                    v2 += L[i][k] * L[j][k]
                L[i][j] = 1/L[j][j]*(A[i][j] - v2)
    return L

# Calculation using custom function
L = cholesky(A)

# Calculation using Numpy
L1 = la.cholesky(A)

assert(np.allclose(L, L1, 1e-6))

print('Assertions PASSED:')
print('Cholesky factorization with custom code and Numpy are SAME')



Assertions PASSED:
Cholesky factorization with custom code and Numpy are SAME


## Orthogonalisation QR

Dans le cas d'une matrice carrée, la factorisation QR permet d'écrire
une matrice ${\mathbf{A}}$ sous la forme du produit d'un
matrice unitaire ${\mathbf{Q}}$ et d'une matrice triangulaire
supérieure ${\mathbf{R}}$.

Dans le cas d'une matrice rectangulaire on peut au choix obtenir
${\mathbf{Q}}$ unitaire $m\times m$ et
${\mathbf{R}}$ triangulaire supérieure $m\times n$ ou alors
${\mathbf{Q}}$ $m\times n$ avec des colonnes (si $m>n$) ou
des lignes (si $m<n$) orthonormales entre elles et
${\mathbf{R}}$ triangulaire supérieure $n\times n$. Une
application typique de cette factorisation est donc le calcul du rang
d'une famille de vecteurs. On verra également qu'elle permet la
résolution de problèmes au sens des moindres carrés. Pour les
illustrations à venir on supposera la matrice carrée ou rectangulaire
avec $n>m$ (cas assez récurent de la manipulation d'un petit paquet de
très grands vecteurs).

On peut fournir plusieurs théorèmes d'orthogonalisation. On donne
celui-ci : si ${\mathbf{A}}$ est une matrice carrée d'ordre
$n$, il existe une matrice unitaire ${\mathbf{Q}}$ et une
matrice triangulaire ${\mathbf{R}}$ telles que
${\mathbf{A}}={\mathbf{Q}}{\mathbf{R}}$.
On peut de plus s'arranger pour que tous les éléments diagonaux de
${\mathbf{R}}$ soient positifs (ou nuls). Si
${\mathbf{A}}$ est inversible, la factorisation est alors
unique.

### Version Gram-Schmidt

L'orthogonalisation la plus simple est celle de Gram-Schmidt, elle
consiste à enchainer les manipulations de colonnes de la matrice. On
pose et $r_{11}=\|{\mathbf{a}}_1\|_2$ et
${\mathbf{q}}_1={\mathbf{a}}_1/r_{11}$, si on
suppose avoir construit les $k$ premières colonnes de
${\mathbf{Q}}$ et le bloc $k\times k$ de
${\mathbf{R}}$ tels que $$\begin{pmatrix} 
\vdots & \vdots& \vdots \\
{\mathbf{a}}_1, &\vdots  & {\mathbf{a}}_k \\
\vdots &\vdots & \vdots 
\end{pmatrix}=\begin{pmatrix} 
\vdots & \vdots& \vdots \\
{\mathbf{q}}_1, &\vdots  & {\mathbf{q}}_k \\
\vdots &\vdots & \vdots 
\end{pmatrix} \begin{pmatrix}
r_{11} & \cdots & r_{1k} \\
0 & \ddots & \vdots \\
0 & 0 & r_{kk}
\end{pmatrix} \qquad \text{avec } {\mathbf{q}}_i^H  {\mathbf{q}}_j = \delta_{ij}$$
on calcule : $$\begin{aligned}
&\text{pour }i=1\cdots k\quad r_{i(k+1)} = {\mathbf{q}}_i^H {\mathbf{a}}_{k+1} \\ 
&{\mathbf{q}}_{k+1} = {\mathbf{a}}_{k+1} - \sum_i r_{i(k+1)}{\mathbf{q}}_i \\
& r_{(k+1)(k+1)} = \|{\mathbf{q}}_{k+1}\|\\
&{\mathbf{q}}_{k+1} \leftarrow  {\mathbf{q}}_{k+1} / r_{(k+1)(k+1)} 
\end{aligned}$$ L'algorithme présenté ici est dit de Gram-Schmidt
classique, il peut s'écrire avantageusement sous forme de produits de
sous-blocs de matrice et est donc facilement optimisable (du point de
vue exécution sur un ordinateur). Par contre l'algorithme n'est pas
stable. Si ${\mathbf{Q}}$ et ${\mathbf{R}}$ sont
les matrices obtenues, on a
$\|{\mathbf{A}}-{\mathbf{Q}}{\mathbf{R}}\|$
petit, mais
$\|{\mathbf{Q}}^T{\mathbf{Q}}-{\mathbf{I}}\|$
devient rapidement grand, autrement dit on perd l'orthogonalité. Cela
pose problème si l'on veut se servir de la factorisation pour résoudre
un système

Pour résoudre ce problème, on peut utilisée l'algorithme de Gram-Schmidt
modifié, beaucoup plus stable (en fait très proche de Householder
présenté plus bas) mais beaucoup plus coûteux : $$\begin{aligned}
& {\mathbf{q}}_{k+1} = {\mathbf{a}}_{k+1}\\
&\text{pour }i=1..(k+1)\quad r_{i(k+1)} = {\mathbf{q}}_i ^H {\mathbf{q}}_{k+1}, \quad {\mathbf{q}}_{k+1} \leftarrow {\mathbf{q}}_{k+1}-  r_{i(k+1)}{\mathbf{q}}_i \\
& r_{(k+1)(k+1)} = \|{\mathbf{q}}_{k+1}\|\\
&{\mathbf{q}}_{k+1}  \leftarrow {\mathbf{q}}_{k+1} / r_{(k+1)(k+1)}
\end{aligned}$$ Même améliorée, la méthode de Gram-Schmidt est simple à
coder, à optimiser et surtout permet d'accéder à
${\mathbf{Q}}$ (si seul ${\mathbf{R}}$ est
recherché Householder est plus rapide).


In [5]:
import numpy as np
import numpy.linalg as la

n = 100
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)

# Perform the modified Gram-Schmidt process

def modified_gram_schmidt(A,n):
    '''Function to perform modified gram-schmidt orthogonalization'''
    
    # Create empty arrays
    q = np.zeros((n,n))
    r = np.zeros((n,n))
    
    # Perform the steps shown in the in the previous cell
    for i in range(n):
        q[:,i] = A[:,i]
        for j in range(i):
            r[j][i] = q[:, j].T@q[:,i]
            q[:, i] -= r[j][i]*q[:,j]
        r[i][i] = la.norm(q[:,i],2)
        q[:,i] = q[:,i]/r[i][i]
    return q,r

# Modified Gram-Schmidt on A
q,r = modified_gram_schmidt(A,n)

'''Assertions'''

# Assertion to check for the orthogonality
assert(np.allclose(q@q.T, np.identity(len(A))))
print('Orthogonality check for Q: PASSED!')

# Assertion to Upper Triangle R
assert(np.allclose(r, np.triu(r)))
print('Upper triangle check on R: PASSED!')

# Assertion to QR = A
assert(np.allclose(q@r, A))
print('QR = A check: PASSED!')

Orthogonality check for Q: PASSED!
Upper triangle check on R: PASSED!
QR = A check: PASSED!


### Version Householder

L'intérêt de la méthode de Householder est de faire intervenir des
transformations unitaires dont on a vu qu'elles ne dégradaient pas le
conditionnement $\kappa_2$. Elle est donc réputée beaucoup plus stable
qu'une technique de Gauss pour résoudre un système mais elle fait
intervenir environ deux fois plus d'opérations. La méthode repose sur
l'emploi des matrices de réflexion dites de Householder.

On appelle matrice de réflexion de Householder la matrice $n\times n$
${\mathbf{H}}$ :
$${\mathbf{H}}_{{\mathbf{v}}} = {\mathbf{I}}-2\frac{{\mathbf{v}}{\mathbf{v}}^H}{{\mathbf{v}}^H{\mathbf{v}}}$$
${\mathbf{v}}$ est le vecteur de Householder.
${\mathbf{P}}$ est unitaire et hermitienne, elle réalise une
réflexion par rapport à l'hyperplan
${\operatorname{vect}}({\mathbf{v}})^\perp$. Cette
matrice est obtenue à partir de l'identité à l'aide d'une perturbation
de rang 1.

Le théorème utile est le suivant : Soit ${\mathbf{a}}$ un
vecteur de ${\mathbb{C}}^n$ tel que $a_1\neq 0$ et
$\sum_{i=2}^n|a_i|>0$. Il existe deux matrices de Householder
${\mathbf{H}}$ telles que les $(n-1)$ dernières composantes
du vecteur ${\mathbf{H}}{\mathbf{a}}$ soit nulles.
De façon plus précise, soit $\alpha\in {\mathbb{R}}$ tel que
$a_1 = e^{i\alpha}|a_1|$, alors si ${\mathbf{e}}_1$ est le
premier vecteur de base de ${\mathbb{C}}^n$:
$${\mathbf{H}}_{({\mathbf{a}}+\|{\mathbf{a}}\|_2 e^{i\alpha} {\mathbf{e}}_1)} {\mathbf{a}} =- \|{\mathbf{a}}\|_2 {\mathbf{e}}_1,\qquad {\mathbf{H}}_{({\mathbf{a}}-\|{\mathbf{a}}\|_2 e^{i\alpha} {\mathbf{e}}_1)} {\mathbf{a}} = \|{\mathbf{a}}\|_2 {\mathbf{e}}_1$$

En pratique, on calcule $\|{\mathbf{a}}\|_2$ puis
${\mathbf{v}}=({\mathbf{a}} \pm \|{\mathbf{a}}\|_2 e^{i\alpha} {\mathbf{e}}_1)$
et le nombre
$\frac{{\mathbf{v}}^H{\mathbf{v}}}{2}=\|{\mathbf{a}}\|_2(\|{\mathbf{a}}\|_2\pm |a_1|)$.
Le calcul de l'image d'un vecteur ${\mathbf{x}}$ se fait de
la façon suivante :
$${\mathbf{H}}_v{\mathbf{x}} = {\mathbf{x}}-\frac{{\mathbf{v}}^H{\mathbf{x}}}{{\mathbf{v}}^H{\mathbf{v}}/2}{\mathbf{v}}$$
Dans le cas réel le *signe est choisi* de manière à éviter un
dénominateur trop petit donc on prend
${\mathbf{v}}=({\mathbf{a}} +{\operatorname{signe}}(a_1) \|{\mathbf{a}}\|_2 {\mathbf{e}}_1)$.

La méthode de Householder consiste donc à calculer
${\mathbf{A}}_k={\mathbf{H}}_{k-1}\cdots{\mathbf{H}}_1{\mathbf{A}}$
avec : $${\mathbf{A}}_k = 
\begin{pmatrix}
\times & \times & \times & \times & \times & \times    \\
& \times & \times & \times & \times & \times  \\
&        & \times_{kk} & \times & \times & \times  \\
&        & \times & \times & \times & \times  \\
&        & \times & \times & \times & \times  \\
&        & \times_{nk} & \times & \times & \times  \\
\end{pmatrix}$$ 

Si besoin on pratique une permutation de lignes
(permutation à droite) de manière à rendre le coefficient $kk$ non-nul.
On extrait de ${\mathbf{A}}_k$ le vecteur
$\tilde{{\mathbf{a}}}_k$ de dimension $(n-k+1)$ de
coefficients $a_{ik}$ $(k\leqslant i \leqslant n)$. On choisit le
vecteur $\tilde{{\mathbf{v}}}_k$ tel que
${\mathbf{H}}_{\tilde{{\mathbf{v}}}_k}{\mathbf{v}}_k$
ait toutes ses composantes nulles sauf la première et on pose :
$${\mathbf{H}}_k = 
\begin{pmatrix}
{\mathbf{I}}_{k-1} & {\mathbf{0}} \\ {\mathbf{0}} & {\mathbf{H}}_{\tilde{{\mathbf{v}}}_k}
\end{pmatrix}$$

Il est possible de représenter le produit de $r$ matrices de Householder
sous forme bloc :
$${\mathbf{Q}}={\mathbf{I}}+{\mathbf{W}}{\mathbf{Y}}^H$$
où ${\mathbf{W}}$ et ${\mathbf{Y}}$ sont des
matrices $n\times r$. Le mécanisme est le suivant :
$${\mathbf{Q}}{\mathbf{H}}_{{\mathbf{v}}}={\mathbf{I}}+\begin{pmatrix}{\mathbf{W}},& -\frac{2}{{\mathbf{v}}^H{\mathbf{v}}}{\mathbf{Q}}{\mathbf{v}}\end{pmatrix}\begin{pmatrix}{\mathbf{Y}},& {\mathbf{v}}\end{pmatrix}^H$$


### Version Givens

A l'instar de Householder, l'orthogonalisation de Givens fait intervenir
des transformations unitaires et donc ne détériore pas le
conditionnement $\kappa_2$. La méthode repose sur l'emploi des matrices
de rotations dites de Givens qui sont des perturbations de rang 2 de
l'identité. Ces matrices permettent d'intervenir plus spécifiquement sur
certains coefficients d'une matrice. Par simplicité, on se place dans
${\mathbb{R}}$. On pose :
$${\mathbf{G}}_{ij}(\theta)=\begin{pmatrix}
{\mathbf{I}}_{i-1} &             &    &   &{\mathbf{0}} \\
& \cos(\theta)_{ii}   &     {\mathbf{0}}        &  \sin(\theta)_{ij} &    \\
&  {\mathbf{0}}   & {\mathbf{I}}_{n-2} &  {\mathbf{0}}  &    \\
& -\sin(\theta)_{ji}  &      {\mathbf{0}}       & \cos(\theta)_{jj}  &    \\
{\mathbf{0}}     &     &             &    & {\mathbf{I}}_{n-j} \\ 
\end{pmatrix}$$ Si on calcule le produit suivant :
$${\mathbf{Y}}={\mathbf{G}}_{ik}(\theta)^T {\mathbf{X}} ;\qquad y_{qr} = \left\{
\begin{array}{lr} 
\cos(\theta)x_{ir}-\sin(\theta)x_{jr} & q=i,\ \forall r \\
\sin(\theta)x_{ir}+\cos(\theta)x_{jr} & q=j,\ \forall r \\
x_{qr} & q\neq i,j,\ \forall r  \\
\end{array}\right.$$ L'idée derrière cela est de calculer $\theta$ pour
annuler des coefficients. Par exemple si on veut annuler $y_{qr}$ (ici
les deux indices sont fixés), on prend $i$ tel que $x_{ir}\neq 0$ et on
pose
$$\cos(\theta) = \frac{x_{ir}}{\sqrt{x_{ir}^2+x_{qr}^2}}, \qquad \sin(\theta) = \frac{x_{qr}}{\sqrt{x_{ir}^2+x_{qr}^2}}$$


Si on cherche à minimiser les erreurs d'arrondi, alors si $a$ et $b$ sont donnés et que
l'on cherche $c=\cos(\theta)$ et $s=\sin(\theta)$ tels que
$$\begin{pmatrix}
c & s \\ -s & c
\end{pmatrix}^T \begin{pmatrix} a \\b \end{pmatrix} = \begin{pmatrix} r \\ 0 \end{pmatrix}$$
alors $$\begin{array}{ll}
\text{si }b=0, & c=1,\ s=0 \\
\text{si }|b|>|a|, & \tau=-a/b,\ s=1/\sqrt{1+\tau^2},\ c=s\tau \\
\text{si }|b|\leqslant|a|, & \tau=-b/a,\ c=1/\sqrt{1+\tau^2},\ c=c\tau 
\end{array}$$

Une utilisation typique des rotations de Givens (le tilde indique une
modification du coefficient d'une étape à l'autre) : $$\begin{pmatrix}
\times & \times & \times \\
\times & \times & \times \\
\times & \times & \times 
\end{pmatrix} \xrightarrow{(3,1)} 
\begin{pmatrix}
\times & \times & \times \\
\tilde{\times} & \tilde{\times} & \tilde{\times} \\
0      & \tilde{\times} & \tilde{\times} 
\end{pmatrix} \xrightarrow{(2,1)}
\begin{pmatrix}
\tilde{\times} & \tilde{\times} & \tilde{\times} \\
0 & \tilde{\times} & \tilde{\times} \\
0      & \times & \times
\end{pmatrix}\xrightarrow{(3,2)}
\begin{pmatrix}
\times & \times & \times \\
0 & \tilde{\times} & \tilde{\times} \\
0      & 0 & \tilde{\times}
\end{pmatrix}$$ On verra une application typique dans le solveur GMRes
pour résoudre un système de Hessemberg.

On propose de coder la détermination de la décomposition QR : on comparera $\|{\mathbf{Q}}^T{\mathbf{Q}}-{\mathbf{I}}\|$ pour les version Gram-Schmidt et Givens.

In [6]:
from math import hypot
import numpy as np
from numpy import linalg as la

n = 200
# A est une matrice symétrique, définie et positive
A = np.random.random((n, n))
A=A*A.transpose()+n*np.identity(n)

def condit(M,i):
    return la.norm(M,i)*la.norm(la.inv(M),i)
def givens(A,n):
    '''Initialize an empty matrix to store the orthonormal matrix Q and the upper triangular matrix R'''
    Q = np.eye(n)
    R = A.copy()
    (i, j) = np.tril_indices(n,-1,n)
    # Perform the QR decomposition using Givens rotations
    for (i, j) in zip(i, j):
        if R[i, j] != 0:          
            a = R[j, j]
            b = R[i, j]
            
            r = hypot(a,b)
            c = a/r
            s = -b/r
            
            G = np.eye(n)
            G[i, i] = c
            G[j, j] = c
            G[i, j] = s
            G[j, i] = -s
            R = np.dot(G, R)
            Q = np.dot(Q, G.T)
    return Q, R 

Q, R = givens(A, n)

'''Assertions'''

# Assertion to check for the orthogonality
assert(np.allclose(Q@Q.T, np.identity(len(A))))
print('Orthogonality check for Q: PASSED!')

# Assertion to Upper Triangle R
assert(np.allclose(R, np.triu(R)))
print('Upper triangle check on R: PASSED!')

# Assertion to QR = A
assert(np.allclose(Q@R, A))
print('QR = A check: PASSED!')


'''Condition numbers'''
print('Condition for Givens:',condit(Q@Q.T-np.identity(len(A)),2))

# Calculate using modified Gram-Schmidt
Q1, R1 = modified_gram_schmidt(A,n)
print('Condition for Gram Shmidt:',condit(Q1@Q1.T-np.identity(len(A)),2))



Orthogonality check for Q: PASSED!
Upper triangle check on R: PASSED!
QR = A check: PASSED!
Condition for Givens: 197160.40232909963
Condition for Gram Shmidt: 15623.695479495118


### Factorisation QR et systèmes rectangulaires

Les factorisation QR se prêtent bien au calcul de systèmes
rectangulaires car la préservation de la norme permet de facilement
intégrer les régularisations présentées précédemment.

Si on considère un système sur déterminé
${\mathbf{A}}{\mathbf{x}}={\mathbf{b}}$
avec ${\mathbf{A}}\in{\mathbb{E}}^{m\times n}$ et
$m>n$. On a : $$\begin{aligned}
\left\| {\mathbf{b}}-{\mathbf{A}}{\mathbf{x}}\right\|_2^2 & = \left\| {\mathbf{b}}-\begin{pmatrix}
{\mathbf{Q}}_1 & {\mathbf{Q_2}} 
\end{pmatrix}\begin{pmatrix}
{\mathbf{R}}_1 \\ 0 
\end{pmatrix} \right\|_2^2 \\
&= \left\|\begin{pmatrix}
{\mathbf{Q}}_1^H {\mathbf{b}} - {\mathbf{R}}_1 {\mathbf{x}} \\ {\mathbf{Q}}_2^H {\mathbf{b}} 
\end{pmatrix}\right\|_2^2 =  \left\|{\mathbf{Q}}_1^H {\mathbf{b}} - {\mathbf{R}}_1 {\mathbf{x}}\right\|_2^2 +\left\|{\mathbf{Q}}_2^H {\mathbf{b}}\right\|_2^2 
\end{aligned}$$ où l'on voit que le minimum est égal à
$\left\|{\mathbf{Q}}_2^H {\mathbf{b}}\right\|_2^2$
(qui mesure l'écart du second membre à l'image de
${\mathbf{A}}$) et est atteint pour
${\mathbf{R}}_1 {\mathbf{x}} = {\mathbf{Q}}_1^H {\mathbf{b}}$
(petit système triangulaire).

Concernant les systèmes sous-déterminés $m<n$, on peut utiliser la
factortisation $QR$ de ${\mathbf{A}}^T$. On a :
$$\begin{aligned}
{\mathbf{A}}{\mathbf{x}} & = {\mathbf{b}}\\
{\mathbf{R^T}}{\mathbf{Q}}^T{\mathbf{x}}&={\mathbf{b}}
\end{aligned}$$ Si on cherche ${\mathbf{x}}$ sous la forme
${\mathbf{Q}}{\mathbf{y}}+{\mathbf{z}}$
avec ${\mathbf{Q}}^T{\mathbf{z}}=0$, on a
$\|{\mathbf{x}}\|^2_2 = \|{\mathbf{y}}\|^2_2 + \|{\mathbf{z}}\|^2_2$.
Donc
${\mathbf{x}}={\mathbf{Q}}{\mathbf{R}}^{-T}{\mathbf{b}}$
est la solution de norme minimale.
