# Décomposition $QR$ d'une matrice

L'objectif de ce TP est de programmer la décomposition $QR$ d'une matrice et de l'utiliser afin de résoudre un système linéaire.

In [1]:
import numpy as np
import numpy.random as rd
import matplotlib.pyplot as plt
import sys

%matplotlib inline
%config InlineBackend.figure_format = 'retina'

On rappelle que contrairement à la décomposition $LU$ qui n'existe pas toujours, 
toute matrice carrée inversible possède une décomposition $QR$. 


### Théorème

> Pour toute matrice inversible $A\in GL_n(\mathbb{R})$, il existe un unique couple $(Q,R)\in GL_n(\mathbb{R})\times GL_n(\mathbb{R})$ tel que $A = QR$, avec $Q$ orthogonale et $R$ triangulaire supérieure de coefficients diagonaux $>0$. 

Deux approches seront considérées : le procédé de Gram-Schmidt, vu en cours, et la méthode de Householder, vue en TD.


## Méthode 1 : procédé de Gram-Schmidt

Une famille libre $(a_1, \dots, a_p)$ de vecteurs de $\mathcal{M}_{n,1}(\mathbb{R})$ étant donnée, on construit 

$$
q_1' = a_1
\,,\quad 
q_1 = \|q_1'\|^{-1} q_1'
\,,
$$

puis, pour tout $j \in [\![1, p]\!]$, 

$$
q'_j = a_j - \sum_{i = 1}^{j-1} \langle a_j , q_i \rangle q_i
\,,\quad 
q_j = \|q'_j\|^{-1} q'_j
\,,
$$

de sorte que pour tout $j \in [\![1, p]\!]$ 

$$
a_j = \sum_{i=1}^n r_{i,j} q_i 
\,, \qquad \text{en posant  }
r_{i,j} 
= \begin{cases} 
\langle a_j\,,q_i\rangle & i < j\,, 
\\ 
\|q'_j\| & i = j\,, 
\\ 
0 & i >j\,. 
\end{cases}
$$

L'hypothèse $(a_1, \dots, a_p)$ libre assure que les vecteurs $q'_j$ ainsi construits ne sont jamais nuls et que l'on ne divise donc jamais par zéro. 

Matriciellement, ceci s'écrit $A = QR$ avec des matrices par blocs 

$$
\begin{align*}
A & = (a_j)_{1\leq j \leq p}\in\mathcal{M}_{n,p}(\mathbb{R})
\,,
\\
Q & = (q_j)_{1\leq j \leq p} \in\mathcal{M}_{n, p}(\mathbb{R})
\,,
\end{align*}
$$

et une matrice $R = (r_{i, j})_{1\leq i, j \leq p} \in \mathcal{M}_{p}(\mathbb{R})$. 

### Question 1
> Ecrire une fonction `GramSchmidt` qui prend en argument une matrice $A\in\mathcal{M}_{n,p}(\mathbb{R})$ de colonnes $a_1, \dots, a_p$ et qui renvoie les matrices $Q\in\mathcal{M}_{n,p}(\mathbb{R})$ et $R\in \mathcal{M}_p(\mathbb{R})$ définies ci-dessus, ainsi qu'un booléen indiquant si le procédé est allé à son terme ou non, selon que la famille $(a_1, \dots, a_p)$ est libre ou non. 

In [193]:
def GramSchmidt(A):
    n, p = A.shape
    Q = np.zeros((n,p))
    R = np.zeros((n,p))
    
    if(np.linalg.det==0):
        return Q,R,False
    
    qp = np.zeros((n,n))
    
    if(n!=p):
        return Q,R,False
    
    sum = 0
    
    #if()
    
    Q[:,0] = (A[:,0])/np.linalg.norm(A[:,0])
    #(np.sqrt(A[:,0]@A[:,0].T))
    
    #for i in range(1,n):
     #   q1 = A[:,i].T @ Q[:,i-1]
      #  q2 = A[:,i] - q1*Q[:,i-1] 
       # Q[:,i] = q2 / (np.linalg.norm(q2))
        #print(q1)
    

    
    for j in range(1,n):
                
        for i in range (1,j-1):
            sum = (A[:,j].T @ Q[:,i]) * Q[:,i]            
            
            if(i==j):
                R[i,j] = np.linalg.norm(qp[:,j])
            if(i>j):
                R[i,j] = 0
            if(i<j):
                R[i,j] = A[:,j].T @ Q[:,i]
                
        qp[j] = A[:,j] - sum
        Q[:,j] = ((np.linalg.norm(qp[:,j]))**-1) * qp[:,j]
                
        
    #R = Q.T @ A
            
    return Q, R, True


In [194]:
A = rd.randint(-5,5,(5,5))
print(A)
print(" ")
#print(A)
Q,R,ret = GramSchmidt(A)
#print(Q)
for i in range(np.shape(A)[0]):
    print(np.linalg.norm(Q[:,i]))
    print(Q[:,0].T @ Q[:,i])
    print(" ")



#print(Q)
print(Q@Q.T)
print(" ")

#print(1/np.sqrt(2))
#print(R)

[[-4  0 -2  0  2]
 [ 4 -3 -3  2  2]
 [ 1 -1  0 -4  4]
 [ 4  4 -4 -4 -5]
 [ 0  4 -3  2  0]]
 
1.0
1.0
 
1.0
-0.5714285714285714
 
1.0
-0.5714285714285714
 
1.0
-0.08247860988423228
 
1.0
0.5570860145311556
 
[[ 0.32653061 -0.32653061 -0.08163265 -0.32653061  0.        ]
 [-0.32653061  3.21158808 -0.66549378  0.26905935  0.        ]
 [-0.08163265 -0.66549378  0.66408632  0.20806943  0.        ]
 [-0.32653061  0.26905935  0.20806943  0.79779498  0.        ]
 [ 0.          0.          0.          0.          0.        ]]
 


### Question 2
> Tester la fonction `GramSchmidt` en réalisant la décomposition $QR$ d'une matrice $A\in\mathcal{M}_4(\mathbb{N})$ d'entiers aléatoires et en vérifiant que l'on a bien d'une part $A = QR$ et d'autre part $Q^TQ = I_4$.


## Méthode 2 : méthode de Householder

On rappelle que les *matrices de Householder* d'ordre $n$ sont définies par 

$$
H_n(v) = I_n - 2 \frac{vv^T}{v^Tv}
\,,
$$

pour tout vecteur $v\in\mathcal{M}_{n,1}(\mathbb{R})$ non nul. Dans la suite, il sera commode d'utiliser la convention 

$$
H_n(0) = I_n
\,.
$$

### Question 3
> Écrire une fonction `householder` qui prend en argument un vecteur $v\in\mathcal{M}_{n,1}(\mathbb{R})$ et qui renvoie $H_n(v)$. 

In [206]:
def householder(v):
    n=np.shape(v)[0]
    if(np.allclose(v,np.zeros((n,n)))):
        return np.eye(n)
    
    h = np.eye(n) - 2 * (v@v.T)/(v.T@v)
    
    return h
    
    

In [207]:
print(householder(np.zeros(5)))

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


L'utilité de ces matrices dans la décomposition $QR$ est essentiellement due à la propriété suivante :

### Propriété
Notons $e_1 = (\delta_{1, i})\in\mathcal{M}_{n,1}(\mathbb{R})$ le premier vecteur de la base canonique. 

Pour tout vecteur $u = (u_i)\in\mathcal{M}_{n,1}(\mathbb{R})$  et tout $\varepsilon \in\{1, -1\}$, 

$$
H_n(u + \varepsilon \|u\|e_1)u = - \varepsilon \|u\|e_1\,.
$$


### Description de l'algorithme 

Considérons une matrice $A\in\mathcal{M}_n(\mathbb{R})$ dont on cherche la décomposition $QR$. En la multipliant à gauche par des matrices de Householder bien choisies, il est possible d'annuler les termes sous-diagonaux de $A$. Cette méthode nécessite $n-1$ étapes, que nous détaillons ci-dessous.


- **Étape 1 :**

On définit la matrice $A^{(1)} = A = (a_{i,j}^{(1)})_{1\leq i,j \leq n}$, le vecteur $x_1$ correspondant à la première colonne de $A^{(1)}$, c'est-à-dire $x_1 = (a_{i, 1}^{(1)}) \in\mathcal{M}_{n,1}(\mathbb{R})$, ainsi que le vecteur $v_1 = x_1 + \varepsilon_1 \|x_1\|e_1$. On introduit également la matrice $H^{(1)} = H_n(v_1)$ de sorte que 

$$
H^{(1)} A^{(1)} = 
\begin{pmatrix}
a_{1,1}^{(2)} & a_{1,2}^{(2)} & \cdots & a_{1,n}^{(2)} \\
0 & a_{2,2}^{(2)} & \cdots & a_{2,n}^{(2)} \\
\vdots & \vdots & ~ & \vdots \\
0 & a_{n,2}^{(2)} & \cdots & a_{n,n}^{(2)}
\end{pmatrix}
$$

On définit ensuite $A^{(2)} = H^{(1)}A^{(1)}$. De ce fait, multiplier $A^{(1)}$ par $H^{(1)}$ permet d'annuler les termes sous-diagonaux de la première colonne de $A^{(1)}$. On itère alors la procédure afin d'annuler successivement tous les termes sous-diagonaux.

- **Étape k :** (pour $2\leq k \leq n-1$)

On définit le vecteur composé des termes sous-diagonaux de la $k$-ième colonne de $A^{(k)}$

$$
x_k = (a_{k - 1 + i,k}^{(k)})_{1\leq i \leq n-k+1}) \in \mathcal{M}_{n-k+1,1}(\mathbb{R})
\,,
$$


ainsi que le vecteur $v_k = x_k + \varepsilon_k \|x_k\| e_1$. *Attention* : $e_1$ est ici le premier vecteur de la base naturelle de $\mathcal{M}_{n-k+1,1}(\mathbb{R})$. 

La matrice $H^{(k)}$ est maintenant définie en complétant $H_{n-k+1}(v_k)$ par l'identité :

$$
H^{(k)} = 
\begin{pmatrix}
I_{k-1} & 0 \\
0 & H_{n-k+1}(v_k)
\end{pmatrix}
\,.
$$

La matrice $A^{(k+1)}$ est ensuite définie par 

$$
A^{(k+1)} = H^{(k)}A^{(k)}
\,.$$

### Remarques
- À la fin des $n-1$ itérations, la matrice $A^{(n)}$ est triangulaire supérieure : c'est la matrice $R$ recherchée.

- Les matrices $H^{(k)}$ sont orthogonales. 

- À chaque étape, le paramètre $\varepsilon_k$ sera choisi de façon à maximiser la norme $\|v_k\|$. Ce choix permet de réduire les erreurs dues aux divisions par des petits nombres.

### Question 4
> Écrire une fonction qui prend en argument un vecteur $x$ et qui rend le vecteur $v = x + \varepsilon \|x\| e_1$, on choisissant $\varepsilon$ de manière à maximiser $\|v\|$.

In [11]:
def f(x):
    e1 = np.zeros(np.shape(x))
    e1[0,:] = 0
    
    v = eps*np.linalg.norm(x)@e1
    

### Qestion 5
> Proposer une fonction `qr` qui prend en argument une matrice $A$ et qui rend les facteurs $Q$ et $R$ de sa décomposition $QR$,  ainsi qu'un booléen indiquant si la matrice $A$ est carrée ou non. 

### Question 6
> Tester la fonction `qr` en réalisant la décomposition $QR$ d'une matrice d'entiers aléatoires et en vérifiant que l'on a bien $A = QR$.

True
True
True


## Résolution de systèmes linéaires

### Question 7
> Réaliser une fonction `solve_qr` qui prend en argument une matrice $A$, un vecteur $b$ et l'une des fonctions `GramSchmidt` ou `qr`, et qui rend la solution du système linéaire $Ax = b$, en utilisant la décomposition $QR$ de $A$ calculée par la fonction passée en argument. Cette fonction devra vérifier que les tailles de $A$ et de $b$ sont compatibles.

### Question 8
> Tester la fonction `solve_qr` en construisant $A\in\mathcal{M}_{4,1}(\mathbb{N})$ et $b\in\mathcal{M}_{4,1}(\mathbb{N})$ de façon aléatoire et en vérifiant que $Ax = b$.

In [15]:
for k in range(10):
    A = rd.randint(-10, 11, size = (4,4))
    b = rd.randint(-10,11, size = (4))
    xGS, testGS = solve_qr(A, b, GramSchmidt)
    xH, testH = solve_qr(A, b, qr)
    if testGS:
        print("Gram-Schmidt : {}".format(np.allclose(np.dot(A,xGS), b)), end="\t")
    else:
        print("Gram-Schmidt : Failed", end="\t")
    if testH:
        print("Householder : {}".format(np.allclose(np.dot(A,xH), b)), end="\n")
    else:
        print("Householder : Failed", end="\n")

Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True
Gram-Schmidt : True	Householder : True


## Un exemple particulier

On se propose ici de tester l'orthogonalité des matrices $Q$ produites par les deux méthodes ci-dessus sur les matrices 

$$
A(\varepsilon) = \begin{pmatrix}
1 & 1 & 1 & 1 \\
\varepsilon & 0 & 0 & 0 \\
0 & \varepsilon & 0 & 0 \\
0 & 0 & \varepsilon & 0 
\end{pmatrix}\in\mathcal{M}_4(\mathbb{R})
\,.
$$

### Question 9
> Vérifier si l'on a bien $Q^TQ = I_4$ pour les facteurs $Q$ de $A(\varepsilon)$ produits par `GramSchmidt` et `qr`. Essayer avec $\varepsilon = 10^{-k}$ pour $1\leq k \leq 10$. 

k =  1 - > GramSchmidt = 3.123153e-14 vs Householder = 5.832649e-16
k =  2 - > GramSchmidt = 4.508070e-12 vs Householder = 4.322910e-16
k =  3 - > GramSchmidt = 1.183860e-10 vs Householder = 5.570235e-16
k =  4 - > GramSchmidt = 5.650966e-09 vs Householder = 4.279415e-16
k =  5 - > GramSchmidt = 1.434549e-07 vs Householder = 6.855165e-16
k =  6 - > GramSchmidt = 1.539727e-04 vs Householder = 3.961916e-16
k =  7 - > GramSchmidt = 3.256508e-02 vs Householder = 3.860376e-16
k =  8 - > GramSchmidt = 1.581139e+00 vs Householder = 5.532285e-16
k =  9 - > GramSchmidt = 1.581139e+00 vs Householder = 2.648090e-16
k = 10 - > GramSchmidt = 1.581139e+00 vs Householder = 5.398144e-16


## Explication du phénomène

Le problème de la méthode de Gram-Schmidt est qu'elle nécessite la division par la norme d'un vecteur qui peut être petite et occasionne des erreurs d'arrondis. D'une manière générale, la recherche de la direction $i$ : le vecteur unitaire $q_i$ est faite en calculant un vecteur dans l'espace engendré par les $i$ premiers vecteurs et qui est orthogonal aux $i-1$ précédent. Or ce vecteur peut avoir une norme très petite et les erreurs sur la direction sont amplifiées d'autant.

Calculons dans le cas particulier de la matrice $A(\varepsilon)$ ce qui se passe :
$$
A(\varepsilon) = \begin{pmatrix}
1 & 1 & 1 & 1 \\
\varepsilon & 0 & 0 & 0 \\
0 & \varepsilon & 0 & 0 \\
0 & 0 & \varepsilon & 0 
\end{pmatrix}\in\mathcal{M}_4(\mathbb{R})
\,.
$$

En supposant que $\varepsilon$ est petit devant $1$, nous supposerons que les calculs numériques ont pour effet de ne calculer que les termes plus grand que $\mathcal{O}(\varepsilon)$. Nous noterons $q_i^{\text{app}}$ les vecteurs calculés numériquement par l'algorithme de Gram-Schmidt. Nous avons

\begin{equation}
\left\Vert
\begin{aligned}
q_1^{\text{app}} &= (1, \varepsilon, 0, 0),\\
&\\
q_2^{\prime\text{app}} &=
(1, 0, \varepsilon, 0) - 1\times(1,\varepsilon,0,0) = (0,-\varepsilon, \varepsilon,0)\\
q_2^{\text{app}} &= \tfrac{1}{\sqrt{2}} (0,-1,1,0)\\
&\\
q_3^{\prime\text{app}} &=
(1, 0, 0, \varepsilon) - 1\times(1,\varepsilon,0,0) - 0\times\tfrac{1}{\sqrt{2}} (0,-1,1,0)
= (0,-\varepsilon,0,\varepsilon)\\
q_3^{\text{app}} &= \tfrac{1}{\sqrt{2}} (0,-1,0,1)\\
&\\
q_4^{\prime\text{app}} &=
(1, 0, 0, 0) - 1\times(1,\varepsilon,0,0) - 0\times\tfrac{1}{\sqrt{2}} (0,-1,1,0) -0\times\tfrac{1}{\sqrt{2}} (0,-1,0,1)
= (0,-\varepsilon,0,0)\\
q_4^{\text{app}} &= (0,-1,0,0)
\end{aligned}
\right.
\end{equation}

Vérifions que la base ainsi déterminée n'est pas orthonormée. Nous avons, en ne conservant que les termes supérieurs à $\mathcal{O}(\varepsilon)$,

\begin{equation}
\left\Vert
\begin{aligned}
\langle q_1^{\text{app}}, q_1^{\text{app}} \rangle
&= 1 && \text{ok} \\
\langle q_1^{\text{app}}, q_2^{\text{app}} \rangle
&= -\tfrac{1}{\sqrt{2}}\varepsilon && \text{bof} \\
\langle q_1^{\text{app}}, q_3^{\text{app}} \rangle
&= -\tfrac{1}{\sqrt{2}}\varepsilon && \text{bof} \\
\langle q_1^{\text{app}}, q_4^{\text{app}} \rangle
&= -\varepsilon && \text{bof} \\
\langle q_2^{\text{app}}, q_2^{\text{app}} \rangle
&= 1 && \text{ok} \\
\langle q_2^{\text{app}}, q_3^{\text{app}} \rangle
&= \tfrac{1}{2} && \star\text{ko}\;\star \\
\langle q_2^{\text{app}}, q_4^{\text{app}} \rangle
&= \tfrac{1}{\sqrt{2}} && \star\text{ko}\;\star \\
\langle q_3^{\text{app}}, q_3^{\text{app}} \rangle
&= 1 && \text{ok} \\
\langle q_3^{\text{app}}, q_4^{\text{app}} \rangle
&= \tfrac{1}{\sqrt{2}} && \star\text{ko}\;\star \\
\langle q_4^{\text{app}}, q_4^{\text{app}} \rangle
&= 1 && \text{ok}
\end{aligned}
\right.
\end{equation}

In [1]:
import numpy as np
epsilon = 1.e-8

In [2]:
a1 = np.array([1, epsilon, 0, 0])
a2 = np.array([1, 0, epsilon, 0])
a3 = np.array([1, 0, 0, epsilon])
a4 = np.array([1, 0, 0, 0])

In [3]:
q1 = a1 / np.linalg.norm(a1)
q1app = np.array([1, epsilon, 0, 0])
print(q1)
print(np.linalg.norm(q1 - q1app))

[1.e+00 1.e-08 0.e+00 0.e+00]
0.0


In [4]:
q2 = a2 - np.dot(a2, q1)*q1
q2 /= np.linalg.norm(q2)
q2app = np.array([0, -1, 1, 0])/np.sqrt(2)
print(q2)
print(np.linalg.norm(q2 - q2app))

[ 0.         -0.70710678  0.70710678  0.        ]
0.0


In [5]:
q3 = a3 - np.dot(a3, q1)*q1 - np.dot(a3, q2)*q2
q3 /= np.linalg.norm(q3)
q3app = np.array([0, -1, 0, 1])/np.sqrt(2)
print(q3)
print(np.linalg.norm(q3 - q3app))

[ 0.         -0.70710678  0.          0.70710678]
0.0


In [6]:
q4 = a4 - np.dot(a4, q1)*q1 - np.dot(a4, q2)*q2 - np.dot(a4, q3)*q3
q4 /= np.linalg.norm(q4)
q4app = np.array([0, -1, 0, 0])
print(q4)
print(np.linalg.norm(q4 - q4app))

[ 0. -1.  0.  0.]
0.0


In [12]:
Q = np.array([q1, q2, q3, q4])
r2 = 1./np.sqrt(2)
Id = np.array([
    [1,          -epsilon*r2, -epsilon*r2, -epsilon],
    [-epsilon*r2, 1,           .5,          r2     ],
    [-epsilon*r2, .5,          1,           r2     ],
    [-epsilon,    r2,          r2,          1      ]
])
print(np.linalg.norm(np.dot(Q, Q.T) - Id))

3.510833468576701e-16
