# Les moindres carrés via une décomposition QR (et plus)☕️

**<span style='color:blue'> Objectifs de la séquence</span>** 
* Comprendre les équations normales via une décomposition QR,
* Être sensibilisé aux problèmes liés aux approximations numériques et à leur résolution.



 ----
## I. Introduction

En *data science*, nous ne faisons pas seulement face à des modèles mathématiques que nous souhaitons programmer. Nous devons aussi tenir compte du fait que les nombres que nous manipulons ont une représentation sur la machine qui les stocke. De manière paradigmatique, considérons la fonction suivante&nbsp;:

$$f(x)=\text{ln}\big(\text{exp}(x)\big)=x.$$

Les deux formulations sont parfaitement indentiques. Observons cela via $\texttt{numpy}$

In [None]:
import numpy as np
import matplotlib.pyplot as plt

In [None]:
x = np.linspace(0, 1000, 500)
y_1 = np.log(np.exp(x))
y_2 = x

plt.figure(figsize=(12, 8))

plt.plot(x, y_2, label=r'$x$')
plt.plot(x, y_1, '--', label=r'$ln(exp(x))$')

plt.legend()
plt.show()

Nous rencontrons une erreur ! Cela vient évidemment du fait que le calcul de l'exponentielle lorsque $x$ devient trop grand induit un $\texttt{overflow}$ que le logarithme ne peut plus interpréter. En observant $\text{ln}\big(\text{exp}(x)\big)=x$, nous avons en quelque sorte utilisé une astuce (clairement triviale ici) mathématique nous permettant d'obtenir notre résultat malgré tout. De manière similaire, nous utilisons souvent en *machine learning* la fonction *softmax*:

$$\text{softmax}(x)_j=\frac{e^{x_j}}{\sum_i e^{x_i}},$$

notamment comme fonction de lien en *deep learning* ou en *régression logistique* afin de transformer notre vecteur de *logit* en vecteur de probabilités. Implémentons cette fonction.

In [None]:
import numpy as np

def softmax(x):
    return np.exp(x)/np.exp(x).sum()

x = [10, 12]
print('Softmax [10, 12]:', softmax(x))

x = [-10, 12]
print('Softmax [-10, 12]:', softmax(x))

x = [748, 750]
print('Softmax [748, 750]:', softmax(x))


Le calcul de l'exponentielle de $750$ entraîne à nouveau un $\texttt{overflow}$ et nous empêche de calculer le *softmax*. La stratégie consiste à réduire la taille du plus grand nombre que notre exponentielle devra calculer de la manière suivante&nbsp;:

$$\text{softmax}(x)_j=\frac{e^{x_j}}{\sum_i e^{x_i}}=\frac{e^{x_j}}{\sum_i e^{x_i}}\frac{e^{-\text{max}(x)}}{e^{-\text{max}(x)}}=\frac{e^{x_j-\text{max}(x)}}{\sum_i e^{x_i-\text{max}(x)}}.$$

Réimplémentons notre *softmax*.

In [None]:
import numpy as np

def softmax(x):
    return np.exp(x-np.max(x))/np.exp(x-np.max(x)).sum()

x = [10, 12]
print('Softmax [10, 12]:', softmax(x))

x = [-10, 12]
print('Softmax [-10, 12]:', softmax(x))

x = [748, 750]
print('Softmax [748, 750]:', softmax(x))



De très nombreuses astuces de ce type existent et sont implémentées dans les différents *frameworks*.

C'est exactement cela que nous voulons faire avec les moindres carrés via une décomposition QR. Calculer notre estimateur des moindres carrés est beaucoup plus stable après une décomposition QR que dans sa formulation telle que nous l'avons vue.

## II. Décomposition QR
Soit une matrice $A\in\mathbb{R}^{m\times n}$. La décomposition $QR$ de la matrice $A$ est&nbsp;:

$$A=QR,$$

où $Q$ est une matrice orthogonale (par colonne si rectangulaire) et $R$ une matrice diagonale supérieure. On retrouve d'ailleurs parfois l'appellation "décomposition $QU$" où $U$ signifie *Upper triangular*. Une matrice orthogonale par colonne implique $Q^TQ=I$ et donc $m\geq n$. En effet, si une famille de vecteurs est plus grande que la dimension de l'espace, alors elle est forcément liée.

### A. Procédé de Gram-Schmidt
Il existe plusieurs stratégies permettant de réaliser cette décomposition et nous utiliserons celle basée sur le procédé (ou algorithme) de Gram-Schmidt. Soit $F=\{u_1, ..., u_n\}$ une famille de vecteurs libres. Le procédé de Gram-Schmidt a pour objectif de construire une base orthonormale $B=\{e_1, ..., e_n\}$ à partir de $F$.

L'opération de base du procédé de Gram-Schmidt est l'opérateur de projection&nbsp;:

$$\textrm{proj}_u(v)=\Pi_u(v)=\frac{\langle v, u\rangle }{\langle u, u\rangle}u,$$

où le vecteur $v$ est projeté orthogonalement sur $u$.

Le procédé itère sur l'ensemble des vecteurs de la famille $F$ de la manière suivante.


1.  $v_1=u_1$ et $e_1=v_1/\lVert v_1\rVert_2$,
2.  $v_2=u_2-\Pi_{e_1}(u_2)$ et $e_2=v_2/\lVert v_2\rVert_2$,
3.  ...
4.  $v_n=u_n-\sum_{i=1}^{n-1}\Pi_{e_i}(u_n)$ et $e_n=v_n/\lVert v_n\rVert_2$.


La famille $\{e_1, ..., e_n\}$ ainsi construite est une base orthonormée et engendre le même sous-espace vectoriel que la famille $F$.

**<span style='color:blue'> Exercice</span>** 
**Complétez le code ci-dessous afin d'implémenter le procédé de Gram-Schmidt.**



 ----

In [None]:
import numpy as np

def projector(u, v):
    ####### Complete this part ######## or die ####################
    ...
    return ...
    ###############################################################

def gram_schmidt(matrix):
    ####### Complete this part ######## or die ####################
    ...
    ...
    return ...
    ###############################################################

A = np.random.random((4, 4))

Q = gram_schmidt(A)

print('Une matrice identite :\n', np.dot(Q.T, Q))



### B. Décomposition QR

Soit $A\in\mathbb{R}^{m\times n}$ telle que les vecteurs colonnes sont libres. Notons $\{a_1, ..., a_n\}$ l'ensemble des vecteurs colonnes. Soit $\{e_1, ..., e_n\}$ une base orthonormale résultant du procédé de Gram-Schmidt appliqué aux vecteurs colonnes de $A$.

De manière assez directe, on observe que&nbsp;:

$$a_1=\langle a_1, e_1\rangle e_1.$$ 

Dit autrement, $a_1$ est un vecteur co-linéaire à $e_1$ dont la norme est $\langle e_1, a_1\rangle$ (sachant que $e_1$ est unitaire). Le vecteur $a_2$ est un peu plus complexe à reconstruire&nbsp;: 

$$a_2=\langle a_2, e_2\rangle e_2+\langle a_2, e_1\rangle e_1.$$ 

Autrement dit, $a_2$ est une combinaison linéaire de $e_1$ et $e_2$, ce qui est logique puisque $e_2$ est construit en retirant la composante non orthogonale à $e_1$ de $a_2$.
On réitère l'opération jusqu'à $a_n=\sum_i \langle e_i, a_n\rangle e_i$.

En notant&nbsp;:

$$\begin{aligned}
    Q=[e_1, ..., e_n]\textrm{ et }R=\begin{bmatrix}
        \langle e_1, a_1\rangle & \langle e_1, a_2\rangle & \langle e_1, a_3\rangle & \ldots&\langle e_1, a_n\rangle\\
        0 & \langle e_2, a_2\rangle & \langle e_2, a_3\rangle& \ldots&\langle e_2, a_n\rangle\\
        0 &0 & \langle e_3, a_3\rangle& \ldots&\langle e_3, a_n\rangle\\
        0 & 0 & 0 & \ddots & \vdots\\
        0 & 0 & 0 & \ldots & \langle e_n, a_n\rangle
        \end{bmatrix}
    \end{aligned}$$
    
on retrouve bien $A=QR$.

### C. Exemple

Soit la matrice suivante&nbsp;:

$$\begin{aligned}
    A=\begin{bmatrix}
    1&-1\\
    2&0\\
    2&2
    \end{bmatrix}=[a_1, a_2]
\end{aligned}$$

Commençons la procédure de Gram-Schmidt. On note&nbsp;:

$$v_1=a_1\textrm{ et }e_1=v_1/\lVert v_1\rVert_2=\Big[\frac{1}{3},\frac{2}{3}, \frac{2}{3}\Big]^T$$

Et&nbsp;:

$$v_2=a_2-\Pi_{e_1}(a_2)\textrm{ et }e_2=v_2/\lVert v_2\rVert_2=\Big[-\frac{2}{3},-\frac{1}{3}, \frac{2}{3}\Big]^T$$

On vérifie assez bien que $e_1$ et $e_2$ sont orthogonaux et unitaires.
Calculons maintenant les produits scalaires&nbsp;:

$$\langle e_1, a_1\rangle=3,\ \langle e_1, a_2\rangle=1\textrm{ et }\langle e_2, a_2\rangle=2$$

Nous avons donc

$$\begin{aligned}
    Q=\begin{bmatrix}
    1/3&-2/3\\
    2/3&-1/3\\
    2/3&2/3
    \end{bmatrix}\text{ et }R=\begin{bmatrix}
    3&1\\
    0&2
    \end{bmatrix}
    \end{aligned}$$
    
On vérifie facilement qu'on a bien l'égalité $A=QR$.


**<span style='color:blue'> Exercice</span>** 
**Complétez le code ci-dessous en ré-utilisant votre implémentation du procédé de Gram-Schmidt afin d'obtenir une décomposition QR.**



 ----

In [None]:
def qr(matrix):
    ####### Complete this part ######## or die ####################
    ...
    ...
    return ...
    ###############################################################

A = np.array([[1, -1], [2, 0], [2, 2]])

Q, R = qr(A)
print('Notre matrice initiale :\n', A)
print('Notre matrice initiale reconstruite :\n', np.dot(Q, R))


## III. Application aux moindres carrés
### A. Notre estimation via une décomposition QR

Soit $X\in\mathbb{R}^{n\times d}$, $y\in\mathbb{R}^n$ et $\beta\in\mathbb{R}^d$. Notre objectif est de résoudre le problème d'optimisation suivant&nbsp;

$$\hat{\beta}=\text{argmin}_{\beta\in\mathbb{R}^d}\lVert X\beta-y\rVert_2^2.$$

Nous avons déjà vu que si $X^TX$ est inversible, alors nous avons la solution analytique suivante&nbsp;:

$$\hat{\beta}=(X^TX)^{-1}X^Ty.$$

Considérons maintenant la décomposition $QR$ de la matrice $X$ (i.e. $X=QR$). Nous avons ainsi&nbsp;:

$$\begin{aligned}
    \hat{\beta}&=(X^TX)^{-1}X^Ty\\
    &=((QR)^TQR)^{-1}(QR)^Ty\\
    &= ((R^TQ^TQR)^{-1}R^TQ^Ty\\
    &=(R^TR)^{-1}R^TQ^Ty\\
    &=R^{-1}(R^T)^{-1}R^TQ^Ty\\
    &=R^{-1}Q^Ty.
\end{aligned}$$

Rappellons que si $A$ et $B$ sont deux matrices inversibles, nous avons $(AB)^{-1}=B^{-1}A^{-1}$.

### B. Exercice

Soit la matrice suivante&nbsp;:

$$\begin{aligned}
    X=\begin{bmatrix}
    1&-1\\
    0&10^{-5}\\
    0&0
    \end{bmatrix}\textrm{ et }Y=\begin{bmatrix}
    0\\
    10^{-5}\\
    0
    \end{bmatrix}
    \end{aligned}$$
    

**<span style='color:blue'> Exercice 1</span>** 
**Supposons que l'algorithme tourne sur une machine où les nombres sont arrondis après 8 décimales (i.e. si $|x|<10^{-8}$ alors $x:=0$). Calculez l'estimateur des moindres carrés SANS passer par une décomposition QR.**



 ----
**<span style='color:blue'> Exercice 2</span>** 
**Supposons que l'algorithme tourne sur une machine où les nombres sont arrondis après 8 décimales (i.e. si $|x|<10^{-8}$ alors $x:=0$). Calculez l'estimateur des moindres carrés AVEC une décomposition QR.**



 ----

**<span style='color:blue'> Exercice 3</span>** 
**Implémentez les deux stratégies précédentes en utilisant $\texttt{numpy}$. Que constatez-vous ?**



 ----

In [None]:
import numpy as np

X = np.array([[1, -1], [0, 1e-5], [0, 0]])
y = np.array([[0], [1e-5], [0]])

####### Complete this part ######## or die ####################
...
...
...
###############################################################

print("Notre estimateur avec la méthode classique :\n", beta_est)
print("Notre estimateur avec la méthode QR :\n", beta_qr_est)


Cette exemple simple montre déjà les avantages de la décomposition QR dans le cadre des moindres carrés. On imagine sans mal son intérêt dans des exemples beaucoup plus compliqués où les dépendances linéaires sont peut-être plus difficiles à discerner au milieu des perturbations et du bruit.

## IV. Autres décompositions et conclusion

Soit $X$ notre matrice, la solution des moindres carrés est obtenue par la pseudo-inverse de $X$ (nous l'avons démontré dans la séquence de cours sur la régression linéaire)&nbsp;:

$$\hat{\beta}=X^\dagger y.$$

Lorsque $X^TX$ est inversible, nous pouvons obtenir cette pseudo-inverse par &nbsp;:

$$X^\dagger=(X^TX)^{-1}X^T,$$

comme nous l'avons vu au-dessus. Nous pouvons également retrouver l'expression $\hat{\beta}=(X^TX)^{-1}X^Ty=X^\dagger y$ en annulant le gradient des moindres carrés. Afin de limiter les problèmes de stabilité numérique liés à $(X^TX)^{-1}$, nous avons remplacé dans l'expression précédente $X$ par sa décomposition $QR$. 

Étudions maintenant les moindres carrés au travers d'une décomposition en valeurs singulières. Attention, ici l'objectif n'est pas de remplacer $X$ par cette nouvelle décomposition mais d'utiliser cette dernière afin de trouver une expression de la pseudo-inverse de $X$. Une décomposition en valeurs singulières donne&nbsp;:

$$X=U\Sigma V^T,$$

où $X\in\mathbb{R}^{n\times d}$, $V$ est une matrice de taille $d\times d$ composée d'une base orthonormale de $\mathbb{R}^d$, $U$ est une matrice de taille $n\times n$ contenant une base orthonormale de $\mathbb{R}^n$ et $\Sigma$ est une matrice "diagonale" de taille $n\times d$ contenant les valeurs singulières de $X$ généralement triées de la plus grande à la moins grande. Les valeurs singulières sont les racines des valeurs propres de $X^TX$ (celles-ci sont nécessairement positives ou nulles).

Soit $\Sigma^{-1}$ la matrice $\Sigma$ dont chaque valeur singulière différente de $0$ a été inversée&nbsp;: $\lambda_i^{-1}=1/\lambda_i$. La pseudo-inverse de $X$ est donnée par&nbsp;:

$$X^\dagger=V\Sigma^{-1}U^T.$$

**<span style='color:blue'> Exercice</span>** 
Vérifier qu'il s'agit bien d'une pseudo-inverse.



 ----
**<span style='color:green'> Indice</span>** 
Montrer les égalités suivantes&nbsp;:

$$\begin{aligned}
AA^\dagger A&=A\text{ (appliquer }A\text{, son inverse }A^\dagger\text{ puis }A\text{ à nouveau revient à appliquer }A\text{)}\\
A^\dagger AA^\dagger&=A^\dagger\text{ (c'est la même chose du point de vu de l'inverse)}\\
(AA^\dagger)^T&=AA^\dagger\text{ (la transposition n'a pas d'effet)}\\
(A^\dagger A)^T&=A^\dagger A\text{ (même chose que précédemment du point de vu de l'inverse)}
\end{aligned}$$




 ----


Comparons dans le code ci-dessous la décomposition QR et la décomposition SVD sur un jeu de données synthétique.

In [1]:
import numpy as np

nb_elements = 500

beta = np.random.random((nb_elements, 1))

X = np.random.random((nb_elements, nb_elements))
y = np.dot(X, beta)+np.random.normal(size=(nb_elements, 1))

X_test = np.random.random((nb_elements, nb_elements))
y_test = np.dot(X_test, beta)+np.random.normal(size=(nb_elements, 1))

In [2]:
# on fait notre décomposition QR
Q, R = np.linalg.qr(X)

# on calcule notre estimateur

beta_est = np.dot(np.dot(np.linalg.inv(R), Q.T), y)


error = np.dot(X, beta_est)-y
mse = np.squeeze(np.dot(error.T, error)/float(nb_elements))
print('Erreur sur le jeu d\'apprentissage (QR):', mse)

error = np.dot(X_test, beta_est)-y_test
print('Erreur sur le jeu de test (QR):', np.squeeze(np.dot(error.T, error)/float(nb_elements)))

# SVD decomposition
U, S, VT = np.linalg.svd(X, full_matrices=False)
# on inverse la matrice diagonale sauf pour ses elements nulls
S[S!=0.] = 1/S[S!=0.]
S = np.diag(S)

beta_est = np.dot(np.dot(np.dot(VT.T, S), U.T), y)
error = np.dot(X, beta_est)-y
mse = np.squeeze(np.dot(error.T, error)/float(nb_elements))
print('Erreur sur le jeu d\'apprentissage (SVD):', mse)

error = np.dot(X_test, beta_est)-y_test
print('Erreur sur le jeu de test (SVD):', np.squeeze(np.dot(error.T, error)/float(nb_elements)))

Erreur sur le jeu d'apprentissage (QR): 4.18312667468882e-25
Erreur sur le jeu de test (QR): 1058.2756812250134
Erreur sur le jeu d'apprentissage (SVD): 1.2829829794638883e-24
Erreur sur le jeu de test (SVD): 1058.275681225051


Nous avons bien $X\hat{\beta} = y$ (aux approximations numériques près) pour les deux décompositions. Cependant, lorsqu'on passe sur un jeu de données de test, la prédiction ne correspond plus du tout à la réalité.

Cela ne vient plus du problème de stabilité numérique mais du bruit qu'il y a dans les données. En effet, nous avons&nbsp;:

$$\textbf{y}=\textbf{X}\beta + \mathbf{\epsilon},$$

où $\mathbf{\epsilon}$ est un vecteur de bruit centré en $\mathbf{0}$. Notons $\textbf{y}_\text{pred}=\textbf{X}\beta $ où $\beta$ est le "vrai" vecteur de paramètres. Nous pouvons retrouver $\beta$ en passant par la pseudo-inverse&nbsp;:

$$\beta=\textbf{X}^\dagger \textbf{y}_\text{pred}.$$

En pratique, nous n'avons accès ni à $\beta$ ni à $y_\text{pred}$ et notre estimateur est&nbsp;:

$$\hat{\beta}=\textbf{X}^\dagger \textbf{y}=\textbf{X}^\dagger (\textbf{y}_\text{pred}+\mathbf{\epsilon})=\beta + \mathbf{X}^\dagger \mathbf{\epsilon}.$$


Lorsque la matrice $\mathbf{X}$ est mal conditionnée (e.g. matrice aléatoire presque carrée, colonnes presque dépendantes linéairement), alors $\mathbf{X}^\dagger$ aura un effet excessivement important dans certaines directions et $\mathbf{X}^\dagger \mathbf{\epsilon}$ aura un impact catastrophique sur notre estimateur et nos prédictions seront mauvaises.

La bonne nouvelle est qu'on peut résoudre ce problème via une stratégie de régularisation comme nous pourrons le voir plus tard. Une autre stratégie de régularisation est possible via notre décomposition SVD. En effet, le mauvais conditionnement vient du ratio entre la plus grande et la plus petite valeur singulière (ou valeurs propres lorsqu'elles existent).

Le paramètre de régularisation, noté $\texttt{rcond}$ n'est autre que le ratio entre la plus grande et la plus petite valeur singulière (différente de $0$) qu'on autorise. Toutes les valeurs singulières (ou propres) plus petites que $\texttt{rcond}\times \lambda_\text{max}$ sont mises à $0$. Bien sûr, en faisant cela, nous nous écartons de la vraie pseudo-inverse. Cependant, cela permet de réduire considérablement la norme du vecteur $\mathbf{X}^\dagger\epsilon$, vecteur qui n'a que des effets indésirables.

Reprenons l'exemple précédent et observons les résultats.

In [3]:
U, S, VT = np.linalg.svd(X, full_matrices=False)

# on autorise un ratio de 100 entre la plus grande 
# et la plus petite valeur singuliere
rcond =1e-2
S[S<=rcond*S.max()] = 0.
S[S!=0.] = 1/S[S!=0.]
S = np.diag(S)

beta_est = np.dot(np.dot(np.dot(VT.T, S), U.T), y)
error = np.dot(X, beta_est)-y
mse = np.squeeze(np.dot(error.T, error)/float(nb_elements))
print('Erreur sur le jeu d\'apprentissage (SVD avec filtre):', mse)

error = np.dot(X_test, beta_est)-y_test
print('Erreur sur le jeu de test (SVD avec filtre):', np.squeeze(np.dot(error.T, error)/float(nb_elements)))

Erreur sur le jeu d'apprentissage (SVD avec filtre): 0.24827151296985273
Erreur sur le jeu de test (SVD avec filtre): 2.8234517739450564


On observe donc que notre nouvel estimateur est beaucoup plus robuste et permet d'obtenir de biens meilleurs résultats sur le test. Cependant, nous n'avons effectivement plus une vraie pseudo-inverse et l'erreur sur le train n'est plus négligeable.

La méthode $\texttt{np.linalg.pinv}$ utilise $\texttt{np.linalg.svd}$ et possède un paramètre $\texttt{rcond}$ fixé par défaut à $10^{-15}$ qui permet de gérer cette régularisation. 

En règle général, lorsque la matrice $X^TX$ est bien inversible les solutions $(X^TX)^{-1}X^T$, QR ou SVD sont comparables en termes de résultats. Lorsqu'on se rapproche d'un déterminant nul, la méthode $(X^TX)^{-1}X^T$ est la première à devenir instable, suivi de $QR$. La méthode basée sur $SVD$ permet d'obtenir une pseudo-inverse qui fonctionne même si $X^TX$ possède un déterminant nul.

Cela fait qu'en pratique, sur certains problèmes très mal conditionnés, la solution de $\texttt{LinearRegression}$ ou via $\texttt{pinv}$ ou via $\texttt{SVD}$ possèdent de bonnes performances en test.