# Factorización QR


La factorización QR, consiste en descomponer una matriz $A$ en el producto de una matriz ortogonal $Q$ y una matriz triangular superior $R$.

Una matriz se dice ortogonal, si cumple que $QQ^T =\text{Id}$.

Si $A$ es una matriz de $n\times n$ con coeficientes reales, la factorización puede realizarse, sin embargo, esta descomposición puede no ser única. En el caso en el que $A$ sea invertible y se exija que $R_{ii}>0$, la descomposición será única.

A diferencia de las anteriores factorizaciones, esta factorización puede hacerse en matrices que no sean cuadradas, siempre y cuando la cantidad de renglones sea mayor que la cantidad de columnas.

Es decir, dada $A$ matriz de $m \times n$ donde $m\geq n$, $A$ puede ser escrita como el producto de una matriz ortogonal $Q$ de $m \times m$ y una matriz triangular superior $R$ de $m \times n$, donde los últimos $(m-n)$ renglones de $R$ serán cero.


Cuando este es el caso es útil descomponer nuestras matrices $Q$ y $R$ como se muestra.

$$
A=QR=\left[ \begin{array}\\
Q_1 & Q_2
\end{array}
\right]
\left[ \begin{array}\\
R_1 \\
0
\end{array}
\right]
$$



Donde $Q_1$ es una matriz de $m \times n$ ortogonal, $Q_2$ es una matriz de $m \times (m-n)$ ortogonal, $R_1$ es una matriz de $n \times n$ triangular superior y $0$ es una matriz de $(m-n) \times n$ de ceros.

Si se cumple que el rango de $A$ es el mismo que el del número de columnas $\text{rank}(A) = n$, y se exige que $(R_1)_{ii}>0$, entonces las matrices $Q_1$ y $R_1$ son únicas, además, dada la matriz $\tilde{A} = A^T A$, tal que $\tilde{A} = LL^T$ se cumple que $R_1 = L^T$


## Cálculo del método

La idea detrás de la factorización es encontrar una base ortonormal para el espacio generado por las columnas de nuestra matriz $A$. 

Como un repaso de Álgebra Lineal rápido, dado un conjunto $V=\{v_i\}_{i=1}^n$ de n vectores en un espacio vectorial $W$, el espacio generado por el conjunto $V$, $\text{Span}(V)$ es el conjunto cuyos elementos son combinaciones lineales de los elemtos de $V$, formalmente

$$
\text{Span}(V) = \{x \in W | x = \sum_{i=1}^n \alpha_i v_i, \alpha_i \in \mathbb{R} \}
$$

En nuestro caso, los escalares $\alpha_i$ son números reales pero en general, estos pueden ser elementos del campo $\mathbb{K}$ en el que se encuentre definido nuestro espacio vectorial.

Ahora, una base $\beta$ de un espacio vectorial $V$, es un conjunto de vectores $v_i$ que generan el espacio, es decir dado $\beta=\{ v_i \in V \}$, se cumple que 

$$
\forall v \in V,\  \exists \alpha_i \in \mathbb{R}\ \  \text{tal que}\ \  v = \sum_{i=1}^n \alpha_i v_i
$$

Que se puede reducir a $V= \text{Span}(\beta)$

Si nuestra matriz de $n \times n$ es invertible, en realidad, estamos buscando una base para el espacio $\mathbb{R}^n$ ya que sus columnas serán todas linealmente independientes y el espacio generado por ellas será $\mathbb{R}^n$.

La manera más fácil en la que las columnas de nuestra matriz pueden expresarse, es tomando una base que se genere a partir de ellas, así que ahora surge la pregunta ¿Cómo se puede generar una base a partir de un conjunto de vectores l.i. dado?.


### Método de Gram-Schmidt


La respuesta a nuestra anterior pregunta, es utilizando un proceso llamado Gram-Schmidt. 

#### Teoría Previa

Para utilizar dicho proceso, se debe introducir el concepto de producto interior.

El producto interior, es una función $< \cdot , \cdot >: V \times V: \rightarrow \mathbb{R}$ que toma dos vectores y arroja un escalar, esta función debe cumplir las siguientes 3 propiedades.

I) Debe ser lineal en ambos de sus argumentos. Dados $x,y,z \in V,\ \alpha, \lambda \in \mathbb{R}$

$$
<\alpha x + y, \lambda z> = \alpha \lambda <x,z> + \lambda<y,z>
$$

II) Debe ser simétrico. Dados $x,y \in V$

$$
<x,y> = <y,x>
$$

III) Debe ser positivo semi-definido. Dado $x \in V$

$$
<x,x>\geq 0
$$

El producto interior, introduce la noción geométrica en espacios vectoriales, ya que permite definir una $\textbf{norma}$ la cuál se asocia con la longitud de un vector y con ambas se definen los ángulos entre vectores. De esta manera se puede relacionar el concepto de independencia lineal algebráica con la colinealidad o no de los vectores.

$$
|x|^2 = <x,x>
$$

Ahora, si definimos que el ángulo entre los vectores sea

$$
\theta=\arccos\left(\frac{<x,y>}{|x||y|}\right)
$$

Donde $|\cdot|$ es la norma de los vectores, se tiene que dados dos vectores $u,v$, estos serán ortogonales $\Leftrightarrow\ \ <u,v>=0$.

Porque

$$
<u,v> = 0 = |u||v|\cos\theta\ \Leftrightarrow\ \theta = \pi/2
$$

Con esto definido, podemos comenzar a comprender el proceso de Gram-Schmidt.

Una equivalencia de que una matriz $Q$ sea ortogonal, es que dadas dos columnas cualesquiera de $Q$, $Q_i,Q_j$ se cumpla que

$$
<Q_i,Q_j>=\left\{\begin{array}\\
 1 & \text{si} & i=j\\
 0 & \text{si} & i \neq j
 \end{array}
 \right.
$$

#### Cálculo de una base ortonormal

Una base $\beta$ se dice ortonormal, si cumple que dados $u_i,u_j \in \beta$, se cumple que

$$
<u_i,u_j>=\left\{\begin{array}\\
 1 & \text{si} & i=j\\
 0 & \text{si} & i \neq j
 \end{array}
 \right.
$$

y además, $|u| = 1$ para todo $u \in \beta$.

Definamos ahora la proyección de un vector $u$ en un vector $v$

$$
\text{proj}_\textbf{v} \textbf{u} = \frac{<\textbf{u,v}>}{<\textbf{v,v}>}\textbf{v} = \frac{|u||v|\cos \theta}{|v|^2}v
$$

Esta función es llamada la proyección porque

$$
\text{proj}_\textbf{v} \textbf{u} = |\textbf{u}|\cos \theta \frac{\textbf{v}}{\textbf{|v|}}
$$


Es decir, nos da la componente de $\textbf{u}$ en la dirección del vector $\textbf{v}$.

De esta manera, dado un conjunto de vectores $\{a_i\}$ que sean l.i., para obtener una base ortonormal de ellos, se siguen los siuientes pasos



El primer vector de nuestra base tendrá la dirección del primer vector de nuestro conjunto

$$u_1 = a_1$$

sin embargo, esto no es unitario, así que lo volvemos unitario 

$$e_1=\frac{u_1}{|u_1|}$$

Para que el siguiente vector no contenga ningún elemento en dirección del vector anterior, le restaremos su proyección, es decir

$$u_2 = a_2 - \text{proj}_{u_1} a_2$$

De esta manera, estos vectores serán ortogonales. Ahora lo volvemos unitario

$$e_2 = \frac{u_2}{|u_2|}$$

Para el tercer vector debemos restarle su proyeción de los 2 anteriores vectores para que el nuevo, no tenga ninguna dirección igual. 

$$u_3 = a_3 - \text{proj}_{u_1} a_3 - \text{proj}_{u_2} a_3$$

Así, este tercer vector será ortogonal a los anteriores. Y también lo volvemos unitario.

$$ e_3 = \frac{u_3}{|u_3|}$$

Este proceso se continua de la misma forma, en general, se puede escribir que 

$$u_k = a_k - \sum_{i=1}^{k-1}\text{proj}_{u_i} a_k$$

$$e_k = \frac{u_k}{|u_k|}$$

## Cálculo de las matrices Q y R


Sea $A$ una matriz cuadrada de coeficientes reales, sean $a_i$ las columnas de la matriz $A$, definimos el conjunto $\beta = \{ e_i \} $ tal que los vectores $e_i$ fueron obtenidos mediante el proceso de ortogonalización de Gram-Schmidt. Entonces, se cumple que dada una columna de $A$,

$$a_k = \sum_{i=1}^k <e_i,a_k> e_i$$

Esta fórmula se obtiene directamente del proceso Gram-Schmidt al despejar cada $a_k$.

De esta manera, se puede ver que si $Q=( e_1, e_2, ... , e_n)$, entonces
$$
R = \left(\begin{array}\\
 <a_1,e_1> & <a_2,e_1> & ... & <a_n,e_1>\\
 0 & <a_2,e_2> & ... & <a_n,e_2>\\
 \vdots & \vdots & \ddots &  \vdots\\
 0 & 0 & ... & <a_n,e_n>
 \end{array}
 \right)
$$

Ya que:

$$
(a_1, a_2, ... , a_n) = (e_1, e_2, ..., e_n) \left(\begin{array}\\
 <a_1,e_1> & <a_2,e_1> & ... & <a_n,e_1>\\
 0 & <a_2,e_2> & ... & <a_n,e_2>\\
 \vdots & \vdots & \ddots &  \vdots\\
 0 & 0 & ... & <a_n,e_n>
 \end{array}
 \right)
$$

Así, podemos escribir en general los elementos de R como

$$
R_{ij} = <e_i,a_j>
$$

In [None]:
import numpy as np

In [None]:
import random as rand

In [None]:
#Proyección de u sobre v
def proj(u,v):
    x = (np.dot(u,v)/np.dot(v,v))*v
    return x

In [None]:
def sum_gram(index,A,U):
    if index==0:
        return 0
    else:
        for i in range(index):
            suma=0
            suma += proj(A[index], U[i])
        return suma

In [None]:
def gram_sch(A):
    A=np.array(A)
    U=np.zeros((len(A),len(A)))
    for i in range(len(A)):
        U[i] = A[i] - sum_gram(i,A,U)
        U[i]= U[i]/np.linalg.norm(U[i])
    return U

In [None]:
def QR_fact(A):
    A=np.array(A)
    AT=A.transpose() #Las columnas de $A$ ahora son elemento de AT
    U=gram_sch(AT)
    Q=U.transpose() #Los vectores de $U$ son columnas de $Q$
    R=np.zeros((len(A[0]),len(A[:,0])))
    for i in range(len(R[0])):
        for j in range(i,len(R[:,0])):
            R[i][j]=np.dot(U[i],AT[j])
    
    return Q,R

In [None]:
Rand=((1,2,1),(0,2,-1),(0,-1,2))

print("Matriz aleatoria a factorizar",Rand)
print(" ")
print(" ")
print("Q=", QR_fact(Rand)[0])
print(" ")
print(" ")
print("R=", QR_fact(Rand)[1])
print(" ")
print(" ")
print("Resta de la original y la multiplicación",
     np.matmul(QR_fact(Rand)[0],QR_fact(Rand)[1]) - Rand)

Matriz aleatoria a factorizar ((1, 2, 1), (0, 2, -1), (0, -1, 2))
 
 
Q= [[ 1.          0.          0.5976143 ]
 [ 0.          0.89442719  0.35856858]
 [ 0.         -0.4472136   0.71713717]]
 
 
R= [[ 1.          2.          1.        ]
 [ 0.          2.23606798 -1.78885438]
 [ 0.          0.          1.67332005]]
 
 
Resta de la original y la multiplicación [[ 0.00000000e+00  0.00000000e+00  1.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  1.11022302e-16]
 [ 0.00000000e+00  0.00000000e+00 -2.22044605e-16]]
