# **Optimal Preconditioner Problem**

## **Contexto**

Un precondicionador es una matriz $M^-1$ tal que es un intermedio entre $I$ y la $A^{-1}$ de forma que al hacer:
$$
M^{-1}A = M^{-1}b 
$$

Se esta resolviendo el mismo problema, pero en un espacio más sencillo, donde el precondicionador óptimo seria exactamente la inversa de A. Pero hay que tener en mente que para que esto tenga sentido, se tiene que cumplir:
$$
C(\text{obtener }M^{-1}) + C(\text{Multiplicar el sistema por} M^{-1}) < C(\text{Resolver Sistema Original}) - C(Resolver Sistema Precondicionado)
$$

Donde $C$ sería una **Función de Costo Computacional**.

---


## **Problema Específico**
Dado que en el problema de encontrar el precondicionador óptimo, sabemos que ese óptimo es la inversa, la cuál generalmente es costosa de calcular, surge la idea de restringir la estructura del precondicionado. Se abordará el problema para una matriz $M^{-1}$ con una estructura tridiagonal, es decir:

$$
M^{-1}(\vec{\alpha},\vec{\beta},\vec{\gamma}) = \begin{pmatrix}
\beta_1 & \gamma_1 & 0 & \cdots & 0 \\
\alpha_2 & \beta_2 & \gamma_2 & \ddots & \vdots \\
0 & \alpha_3 & \beta_3 & \ddots & 0 \\
\vdots & \ddots & \ddots & \ddots & \gamma_{n-1} \\
0 & \cdots & 0 & \alpha_n & \beta_n
\end{pmatrix}
$$

---



## **Función Objetivo**
Dado un precondicionador $M^{-1}$, necesitamos una forma de medir que tan bueno es, lo cual se puede ver como nuestra **función objetivo**:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|
$$

Convenientemente podemos utilizar la **Norma de Frobenius**:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|_F
$$

Podemos definir $B = M^{-1} A - I$, entonces:

$$
\| B \|_F = \sqrt{\sum_i^m \sum_j^m |b_{ij}|^2}
$$

Como la norma Frobenius se define utilizando una raíz cuadrada, es conveniente elevar al cuadrado la norma de nuestra función objetivo, lo cual no cambia el mínimo, pero si va a eliminar la raíz:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|_F^2 = \sqrt{\sum_i^m \sum_j^m |b_{ij}|^2}^2 = \sum_i^m \sum_j^m |b_{ij}|^2
$$

Es decir, simplemente queremos mínimizar la suma de todos los valores de $B$ en valor absoluto y al cuadrado.

---

## **Expandir $B$**

Veamos un ejemplo relativamente sencillo en un tamaño $N=5$, la matriz $B$ es:
$$
\Bigg|
\begin{pmatrix}
\beta_1  & \gamma_1 & 0        & 0        & 0 \\
\alpha_2 & \beta_2  & \gamma_2 & 0        & 0 \\
0        & \alpha_3 & \beta_3  & \gamma_3 & 0 \\
0        & 0        & \beta_4  & \alpha_4 & \gamma_4 \\
0        & 0        & 0        & \alpha_5 & \beta_5
\end{pmatrix}
\begin{bmatrix}
a_{11} & a_{12} & a_{13} & a_{14} & a_{15} \\
a_{21} & a_{22} & a_{23} & a_{24} & a_{25} \\
a_{31} & a_{32} & a_{33} & a_{34} & a_{35} \\
a_{41} & a_{42} & a_{43} & a_{44} & a_{45} \\
a_{51} & a_{52} & a_{53} & a_{54} & a_{55}
\end{bmatrix}
-
\begin{bmatrix}
1  & 0 & 0 & 0 & 0 \\
0  & 1 & 0 & 0 & 0 \\
0  & 0 & 1 & 0 & 0 \\
0  & 0 & 0 & 1 & 0 \\
0  & 0 & 0 & 0 & 1
\end{bmatrix}
\Bigg|^2

$$

$$
\Bigg|

\begin{bmatrix}
\beta_1 a_{11}+\gamma_1 a_{21}-1 & \beta_1 a_{12}+\gamma_1 a_{22} & \beta_1 a_{13}+\gamma_1 a_{23} & \beta_1 a_{14}+\gamma_1 a_{24} & \beta_1 a_{15}+\gamma_1 a_{25} \\
\alpha_2 a_{11}+\beta_2 a_{21}+\gamma_2 a_{31} & \alpha_2 a_{12}+\beta_2 a_{22}+\gamma_2 a_{32}-1 & \alpha_2 a_{13}+\beta_2 a_{23}+\gamma_2 a_{33} & \alpha_2 a_{14}+\beta_2 a_{24}+\gamma_2 a_{34} & \alpha_2 a_{15}+\beta_2 a_{25}+\gamma_2 a_{35} \\
\alpha_3 a_{21}+\beta_3 a_{31}+\gamma_3 a_{41} & \alpha_3 a_{22}+\beta_3 a_{32}+\gamma_3 a_{42} & \alpha_3 a_{23}+\beta_3 a_{33}+\gamma_3 a_{43}-1 & \alpha_3 a_{24}+\beta_3 a_{34}+\gamma_3 a_{44} & \alpha_3 a_{25}+\beta_3 a_{35}+\gamma_3 a_{45} \\
\beta_4 a_{31}+\alpha_4 a_{41}+\gamma_4 a_{51} & \beta_4 a_{32}+\alpha_4 a_{42}+\gamma_4 a_{52} & \beta_4 a_{33}+\alpha_4 a_{43}+\gamma_4 a_{53} & \beta_4 a_{34}+\alpha_4 a_{44}+\gamma_4 a_{54}-1 & \beta_4 a_{35}+\alpha_4 a_{45}+\gamma_4 a_{55} \\
\alpha_5 a_{41}+\beta_5 a_{51} & \alpha_5 a_{42}+\beta_5 a_{52} & \alpha_5 a_{43}+\beta_5 a_{53} & \alpha_5 a_{44}+\beta_5 a_{54} & \alpha_5 a_{45}+\beta_5 a_{55}-1
\end{bmatrix}
\Bigg|^2

$$

Ahora notamos claramente que cada fila de la matriz resultante $B_i$ depende solo de los valores $(\alpha_i, \beta_i, \gamma_i)$, así que surge naturalmente la idea de separar el problema en un conjunto de problemas más sencillos.

---



# **Replantear el problema de minimización**

Si vemos por ejemplo la fila 2:
$$
B_{2,:} =|[\alpha_2 a_{11}+\beta_2 a_{21}+\gamma_2 a_{31} + \alpha_2 a_{12}+\beta_2 a_{22}+\gamma_2 a_{32}-1 + \alpha_2 a_{13}+\beta_2 a_{23}+\gamma_2 a_{33} + \alpha_2 a_{14}+\beta_2 a_{24}+\gamma_2 a_{34} + \alpha_2 a_{15}+\beta_2 a_{25}+\gamma_2 a_{35}]|^2
$$

Entonces podemos ver que para una fila i-ésima, la minimización es una combinación lineal de $\alpha_i, \beta_i, \gamma_i$ con la submatriz que incluye todas las columas y las filas $i-1, i, i+1$

$$
B_{i,j} = \alpha_i a_{i-1},j + \beta_i a_{i,j} + \gamma_{i} a_{i+1,j} - \delta_{i,j}
$$

Donde el $\delta_{i,j}$ es $1$ si y sólo si $i=j$ y 0 en otro caso. Entonces podemos expresar el problema en forma matricial, donde buscamos minimizar:
$$
\| X w - y \|^ 2
$$

Donde:
$$
X_i
\begin{bmatrix}
a_{i-1,1} & a_{i,1} & a_{i+1,1} \\
a_{i-1,2} & a_{i,2} & a_{i+1,2} \\
\vdots & \vdots & \vdots \\
a_{i-1,n} & a_{i,n} & a_{i+1,n} 
\end{bmatrix}
\quad,

w_i =
\begin{bmatrix}
\alpha_i \\
\beta_i \\
\gamma_i 
\end{bmatrix}
\quad,

y_i =
\begin{bmatrix}
\delta_{i1} \\
\delta_{i2} \\
\vdots      \\
\delta_{in}
\end{bmatrix}
$$

---

# QR

$$
\begin{align*}
Xw   &= y, \quad X = QR \\
QRw  &= y \\
Rw   &= Q^Ty

\end{align*}
$$

In [51]:
import numpy as np
from scipy.sparse import spdiags
from scipy.sparse.linalg import gmres, LinearOperator

def optimal_preconditioner_qr(A, eta=1,verbose = False):
    debug = lambda msg: print(msg) if verbose else None

    n = A.shape[0]
    alpha = np.zeros(n)
    beta = np.zeros(n)
    gamma = np.zeros(n)
    
    # Resolver para la primera fila (i = 0)
    # Las columnas de la matriz X son las filas relevantes de A.
    debug(f"\n =================== FILA 0 =================== ")

    # X0 = np.stack([A[0, :], A[1, :]], axis=1)
    X0 = A[:2,:].T
    y0 = np.zeros(n)
    y0[0] = eta

    Q0, R0 = np.linalg.qr(X0)
    c0 = Q0.T @ y0
    w0 = np.linalg.solve(R0, c0)
    beta[0], gamma[0] = w0[0], w0[1]

    debug(f"1. Construir X:\n{np.round(X0, 2)} ")
    debug(f"2. Construir Y:\n{y0}")
    debug(f"3. Encontrar Beta y Gamma\n:, {beta[0],gamma[0]}")
    debug(f"\n ============================================== \n")
    
    # Resolver para las filas intermedias (i = 1 a n-2)
    for i in range(1, n - 1):
        debug(f"\n =================== FILA {i} =================== ")
        # X_i = np.stack([A[i - 1, :], A[i, :], A[i + 1, :]], axis=1)
        X_i = A[(i-1):(i+2),:].T
        y_i = np.zeros(n)
        y_i[i] = eta
        
        Q_i, R_i = np.linalg.qr(X_i)
        c_i = Q_i.T @ y_i
        w_i = np.linalg.solve(R_i, c_i)
        alpha[i], beta[i], gamma[i] = w_i[0], w_i[1], w_i[2]
        debug(f"1. Construir X:\n{np.round(X_i, 2)} ")
        debug(f"2. Construir Y:\n{y_i}")
        debug(f"3. Encontrar Alpha, Beta y Gamma\n:, {alpha[i], beta[i],gamma[i]}")
        debug(f"\n ============================================== \n")
    # Resolver para la última fila (i = n-1)
    debug(f"\n =================== FILA {n} =================== ")
    # X_n = np.stack([A[n - 2, :], A[n - 1, :]], axis=1)
    X_n = A[(n-2):,:].T
    y_n = np.zeros(n)
    y_n[n-1] = eta
    
    Q_n, R_n = np.linalg.qr(X_n)
    c_n = Q_n.T @ y_n
    w_n = np.linalg.solve(R_n, c_n)
    alpha[n-1], beta[n-1] = w_n[0], w_n[1]

    debug(f"1. Construir X:\n{np.round(X_n, 2)} ")
    debug(f"2. Construir Y:\n{y_n}")
    debug(f"3. Encontrar Beta y Gamma\n:, {alpha[n-1],beta[n-1],gamma[n-1]}")
    debug(f"\n ============================================== \n")
    # Construir la matriz M^-1
    M_inv = np.zeros((n, n))
    np.fill_diagonal(M_inv, beta)
    np.fill_diagonal(M_inv[1:], alpha[1:])
    np.fill_diagonal(M_inv[:, 1:], gamma[:-1])
    # print(alpha)
    # print(beta)
    # print(M_inv)
    return M_inv
    # return LinearOperator(shape=(n, n), matvec=lambda v: M_inv @ v)

def lin_op_M(M_inv,n):
    return LinearOperator(shape=(n, n), matvec=lambda v: M_inv @ v)


In [55]:
n = 3
np.random.seed(0)
A = np.random.rand(n, n)
# A = np.eye(n) * 3 + np.diag(np.ones(n-1),k=-1) + np.diag(np.ones(n-1),k=1) 
# C = np.diag(np.random.rand(n)) + np.diag(np.random.rand(n-1),k=-1) + np.diag(np.random.rand(n-1),k=1) 
# A = np.linalg.inv(C)

eta =100
b = np.ones(n)
print("A:\n", np.round(A,2))
M_inv = optimal_preconditioner_qr(A,eta,verbose=False)
lin_op_M_inv = lin_op_M(M_inv,n)
# print("C:\n",C)
print("Inv A numpy\n", np.linalg.inv(A))
print("M_inv: \n",M_inv)
print("M_inv @ A: \n",np.round(M_inv @ A,2))
print("num cond (A)", np.linalg.cond(A))
print("norma ||M @ A  - I||", np.linalg.norm(M_inv @ A - np.eye(n), 'fro'))
print("cond m_inv @ A:\n", np.linalg.cond(M_inv @ A))
# print(np.linalg.norm(M_rand @ A - np.eye(n), 'fro'))




A:
 [[0.55 0.72 0.6 ]
 [0.54 0.42 0.65]
 [0.44 0.89 0.96]]
Inv A numpy
 [[ 1.98960852  1.79913766 -2.4503547 ]
 [ 2.87590887 -3.14471165  0.30888212]
 [-3.56482088  2.09314855  1.86454351]]
M_inv: 
 [[ -73.13460758  142.11755521    0.        ]
 [ 287.59088731 -314.47116479   30.88821227]
 [   0.           24.53589517   34.44451552]]
M_inv @ A: 
 [[ 37.3    7.9   47.71]
 [  0.   100.     0.  ]
 [ 28.44  41.11  49.04]]
num cond (A) 11.98938051665869
norma ||M @ A  - I|| 135.14580234061413
cond m_inv @ A:
 20.598808628222983


---

In [None]:
n = 3
np.random.seed(0)
# A = np.random.rand(n, n)
# A = np.eye(n) * 3 + np.diag(np.ones(n-1),k=-1) + np.diag(np.ones(n-1),k=1) 
C = np.diag(np.random.rand(n)) + np.diag(np.random.rand(n-1),k=-1) + np.diag(np.random.rand(n-1),k=1) 
A = np.linalg.inv(C)


b = np.ones(n)
print("A:\n", np.round(A,2))
M_inv = optimal_preconditioner_qr(A,verbose=False)
lin_op_M_inv = lin_op_M(M_inv,n)
print("C:\n",C)
print("Inv A numpy\n", np.linalg.inv(A))
print("M_inv: \n",M_inv)
print("M_inv @ A: \n",M_inv @ A)
print("num cond (A)", np.linalg.cond(A))
print(np.linalg.norm(M_inv @ A - np.eye(n), 'fro'))
print("cond m_inv @ A:\n", np.linalg.cond(M_inv @ A))
# M_rand = np.eye(n)*0.5
# print(np.linalg.norm(M_rand @ A - np.eye(n), 'fro'))




A:
 [[-3.18  5.04 -3.66]
 [ 4.25 -4.28  3.11]
 [-2.99  3.01 -0.52]]
C:
 [[0.5488135  0.64589411 0.        ]
 [0.54488318 0.71518937 0.43758721]
 [0.         0.4236548  0.60276338]]
Inv A numpy
 [[ 5.48813504e-01  6.45894113e-01 -1.04505066e-16]
 [ 5.44883183e-01  7.15189366e-01  4.37587211e-01]
 [ 0.00000000e+00  4.23654799e-01  6.02763376e-01]]
M_inv: 
 [[5.48813504 6.45894113 0.        ]
 [5.44883183 7.15189366 4.37587211]
 [0.         4.23654799 6.02763376]]
M_inv @ A: 
 [[ 1.00000000e+01  2.73723830e-15 -1.84328195e-15]
 [-2.40370768e-15  1.00000000e+01 -4.95825584e-15]
 [-3.36281033e-15  2.76731610e-15  1.00000000e+01]]
num cond (A) 14.469418610082391
15.588457268119896
cond m_inv @ A:
 1.0000000000000016


In [None]:
C = np

# Costo Sin Precondicionador

In [29]:
%%timeit 
x_no_prec, info_no_prec = gmres(A, b)

348 μs ± 47.3 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
%%timeit
my_preconditioner = optimal_preconditioner_qr(A, verbose=False)
x_prec, info_prec = gmres(A, b, M=lin_op_M_inv)

1.6 ms ± 50.6 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
print("cond A:",np.linalg.cond(A))

x_no_prec, info_no_prec = gmres(A, b)
my_preconditioner = optimal_preconditioner_qr(A, verbose=False)
x_prec, info_prec = gmres(A, b, M=my_preconditioner)
print("||b-Ax_no_prec||",np.linalg.norm(b - A @ x_no_prec))
print("||b-Ax_prec||",np.linalg.norm(b - A @ x_prec))



cond A: 11.98938051665869
[0.         2.87590887 0.24535895]
[-0.73134608 -3.14471165  0.34444516]
[[-0.73134608  1.42117555  0.        ]
 [ 2.87590887 -3.14471165  0.30888212]
 [ 0.          0.24535895  0.34444516]]
||b-Ax_no_prec|| 1.1102230246251565e-16
||b-Ax_prec|| 4.440892098500626e-16


---

# Segunda Iteración

Nueva versión del Precondicionador óptimo con M_inv tridiagonal inferior || (M_inv ) A (M_inv.T) - I ||_frob. Ver qué pasa con los casos límites, generar un k para ir aumentando diagonales, ver que pasa con k=n, llegamos a LU? LU- incompleto? ¿I no es necesario que sea I, puede simplemente ser una matriz diagonal, pero ceros fuera de la diagonal,  seguramente sea más facil con un lambda I grande, para llevarla a una diagonal dominante?

In [13]:
import numpy as np 

A = np.round(np.random.rand(5,5) + np.eye(5)*3,2)

print(np.linalg.det(A))
A[0,0] = 0
print(np.linalg.det(A))

351.2282077550998
-18.6587151774
