# **Optimal Preconditioner Problem**

## **Contexto**

Un precondicionador es una matriz $M^-1$ tal que es un intermedio entre $I$ y la $A^{-1}$ de forma que al hacer:
$$
M^{-1}A = M^{-1}b 
$$

Se esta resolviendo el mismo problema, pero en un espacio más sencillo, donde el precondicionador óptimo seria exactamente la inversa de A. Pero hay que tener en mente que para que esto tenga sentido, se tiene que cumplir:
$$
C(\text{obtener }M^{-1}) + C(\text{Multiplicar el sistema por} M^{-1}) < C(\text{Resolver Sistema Original}) - C(Resolver Sistema Precondicionado)
$$

Donde $C$ sería una **Función de Costo Computacional**.

---


## **Problema Específico**
Dado que en el problema de encontrar el precondicionador óptimo, sabemos que ese óptimo es la inversa, la cuál generalmente es costosa de calcular, surge la idea de restringir la estructura del precondicionado. Se abordará el problema para una matriz $M^{-1}$ con una estructura tridiagonal, es decir:

$$
M^{-1}(\vec{\alpha},\vec{\beta},\vec{\gamma}) = \begin{pmatrix}
\beta_1 & \gamma_1 & 0 & \cdots & 0 \\
\alpha_2 & \beta_2 & \gamma_2 & \ddots & \vdots \\
0 & \alpha_3 & \beta_3 & \ddots & 0 \\
\vdots & \ddots & \ddots & \ddots & \gamma_{n-1} \\
0 & \cdots & 0 & \alpha_n & \beta_n
\end{pmatrix}
$$

---



## **Función Objetivo**
Dado un precondicionador $M^{-1}$, necesitamos una forma de medir que tan bueno es, lo cual se puede ver como nuestra **función objetivo**:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|
$$

Convenientemente podemos utilizar la **Norma de Frobenius**:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|_F
$$

Podemos definir $B = M^{-1} A - I$, entonces:

$$
\| B \|_F = \sqrt{\sum_i^m \sum_j^m |b_{ij}|^2}
$$

Como la norma Frobenius se define utilizando una raíz cuadrada, es conveniente elevar al cuadrado la norma de nuestra función objetivo, lo cual no cambia el mínimo, pero si va a eliminar la raíz:

$$
\min_{(\vec{\alpha},\vec{\beta},\vec{\gamma})} \|M^{-1} A - I \|_F^2 = \sqrt{\sum_i^m \sum_j^m |b_{ij}|^2}^2 = \sum_i^m \sum_j^m |b_{ij}|^2
$$

Es decir, simplemente queremos mínimizar la suma de todos los valores de $B$ en valor absoluto y al cuadrado.

---

## **Expandir $B$**

Veamos un ejemplo relativamente sencillo en un tamaño $N=5$, la matriz $B$ es:
$$
\Bigg|
\begin{pmatrix}
\beta_1  & \gamma_1 & 0        & 0        & 0 \\
\alpha_2 & \beta_2  & \gamma_2 & 0        & 0 \\
0        & \alpha_3 & \beta_3  & \gamma_3 & 0 \\
0        & 0        & \beta_4  & \alpha_4 & \gamma_4 \\
0        & 0        & 0        & \alpha_5 & \beta_5
\end{pmatrix}
\begin{bmatrix}
a_{11} & a_{12} & a_{13} & a_{14} & a_{15} \\
a_{21} & a_{22} & a_{23} & a_{24} & a_{25} \\
a_{31} & a_{32} & a_{33} & a_{34} & a_{35} \\
a_{41} & a_{42} & a_{43} & a_{44} & a_{45} \\
a_{51} & a_{52} & a_{53} & a_{54} & a_{55}
\end{bmatrix}
-
\begin{bmatrix}
1  & 0 & 0 & 0 & 0 \\
0  & 1 & 0 & 0 & 0 \\
0  & 0 & 1 & 0 & 0 \\
0  & 0 & 0 & 1 & 0 \\
0  & 0 & 0 & 0 & 1
\end{bmatrix}
\Bigg|^2

$$

$$
\Bigg|

\begin{bmatrix}
\beta_1 a_{11}+\gamma_1 a_{21}-1 & \beta_1 a_{12}+\gamma_1 a_{22} & \beta_1 a_{13}+\gamma_1 a_{23} & \beta_1 a_{14}+\gamma_1 a_{24} & \beta_1 a_{15}+\gamma_1 a_{25} \\
\alpha_2 a_{11}+\beta_2 a_{21}+\gamma_2 a_{31} & \alpha_2 a_{12}+\beta_2 a_{22}+\gamma_2 a_{32}-1 & \alpha_2 a_{13}+\beta_2 a_{23}+\gamma_2 a_{33} & \alpha_2 a_{14}+\beta_2 a_{24}+\gamma_2 a_{34} & \alpha_2 a_{15}+\beta_2 a_{25}+\gamma_2 a_{35} \\
\alpha_3 a_{21}+\beta_3 a_{31}+\gamma_3 a_{41} & \alpha_3 a_{22}+\beta_3 a_{32}+\gamma_3 a_{42} & \alpha_3 a_{23}+\beta_3 a_{33}+\gamma_3 a_{43}-1 & \alpha_3 a_{24}+\beta_3 a_{34}+\gamma_3 a_{44} & \alpha_3 a_{25}+\beta_3 a_{35}+\gamma_3 a_{45} \\
\beta_4 a_{31}+\alpha_4 a_{41}+\gamma_4 a_{51} & \beta_4 a_{32}+\alpha_4 a_{42}+\gamma_4 a_{52} & \beta_4 a_{33}+\alpha_4 a_{43}+\gamma_4 a_{53} & \beta_4 a_{34}+\alpha_4 a_{44}+\gamma_4 a_{54}-1 & \beta_4 a_{35}+\alpha_4 a_{45}+\gamma_4 a_{55} \\
\alpha_5 a_{41}+\beta_5 a_{51} & \alpha_5 a_{42}+\beta_5 a_{52} & \alpha_5 a_{43}+\beta_5 a_{53} & \alpha_5 a_{44}+\beta_5 a_{54} & \alpha_5 a_{45}+\beta_5 a_{55}-1
\end{bmatrix}
\Bigg|^2

$$

Ahora notamos claramente que cada fila de la matriz resultante $B_i$ depende solo de los valores $(\alpha_i, \beta_i, \gamma_i)$, así que surge naturalmente la idea de separar el problema en un conjunto de problemas más sencillos.

---



# **Replantear el problema de minimización**

Si vemos por ejemplo la fila 2:
$$
B_{2,:} =|[\alpha_2 a_{11}+\beta_2 a_{21}+\gamma_2 a_{31} + \alpha_2 a_{12}+\beta_2 a_{22}+\gamma_2 a_{32}-1 + \alpha_2 a_{13}+\beta_2 a_{23}+\gamma_2 a_{33} + \alpha_2 a_{14}+\beta_2 a_{24}+\gamma_2 a_{34} + \alpha_2 a_{15}+\beta_2 a_{25}+\gamma_2 a_{35}]|^2
$$

Entonces podemos ver que para una fila i-ésima, la minimización es una combinación lineal de $\alpha_i, \beta_i, \gamma_i$ con la submatriz que incluye todas las columas y las filas $i-1, i, i+1$

$$
B_{i,j} = \alpha_i a_{i-1},j + \beta_i a_{i,j} + \gamma_{i} a_{i+1,j} - \delta_{i,j}
$$

Donde el $\delta_{i,j}$ es $1$ si y sólo si $i=j$ y 0 en otro caso. Entonces podemos expresar el problema en forma matricial, donde buscamos minimizar:
$$
\| X w - y \|^ 2
$$

Donde:
$$
X_i
\begin{bmatrix}
a_{i-1,1} & a_{i,1} & a_{i+1,1} \\
a_{i-1,2} & a_{i,2} & a_{i+1,2} \\
\vdots & \vdots & \vdots \\
a_{i-1,n} & a_{i,n} & a_{i+1,n} 
\end{bmatrix}
\quad,

w_i =
\begin{bmatrix}
\alpha_i \\
\beta_i \\
\gamma_i 
\end{bmatrix}
\quad,

y_i =
\begin{bmatrix}
\delta_{i1} \\
\delta_{i2} \\
\vdots      \\
\delta_{in}
\end{bmatrix}
$$

---

# QR

$$
\begin{align*}
Xw   &= y, \quad X = QR \\
QRw  &= y \\
Rw   &= Q^Ty

\end{align*}
$$

In [51]:
import numpy as np
from scipy.sparse import spdiags
from scipy.sparse.linalg import gmres, LinearOperator

def optimal_preconditioner_qr(A, eta=1,verbose = False):
    debug = lambda msg: print(msg) if verbose else None

    n = A.shape[0]
    alpha = np.zeros(n)
    beta = np.zeros(n)
    gamma = np.zeros(n)
    
    # Resolver para la primera fila (i = 0)
    # Las columnas de la matriz X son las filas relevantes de A.
    debug(f"\n =================== FILA 0 =================== ")

    # X0 = np.stack([A[0, :], A[1, :]], axis=1)
    X0 = A[:2,:].T
    y0 = np.zeros(n)
    y0[0] = eta

    Q0, R0 = np.linalg.qr(X0)
    c0 = Q0.T @ y0
    w0 = np.linalg.solve(R0, c0)
    beta[0], gamma[0] = w0[0], w0[1]

    debug(f"1. Construir X:\n{np.round(X0, 2)} ")
    debug(f"2. Construir Y:\n{y0}")
    debug(f"3. Encontrar Beta y Gamma\n:, {beta[0],gamma[0]}")
    debug(f"\n ============================================== \n")
    
    # Resolver para las filas intermedias (i = 1 a n-2)
    for i in range(1, n - 1):
        debug(f"\n =================== FILA {i} =================== ")
        # X_i = np.stack([A[i - 1, :], A[i, :], A[i + 1, :]], axis=1)
        X_i = A[(i-1):(i+2),:].T
        y_i = np.zeros(n)
        y_i[i] = eta
        
        Q_i, R_i = np.linalg.qr(X_i)
        c_i = Q_i.T @ y_i
        w_i = np.linalg.solve(R_i, c_i)
        alpha[i], beta[i], gamma[i] = w_i[0], w_i[1], w_i[2]
        debug(f"1. Construir X:\n{np.round(X_i, 2)} ")
        debug(f"2. Construir Y:\n{y_i}")
        debug(f"3. Encontrar Alpha, Beta y Gamma\n:, {alpha[i], beta[i],gamma[i]}")
        debug(f"\n ============================================== \n")
    # Resolver para la última fila (i = n-1)
    debug(f"\n =================== FILA {n} =================== ")
    # X_n = np.stack([A[n - 2, :], A[n - 1, :]], axis=1)
    X_n = A[(n-2):,:].T
    y_n = np.zeros(n)
    y_n[n-1] = eta
    
    Q_n, R_n = np.linalg.qr(X_n)
    c_n = Q_n.T @ y_n
    w_n = np.linalg.solve(R_n, c_n)
    alpha[n-1], beta[n-1] = w_n[0], w_n[1]

    debug(f"1. Construir X:\n{np.round(X_n, 2)} ")
    debug(f"2. Construir Y:\n{y_n}")
    debug(f"3. Encontrar Beta y Gamma\n:, {alpha[n-1],beta[n-1],gamma[n-1]}")
    debug(f"\n ============================================== \n")
    # Construir la matriz M^-1
    M_inv = np.zeros((n, n))
    np.fill_diagonal(M_inv, beta)
    np.fill_diagonal(M_inv[1:], alpha[1:])
    np.fill_diagonal(M_inv[:, 1:], gamma[:-1])
    # print(alpha)
    # print(beta)
    # print(M_inv)
    return M_inv
    # return LinearOperator(shape=(n, n), matvec=lambda v: M_inv @ v)

def lin_op_M(M_inv,n):
    return LinearOperator(shape=(n, n), matvec=lambda v: M_inv @ v)


In [55]:
n = 3
np.random.seed(0)
A = np.random.rand(n, n)
# A = np.eye(n) * 3 + np.diag(np.ones(n-1),k=-1) + np.diag(np.ones(n-1),k=1) 
# C = np.diag(np.random.rand(n)) + np.diag(np.random.rand(n-1),k=-1) + np.diag(np.random.rand(n-1),k=1) 
# A = np.linalg.inv(C)

eta =100
b = np.ones(n)
print("A:\n", np.round(A,2))
M_inv = optimal_preconditioner_qr(A,eta,verbose=False)
lin_op_M_inv = lin_op_M(M_inv,n)
# print("C:\n",C)
print("Inv A numpy\n", np.linalg.inv(A))
print("M_inv: \n",M_inv)
print("M_inv @ A: \n",np.round(M_inv @ A,2))
print("num cond (A)", np.linalg.cond(A))
print("norma ||M @ A  - I||", np.linalg.norm(M_inv @ A - np.eye(n), 'fro'))
print("cond m_inv @ A:\n", np.linalg.cond(M_inv @ A))
# print(np.linalg.norm(M_rand @ A - np.eye(n), 'fro'))




A:
 [[0.55 0.72 0.6 ]
 [0.54 0.42 0.65]
 [0.44 0.89 0.96]]
Inv A numpy
 [[ 1.98960852  1.79913766 -2.4503547 ]
 [ 2.87590887 -3.14471165  0.30888212]
 [-3.56482088  2.09314855  1.86454351]]
M_inv: 
 [[ -73.13460758  142.11755521    0.        ]
 [ 287.59088731 -314.47116479   30.88821227]
 [   0.           24.53589517   34.44451552]]
M_inv @ A: 
 [[ 37.3    7.9   47.71]
 [  0.   100.     0.  ]
 [ 28.44  41.11  49.04]]
num cond (A) 11.98938051665869
norma ||M @ A  - I|| 135.14580234061413
cond m_inv @ A:
 20.598808628222983


---

In [None]:
n = 3
np.random.seed(0)
# A = np.random.rand(n, n)
# A = np.eye(n) * 3 + np.diag(np.ones(n-1),k=-1) + np.diag(np.ones(n-1),k=1) 
C = np.diag(np.random.rand(n)) + np.diag(np.random.rand(n-1),k=-1) + np.diag(np.random.rand(n-1),k=1) 
A = np.linalg.inv(C)


b = np.ones(n)
print("A:\n", np.round(A,2))
M_inv = optimal_preconditioner_qr(A,verbose=False)
lin_op_M_inv = lin_op_M(M_inv,n)
print("C:\n",C)
print("Inv A numpy\n", np.linalg.inv(A))
print("M_inv: \n",M_inv)
print("M_inv @ A: \n",M_inv @ A)
print("num cond (A)", np.linalg.cond(A))
print(np.linalg.norm(M_inv @ A - np.eye(n), 'fro'))
print("cond m_inv @ A:\n", np.linalg.cond(M_inv @ A))
# M_rand = np.eye(n)*0.5
# print(np.linalg.norm(M_rand @ A - np.eye(n), 'fro'))




A:
 [[-3.18  5.04 -3.66]
 [ 4.25 -4.28  3.11]
 [-2.99  3.01 -0.52]]
C:
 [[0.5488135  0.64589411 0.        ]
 [0.54488318 0.71518937 0.43758721]
 [0.         0.4236548  0.60276338]]
Inv A numpy
 [[ 5.48813504e-01  6.45894113e-01 -1.04505066e-16]
 [ 5.44883183e-01  7.15189366e-01  4.37587211e-01]
 [ 0.00000000e+00  4.23654799e-01  6.02763376e-01]]
M_inv: 
 [[5.48813504 6.45894113 0.        ]
 [5.44883183 7.15189366 4.37587211]
 [0.         4.23654799 6.02763376]]
M_inv @ A: 
 [[ 1.00000000e+01  2.73723830e-15 -1.84328195e-15]
 [-2.40370768e-15  1.00000000e+01 -4.95825584e-15]
 [-3.36281033e-15  2.76731610e-15  1.00000000e+01]]
num cond (A) 14.469418610082391
15.588457268119896
cond m_inv @ A:
 1.0000000000000016


In [None]:
C = np

# Costo Sin Precondicionador

In [29]:
%%timeit 
x_no_prec, info_no_prec = gmres(A, b)

348 μs ± 47.3 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
%%timeit
my_preconditioner = optimal_preconditioner_qr(A, verbose=False)
x_prec, info_prec = gmres(A, b, M=lin_op_M_inv)

1.6 ms ± 50.6 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [None]:
print("cond A:",np.linalg.cond(A))

x_no_prec, info_no_prec = gmres(A, b)
my_preconditioner = optimal_preconditioner_qr(A, verbose=False)
x_prec, info_prec = gmres(A, b, M=my_preconditioner)
print("||b-Ax_no_prec||",np.linalg.norm(b - A @ x_no_prec))
print("||b-Ax_prec||",np.linalg.norm(b - A @ x_prec))



cond A: 11.98938051665869
[0.         2.87590887 0.24535895]
[-0.73134608 -3.14471165  0.34444516]
[[-0.73134608  1.42117555  0.        ]
 [ 2.87590887 -3.14471165  0.30888212]
 [ 0.          0.24535895  0.34444516]]
||b-Ax_no_prec|| 1.1102230246251565e-16
||b-Ax_prec|| 4.440892098500626e-16


---

# Segunda Iteración

Nueva versión del Precondicionador óptimo con M_inv tridiagonal inferior || (M_inv ) A (M_inv.T) - I ||_frob. Ver qué pasa con los casos límites, generar un k para ir aumentando diagonales, ver que pasa con k=n, llegamos a LU? LU- incompleto? ¿I no es necesario que sea I, puede simplemente ser una matriz diagonal, pero ceros fuera de la diagonal,  seguramente sea más facil con un lambda I grande, para llevarla a una diagonal dominante?

---

Anteriormente se busco el precondicionador óptimo utilizando la forma:
$$
\|M^{-1}A - I \|_{frob}
$$

y forzando una estructura tridiagonal en $M^{-1}$, ahora surge la duda, qué pasa si usamos la siguiente norma:

$$
\|M^{-1} A M^{-T} - I \|
$$

cómo llegamos a esto?
$$
\begin{align*}
A x &= b \\
M^{-1} A x &= M^{-1} b \\
M^{-1} A (M^{-T} M^{T})x &= M^{-1} b \\
(M^{-1} A M^{-T}) M^{T}x &= M^{-1} b \\
(M^{-1} A M^{-T}) y &= M^{-1} b \\
y &= M^{T}x \\
x &= M^{-T}y

\end{align*}
$$

y forzamos en $M^{-1}$ una estructura triangular inferior? 

---

## Case k=1

En este caso, $M^{-1}$ es una matriz diagonal:

$$
\left|
\begin{bmatrix}
m_{1} & 0 & 0 & 0 & 0 \\
0 & m_{2} & 0 & 0 & 0 \\
0 & 0 & m_{3} & 0 & 0 \\
0 & 0 & 0 & m_{4} & 0 \\
0 & 0 & 0 & 0 & m_{5} 
\end{bmatrix}
% Matriz A
\begin{bmatrix}
a_{11} & a_{12} & a_{13} & a_{14} & a_{15} \\
a_{21} & a_{22} & a_{23} & a_{24} & a_{25} \\
a_{31} & a_{32} & a_{33} & a_{34} & a_{35} \\
a_{41} & a_{42} & a_{43} & a_{44} & a_{45} \\
a_{51} & a_{52} & a_{53} & a_{54} & a_{55} 
\end{bmatrix}

\begin{bmatrix}
m_{1} & 0 & 0 & 0 & 0 \\
0 & m_{2} & 0 & 0 & 0 \\
0 & 0 & m_{3} & 0 & 0 \\
0 & 0 & 0 & m_{4} & 0 \\
0 & 0 & 0 & 0 & m_{5} 
\end{bmatrix}

- 
\begin{bmatrix}
1 & 0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 0 \\
0 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 0 & 1 
\end{bmatrix}
\right|
$$

Desarrollamos la multiplicación

$$
\left|

\left[\begin{matrix}a_{11} m_{1}^{2} - 1 & a_{12} m_{1} m_{2} & a_{13} m_{1} m_{3} & a_{14} m_{1} m_{4} & a_{15} m_{1} m_{5}\\a_{21} m_{1} m_{2} & a_{22} m_{2}^{2} - 1 & a_{23} m_{2} m_{3} & a_{24} m_{2} m_{4} & a_{25} m_{2} m_{5}\\a_{31} m_{1} m_{3} & a_{32} m_{2} m_{3} & a_{33} m_{3}^{2} - 1 & a_{34} m_{3} m_{4} & a_{35} m_{3} m_{5}\\a_{41} m_{1} m_{4} & a_{42} m_{2} m_{4} & a_{43} m_{3} m_{4} & a_{44} m_{4}^{2} - 1 & a_{45} m_{4} m_{5}\\a_{51} m_{1} m_{5} & a_{52} m_{2} m_{5} & a_{53} m_{3} m_{5} & a_{54} m_{4} m_{5} & a_{55} m_{5}^{2} - 1\end{matrix}\right]
\right|_F
$$

$$
\| A \|_F^2 = \sum_{i=1}^5 \sum_{j=1}^5 (A_{ij})^2
$$


$$
\begin{align*}
\|A \|_F^2 = \sum_{i=1}^5 \sum_{j=1}^5  (A_{ij})^2 = \sum_{i=1}^5 (a_{ii}m_i^2 - 1)^2 + \sum_{i=1}^5 \sum_{j=1,j\neq i}^5 (a_{ij} m_i m_j)^2 \\
\sum_{i=1}^5 a_{ii}^2m_i^4 - 2a_{ii}m_i^2 + 1 + \sum_{i=1}^5 \sum_{j=1,j\neq i}^5 a_{ij}^2 m_i^2 m_j^2 \\
\left(\sum_{i=1}^5 a_{ii}^2m_i^4 \right)- 2 \left(\sum_{i=1}^5 a_{ii}m_i^2 \right) + 5 + \left( \sum_{i=1}^5 \sum_{j=1}^5 a_{ij}^2 m_i^2 m_j^2 \right) - \left( \sum_{i=1}^5 a_{ii}^2 m_i^4\right) \\
\end{align*}
$$

La minimización de esta norma es **no líneal**, lo cual nos lleva a introducir una función objetivo y además podemos presentar una forma más compacta:
$$
f(M) = \sum_{i=1}^5 \sum_{j=1}^5 a_{ij}^2 m_i^2 m_j^2 - 2\sum_{i=1}^5 a_{ii}m_i^2 + 5
$$

Para probrar métodos de minimización es útil calcular el gradiente de la función objetivo:

Términos donde $i=k$
$$
\frac{\partial }{\partial m_k} \left( \sum_{j=1}^5 a_{a_{kj}^2 m_k^2 m_j^2} \right) = \sum_{j=1}^5 2a_{kj}^2 m_k m_j^2 
$$

Términos donde $j=k$
$$
\frac{\partial}{\partial m_k} \left(\sum_{i=1}^5 a_{ik}^2 m_i^2 m_k^2 \right) = \sum_{i=1}^5 2 a_{ik}^2 m_i^2 m_k
$$

Términos donde $k=k$
$$
\frac{\partial}{\partial m_k} \left( -2 a_{kk} m_k^2 \right) =-4  a_{kk} m_k
$$

Finalmente:

$$
\frac{\partial f}{\partial m_k} = 2 m_k \left( \sum_{j=1}^5 a_{kj}^2 m_j^2 + \sum_{i=1}^5 a_{ik}^2 m_i^2 - 2a_{kk}\right)
$$

In [14]:
import numpy as np
from scipy.optimize import minimize
from scipy.sparse.linalg import gmres
import time

def objective(m):
    v = m**2
    B = A**2  
    f = np.dot(v, np.dot(B, v)) - 2 * np.dot(np.diag(A), v) + n
    return f

def gradient(m):
    v = m**2
    B = A**2
    d = np.diag(A)
    # Término: sum_j a_{kj}^2 m_j^2 + sum_i a_{ik}^2 m_i^2 - 2 a_{kk}
    u = np.dot(B.T, v) + np.dot(B, v) - 2 * d
    grad = 2 * m * u
    return grad

# GENERA SISTEMA CON SOLUCION CONOCIDA
n = 500
np.random.seed(42) 
A = np.random.rand(n, n) + 3*np.eye(n)
x_true = np.random.rand(n)
b = A @ x_true
# print("Matriz A \n", A)
m0 = np.ones(n)
# ============= INICIO TIEMPO CONSTRUCCION M_inv ============= 
start_opt = time.time()
res = minimize(objective, m0, method='BFGS', jac=gradient, options={'disp': True})
opt_time = time.time() - start_opt
# ============= FIN TIEMPO CONSTRUCCION M_inv =============
print("\nOptimización completada:")
# print("Vector M optimizado:", res.x)
print("Valor mínimo de f(M):", res.fun)
print(f"Tiempo de optimización: {opt_time:.6f} segundos")

# 4. Construir matriz M_inv (diagonal con los elementos de M)
M_inv = np.diag(res.x)  # Matriz diagonal con m_i en la diagonal
print("Precondicionador Encontrado: \n", M_inv)

# ============= INICIO GMRES SIN PRECONDICIONAR ============= 
print("\n" + "="*50)
print("GMRES sin precondicionador:")
start_gmres = time.time()
x_gmres, info = gmres(A, b, rtol=1e-10, maxiter=1000)
gmres_time = time.time() - start_gmres
# ============= FIN GMRES SIN PRECONDICIONAR ============= 

print(f"Tiempo GMRES: {gmres_time:.6f} segundos")
print(f"Info: {info}")
print(f"Solución GMRES: {x_gmres}")
print(f"Error respecto a x_true: {np.linalg.norm(x_gmres - x_true):.2e}")

# ============= INICIO GMRES CON PRECONDICIONAR ============= 
print("\n" + "="*50)
print("GMRES con precondicionador:")
# Construir sistema precondicionado: M_inv @ A @ M_inv.T @ y = M_inv @ b
# Como M_inv es diagonal, M_inv.T = M_inv
start_precond = time.time()
A_precond = M_inv @ A @ M_inv.T  # M_inv A M_inv^T
b_precond = M_inv @ b           # M_inv b
# print("A precondicionado \n",A_precond)
# Resolver sistema precondicionado para y
y, info_precond = gmres(A_precond, b_precond, rtol=1e-10, maxiter=1000)

# Recuperar solución original: x = M_inv^T y = M_inv y
x_precond = M_inv @ y
precond_time = time.time() - start_precond
# ============= FIN GMRES CON PRECONDICIONAR ============= 

print(f"Tiempo total (construcción + solución): {precond_time:.6f} segundos")
print(f"Info: {info_precond}")
print(f"Solución precondicionada: {x_precond}")
print(f"Error respecto a x_true: {np.linalg.norm(x_precond - x_true):.2e}")

print("\n" + "="*50)
print("COMPARACIÓN FINAL:")
print(f"Tiempo solo GMRES: {gmres_time:.6f} segundos")
print(f"Tiempo optimización + precondicionado: {opt_time + precond_time:.6f} segundos")
print(f"Tiempo solo optimización: {opt_time:.6f} segundos")
print(f"Tiempo solo precondicionado (sin optimización): {precond_time:.6f} segundos")
print(f"Gmres el Delta t es: {opt_time+precond_time - gmres_time}")

# Verificar si el precondicionador mejora la convergencia
print(f"\nNúmero de iteraciones estimado (info):")
print(f"GMRES sin precondicionador: {info if info > 0 else 'Convergió'}")
print(f"GMRES con precondicionador: {info_precond if info_precond > 0 else 'Convergió'}")

Optimization terminated successfully.
         Current function value: 462.860806
         Iterations: 461
         Function evaluations: 496
         Gradient evaluations: 496

Optimización completada:
Valor mínimo de f(M): 462.8608063778165
Tiempo de optimización: 26.323426 segundos
Precondicionador Encontrado: 
 [[-1.68451803e-06  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  1.93095553e-01  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  1.87590597e-01 ...  0.00000000e+00
   0.00000000e+00  0.00000000e+00]
 ...
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ... -6.87256451e-02
   0.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   1.82146892e-01  0.00000000e+00]
 [ 0.00000000e+00  0.00000000e+00  0.00000000e+00 ...  0.00000000e+00
   0.00000000e+00  1.98070994e-07]]

GMRES sin precondicionador:
Tiempo GMRES: 9.69

# (ㅠ﹏ㅠ)

## Case k=2

En este caso, $M^{-1}$ es una matriz diagonal:

$$
\left|
\begin{bmatrix}
m_{11} & 0 & 0 & 0 & 0 \\
m_{21} & m_{22} & 0 & 0 & 0 \\
0 & m_{32} & m_{33} & 0 & 0 \\
0 & 0 & m_{43} & m_{44} & 0 \\
0 & 0 & 0 & m_{54} & m_{55} 
\end{bmatrix}
% Matriz A
\begin{bmatrix}
a_{11} & a_{12} & a_{13} & a_{14} & a_{15} \\
a_{21} & a_{22} & a_{23} & a_{24} & a_{25} \\
a_{31} & a_{32} & a_{33} & a_{34} & a_{35} \\
a_{41} & a_{42} & a_{43} & a_{44} & a_{45} \\
a_{51} & a_{52} & a_{53} & a_{54} & a_{55} 
\end{bmatrix}

\begin{bmatrix}
m_{11} & m_{21} & 0 & 0 & 0 \\
0 & m_{22} & m_{32} & 0 & 0 \\
0 & 0 & m_{33} & m_{43} & 0 \\
0 & 0 & 0 & m_{44} & m_{54} \\
0 & 0 & 0 & 0 & m_{55} 
\end{bmatrix}

- 
\begin{bmatrix}
1 & 0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 & 0 \\
0 & 0 & 1 & 0 & 0 \\
0 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 0 & 1 
\end{bmatrix}
\right|
$$

Desarrollamos la multiplicación:
$$
\left[\begin{matrix}a_{11} m_{11}^{2} - 1 & a_{11} m_{11} m_{21} + a_{12} m_{11} m_{22} & a_{12} m_{11} m_{32} + a_{13} m_{11} m_{33} & a_{13} m_{11} m_{43} + a_{14} m_{11} m_{44} & a_{14} m_{11} m_{54} + a_{15} m_{11} m_{55}\\m_{11} \left(a_{11} m_{21} + a_{21} m_{22}\right) & m_{21} \left(a_{11} m_{21} + a_{21} m_{22}\right) + m_{22} \left(a_{12} m_{21} + a_{22} m_{22}\right) - 1 & m_{32} \left(a_{12} m_{21} + a_{22} m_{22}\right) + m_{33} \left(a_{13} m_{21} + a_{23} m_{22}\right) & m_{43} \left(a_{13} m_{21} + a_{23} m_{22}\right) + m_{44} \left(a_{14} m_{21} + a_{24} m_{22}\right) & m_{54} \left(a_{14} m_{21} + a_{24} m_{22}\right) + m_{55} \left(a_{15} m_{21} + a_{25} m_{22}\right)\\m_{11} \left(a_{21} m_{32} + a_{31} m_{33}\right) & m_{21} \left(a_{21} m_{32} + a_{31} m_{33}\right) + m_{22} \left(a_{22} m_{32} + a_{32} m_{33}\right) & m_{32} \left(a_{22} m_{32} + a_{32} m_{33}\right) + m_{33} \left(a_{23} m_{32} + a_{33} m_{33}\right) - 1 & m_{43} \left(a_{23} m_{32} + a_{33} m_{33}\right) + m_{44} \left(a_{24} m_{32} + a_{34} m_{33}\right) & m_{54} \left(a_{24} m_{32} + a_{34} m_{33}\right) + m_{55} \left(a_{25} m_{32} + a_{35} m_{33}\right)\\m_{11} \left(a_{31} m_{43} + a_{41} m_{44}\right) & m_{21} \left(a_{31} m_{43} + a_{41} m_{44}\right) + m_{22} \left(a_{32} m_{43} + a_{42} m_{44}\right) & m_{32} \left(a_{32} m_{43} + a_{42} m_{44}\right) + m_{33} \left(a_{33} m_{43} + a_{43} m_{44}\right) & m_{43} \left(a_{33} m_{43} + a_{43} m_{44}\right) + m_{44} \left(a_{34} m_{43} + a_{44} m_{44}\right) - 1 & m_{54} \left(a_{34} m_{43} + a_{44} m_{44}\right) + m_{55} \left(a_{35} m_{43} + a_{45} m_{44}\right)\\m_{11} \left(a_{41} m_{54} + a_{51} m_{55}\right) & m_{21} \left(a_{41} m_{54} + a_{51} m_{55}\right) + m_{22} \left(a_{42} m_{54} + a_{52} m_{55}\right) & m_{32} \left(a_{42} m_{54} + a_{52} m_{55}\right) + m_{33} \left(a_{43} m_{54} + a_{53} m_{55}\right) & m_{43} \left(a_{43} m_{54} + a_{53} m_{55}\right) + m_{44} \left(a_{44} m_{54} + a_{54} m_{55}\right) & m_{54} \left(a_{44} m_{54} + a_{54} m_{55}\right) + m_{55} \left(a_{45} m_{54} + a_{55} m_{55}\right) - 1\end{matrix}\right]
$$


In [3]:
import sympy as sp

# Definir símbolos para las matrices M, A y M^T
m11, m21, m22, m32, m33, m43, m44, m54, m55 = sp.symbols('m11 m21 m22 m32 m33 m43 m44 m54 m55')
a11, a12, a13, a14, a15, a21, a22, a23, a24, a25, a31, a32, a33, a34, a35, \
a41, a42, a43, a44, a45, a51, a52, a53, a54, a55 = sp.symbols(
    'a11 a12 a13 a14 a15 a21 a22 a23 a24 a25 a31 a32 a33 a34 a35 '
    'a41 a42 a43 a44 a45 a51 a52 a53 a54 a55'
)

# Matriz M (lower triangular)
M = sp.Matrix([
    [m11, 0, 0, 0, 0],
    [m21, m22, 0, 0, 0],
    [0, m32, m33, 0, 0],
    [0, 0, m43, m44, 0],
    [0, 0, 0, m54, m55]
])

# Matriz A
A = sp.Matrix([
    [a11, a12, a13, a14, a15],
    [a21, a22, a23, a24, a25],
    [a31, a32, a33, a34, a35],
    [a41, a42, a43, a44, a45],
    [a51, a52, a53, a54, a55]
])

# Matriz M^T (transpuesta de M)
MT = sp.Matrix([
    [m11, m21, 0, 0, 0],
    [0, m22, m32, 0, 0],
    [0, 0, m33, m43, 0],
    [0, 0, 0, m44, m54],
    [0, 0, 0, 0, m55]
])

# Matriz Identidad
I = sp.eye(5)

# Calcular M * A * M^T - I
resultado = M * A * MT - I

# Mostrar el resultado
# print(resultado)
latex_code = sp.latex(resultado)


print("latex code:", latex_code)

latex code: \left[\begin{matrix}a_{11} m_{11}^{2} - 1 & a_{11} m_{11} m_{21} + a_{12} m_{11} m_{22} & a_{12} m_{11} m_{32} + a_{13} m_{11} m_{33} & a_{13} m_{11} m_{43} + a_{14} m_{11} m_{44} & a_{14} m_{11} m_{54} + a_{15} m_{11} m_{55}\\m_{11} \left(a_{11} m_{21} + a_{21} m_{22}\right) & m_{21} \left(a_{11} m_{21} + a_{21} m_{22}\right) + m_{22} \left(a_{12} m_{21} + a_{22} m_{22}\right) - 1 & m_{32} \left(a_{12} m_{21} + a_{22} m_{22}\right) + m_{33} \left(a_{13} m_{21} + a_{23} m_{22}\right) & m_{43} \left(a_{13} m_{21} + a_{23} m_{22}\right) + m_{44} \left(a_{14} m_{21} + a_{24} m_{22}\right) & m_{54} \left(a_{14} m_{21} + a_{24} m_{22}\right) + m_{55} \left(a_{15} m_{21} + a_{25} m_{22}\right)\\m_{11} \left(a_{21} m_{32} + a_{31} m_{33}\right) & m_{21} \left(a_{21} m_{32} + a_{31} m_{33}\right) + m_{22} \left(a_{22} m_{32} + a_{32} m_{33}\right) & m_{32} \left(a_{22} m_{32} + a_{32} m_{33}\right) + m_{33} \left(a_{23} m_{32} + a_{33} m_{33}\right) - 1 & m_{43} \left(a_{23} m_{32}

In [None]:
import numpy as np
from scipy.optimize import minimize

class OptimizadorM:
    """
    Clase para optimizar matrices M de estructura bandada
    """
    
    def __init__(self, estructura='diagonal_subdiagonal'):
        self.estructura = estructura
    
    def construir_M(self, params, N):
        """
        Construye M según la estructura especificada
        """
        M = np.zeros((N, N))
        
        if self.estructura == 'diagonal_subdiagonal':
            # Estructura: diagonal + subdiagonal
            idx = 0
            for i in range(N):
                M[i, i] = params[idx]
                idx += 1
            for i in range(1, N):
                M[i, i-1] = params[idx]
                idx += 1
                
        elif self.estructura == 'triangular_inferior':
            # Matriz triangular inferior completa
            idx = 0
            for i in range(N):
                for j in range(i+1):
                    M[i, j] = params[idx]
                    idx += 1
                    
        elif self.estructura == 'banda_ancho_k':
            # Banda de ancho k (k debe ser especificado)
            k = self.k if hasattr(self, 'k') else 2
            idx = 0
            for diag in range(k):
                for i in range(diag, N):
                    j = i - diag
                    if j >= 0:
                        M[i, j] = params[idx]
                        idx += 1
        
        return M
    
    def objetivo(self, params, A):
        N = A.shape[0]
        M = self.construir_M(params, N)
        diff = M @ A @ M.T - np.eye(N)
        return np.linalg.norm(diff, 'fro')
    
    def optimizar(self, A, x0=None, metodo='BFGS'):
        N = A.shape[0]
        
        # Determinar número de parámetros según estructura
        if self.estructura == 'diagonal_subdiagonal':
            num_params = 2 * N - 1
        elif self.estructura == 'triangular_inferior':
            num_params = N * (N + 1) // 2
        elif self.estructura == 'banda_ancho_k':
            k = self.k if hasattr(self, 'k') else 2
            num_params = k * N - (k * (k - 1)) // 2
        
        if x0 is None:
            x0 = np.ones(num_params)
        
        print(f"Estructura: {self.estructura}")
        print(f"Tamaño: {N}x{N}, Parámetros: {num_params}")
        
        res = minimize(self.objetivo, x0, args=(A,), method=metodo,
                      options={'gtol': 1e-8, 'disp': False})
        
        return res, self.construir_M(res.x, N)

# Ejemplo de uso con diferentes estructuras
def comparar_estructuras():
    """Compara diferentes estructuras para M"""
    np.random.seed(42)
    N = 4
    A = np.random.rand(N, N)
    A = A @ A.T + np.eye(N)
    
    estructuras = ['diagonal_subdiagonal', 'triangular_inferior']
    
    for estructura in estructuras:
        print(f"\n{'-'*40}")
        print(f"Probando estructura: {estructura}")
        print(f"{'-'*40}")
        
        optimizador = OptimizadorM(estructura)
        res, M_opt = optimizador.optimizar(A)
        
        print(f"Éxito: {res.success}")
        print(f"Norma mínima: {res.fun:.6f}")
        print(f"Matriz M óptima:\n{M_opt}")
        
        # Verificar
        error = np.linalg.norm(M_opt @ A @ M_opt.T - np.eye(N), 'fro')
        print(f"Error de verificación: {error:.6f}")

# Ejecutar comparación
if __name__ == "__main__":
    comparar_estructuras()

         Current function value: 3.000000
         Iterations: 54
         Function evaluations: 660
         Gradient evaluations: 66

Resultados de la optimización:
¿Éxito?: False
Mensaje: Desired error not necessarily achieved due to precision loss.
Valor mínimo de la función objetivo: 3.000000000000345
Valores óptimos de m:
  m11: -0.000000
  m21: -0.000000
  m22: -0.000000
  m32: 0.392131
  m33: 0.359213
  m43: -0.000000
  m44: -0.000000
  m54: -0.222976
  m55: 1.429805

Norma de Frobenius de M*A*M^T - I en el óptimo: 1.732051


  res = _minimize_bfgs(fun, x0, args, jac, callback, **options)
