# Sistemas de Ecuaciones Lineales y Números de Condición

In [None]:
%matplotlib inline

## El problema

Estamos interesados en resolver sistemas de ecuaciones lineales que escribimos en la forma

\begin{equation}
A {\bf x} = {\bf b},
\end{equation}

donde $A$ es una matriz conocida, ${\bf b}$ un vector conocido, y ${\bf x}$ es el vector solución desconocido que estamos tratando de encontrar. Por convención, el sistema tiene tamaño $n$, es decir, la matriz tiene tamaño $n \times n$ y los vectores son vectores columna de longitud $n$.

Antes de intentar resolver el sistema lineal, recordemos que no todos los sistemas lineales pueden ser resueltos. Si la matriz es singular, lo cual es equivalente a $\det(A) = 0$, entonces la matriz no puede ser invertida y no hay solución.

Ahora consideremos la precisión con la que se pueden conocer los coeficientes de $A$ y ${\bf b}$. Los números reales no pueden almacenarse en una computadora con precisión infinita, por lo que los coeficientes no pueden ser precisos más allá, por ejemplo, de 16 cifras significativas. En la mayoría de los casos interesantes, incluso esto es demasiado optimista: los coeficientes de $A$ y ${\bf b}$ usualmente serán el resultado de algún otro procedimiento numérico o experimental con sus propias inexactitudes inherentes.

Esto implica un punto crucial. Puede haber sistemas lineales definidos por $\left( A, {\bf b} \right)$ que no queramos resolver, ya que es imposible estar seguros de que la solución sea suficientemente precisa. Es decir, un "pequeño" cambio en los coeficientes de, por ejemplo, $A$, puede llevar a un "gran" cambio en la solución. Usualmente interpretaríamos "pequeño" como dentro de la precisión con la que conocemos los coeficientes. Lo que significa "gran" depende de la precisión que requerimos en la solución, y es dependiente del problema.

Si el sistema lineal tiene una solución confiable, es decir, pequeños cambios en los coeficientes conducen a pequeños cambios en la solución, lo llamamos bien condicionado. Si no es así, lo llamamos mal condicionado. Si el sistema lineal está mal condicionado, entonces no puede resolverse de manera confiable.

Now consider the accuracy with which the coefficients of $A$ and ${\bf b}$ can be known. Real numbers cannot be stored on a computer to infinite precision, so the coefficients cannot be accurate beyond, for example, 16 significant figures. In most interesting cases even this is too optimistic: the coefficients of $A$ and ${\bf b}$ will usually be the result of some other numerical or experimental procedure with its own inherent inaccuracies. 

This implies one crucial point. There may be linear systems defined by $\left( A, {\bf b} \right)$ that we do not want to solve, as it is _impossible_ to be sure that the solution is sufficiently accurate. That is, a "small" change in the coefficients of e.g. $A$, can lead to a "large" change in the solution. We would usually interpret "small" to mean within the accuracy with which we know the coefficients. What "large" means depends on the accuracy we require on the solution, and is problem dependent.

If the linear system does have a reliable solution - that is, small changes in the coefficients lead to small changes in the solution - we call it **well conditioned**. If it does not, we call it **badly conditioned**. If the linear system is badly conditioned then it cannot be reliably solved: find a different problem.

## Número de condición

No podemos, en la práctica, resolver no solo un sistema lineal, sino muchos problemas vecinos, solo para verificar si el sistema es razonable. En su lugar, queremos un criterio simple que podamos verificar de manera económica para ver si vale la pena resolver el sistema lineal. Podemos condensar esto en un solo número, llamado el **número de condición**.

### Determinantes

¿Por qué no usar el determinante como el número de condición? Después de todo, si el determinante es cero, la matriz no puede ser invertida. Sin embargo, considera la siguiente matriz:

\begin{equation}
  A = 10^{-1} \begin{pmatrix} 1 & 0 & \dots & 0 \\ 0 & 1 & \ddots & \vdots \\ \vdots & \ddots & \ddots & 0 \\ 0 & \dots & 0 & 1 \end{pmatrix}.
\end{equation}

Esta matriz diagonal se puede invertir de manera trivial y se comporta perfectamente bien, sin importar su tamaño. Sin embargo, $\det(A) = 10^{-n}$, lo cual es arbitrariamente pequeño para un $n$ suficientemente grande. Por lo tanto, el determinante no puede ser un buen número de condición.

## Normas de vectores y matrices

### Normas de vectores

Una norma es una función de distancia matemática. Las normas estándar para, por ejemplo, vectores reales, usan los tamaños de los componentes o la "longitud" del vector. Las más útiles para nuestros propósitos son las normas $1, 2$ y $\infty$:

\begin{align}
  \| x \|_{1} & = \sum_{j = 1}^n | x_j |, \\
  \| x \|_{2} & = \sqrt{\sum_{j = 1}^n ( x_j )^2}, \\
  \| x \|_{\infty} & = \max_{j} | x_j |.
\end{align}

Por ejemplo, la norma $2$ es la distancia "estándar" pitagórica.

Ten en cuenta que diferentes normas dan respuestas diferentes cuando se aplican al *mismo* vector. Por ejemplo, si ${\bf x} = (-1, 2, 1)$ entonces

\begin{align}
  \| x \|_{1} & = |-1| + |2| + |1| && = 4, \\
  \| x \|_{2} & = \sqrt{(-1)^2 + (2)^2 + (1)^2} && = \sqrt{6}, \\
  \| x \|_{\infty} & = \max_{j} \left(|-1|, |2|, |1| \right) && = 4.
\end{align}

Por lo tanto, al comparar normas de diferentes vectores, es necesario usar siempre la misma norma.

Como una ilustración de las diferentes normas, restringimos a vectores de 2 dimensiones (que son fáciles de visualizar) y trazamos todos los vectores con norma 1 para cada una de estas tres normas.

In [2]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.linalg as la

b = np.array([1,2,3])

N1   = la.norm(b, 1)
N2  = la.norm(b, 2)
Ninf = la.norm(b, np.inf)

print("norma L1: ", N1)
print("norma L2: ", N2)
print("norma L_inf: ", Ninf)

norma L1:  6.0
norma L2:  3.7416573867739413
norma L_inf:  3.0


In [5]:
# Otras formas de calcular la norma L2
import math as m

print("la magnitud o norma L2 de b es: ", m.sqrt(1**2 + 2**2 + 3**2))
print("La magnitud o norma L2 de b es: ", m.sqrt(np.sum(b**2)))


la magnitud o norma L2 de b es:  3.7416573867739413
La magnitud o norma L2 de b es:  2.6457513110645907


### Normas de matrices

Realmente queremos la norma de la matriz, $\| A \|$. Podemos usar cualquier vector ${\bf y}$ combinado con cualquier norma de vector para *inducir* una norma de matriz definiendo

\begin{equation}
  \| A \|_{\bf y} = \| A {\bf y} \|
\end{equation}

donde la norma en el lado derecho es una norma de vector. Por supuesto, esta definición depende de la elección del vector ${\bf y}$. Entonces podríamos maximizar sobre *todos* los vectores ${\bf y}$: sin embargo, el tamaño de la norma depende del tamaño del vector. Por lo tanto, queremos sacar la magnitud del vector ${\bf y}$: definimos la **norma de matriz inducida** como

\begin{equation}
  \| A \| = \max_{{\bf y}: \| {\bf y} \| = 1} \| A {\bf y} \|.
\end{equation}

En toda esta definición, todas las normas *deben* ser las mismas. Por ejemplo, la norma $2$ de la matriz se define como

\begin{equation}
  \| A \|_2 = \max_{{\bf y}: \| {\bf y} \|_2 = 1} \| A {\bf y} \|_2.
\end{equation}

Calcular manualmente la norma de la matriz usando esta definición es obviamente difícil. Sin embargo, se puede demostrar que dos normas particulares pueden simplificarse en gran medida. Es decir,

1. la norma $1$ de la matriz se obtiene como el máximo de la norma $1$ de los vectores *columna* de $A$;
2. la norma $\infty$ de la matriz se obtiene como el máximo de la norma $1$ de los vectores *fila* de $A$.

Nota que, en contraste con todo lo demás en esta sección, la norma $1$ se usa para los vectores en ambos casos.

## Número de Condición

Formalmente, ahora tenemos todas las herramientas necesarias para calcular nuestro número de condición. Nuevamente, el número de condición depende de la norma utilizada en su cálculo, pero esperaríamos que todos los resultados tengan una magnitud similar.

De manera general, interpretamos el número de condición como una medida de *la cantidad en que la inversión de la matriz aumentará cualquier error intrínseco en los coeficientes*.

Más precisamente, podemos observar el error relativo que podemos medir: el *residual ponderado*

\begin{equation}
  {\cal E} = \frac{\| A {\bf x}_{\text{num}} - {\bf b}\|}{\| {\bf b} \|}.
\end{equation}

Aquí ${\bf x}_{\text{num}}$ es la solución numérica. En principio, el residual ponderado podría minimizarse, pero nunca podemos garantizar que sea precisamente cero.

Ahora, se puede demostrar que

\begin{equation}
  \frac{1}{K(A)} {\cal E} \le \frac{\| {\bf x}_{\text{num}} - {\bf x}_{\text{exact}} \|}{\| {\bf x}_{\text{exact}} \|} \le K(A) {\cal E}.
\end{equation}

El límite inferior no es importante aquí: el punto es el límite superior. Supongamos que hemos minimizado el residual ponderado a, por ejemplo, $10^{-16}$. Entonces, si el número de condición es $\sim 10^{15}$, el mejor límite sobre el error relativo es $\sim 0.1$: en otras palabras, ¡solo podemos garantizar la corrección del *primer* dígito significativo de nuestra solución!


# Solución de Sistemas Lineales via Eliminación Gaussiana

Recordamos que el problema que estamos tratando de resolver es el sistema de ecuaciones lineales escrito como

\begin{equation}
  A {\bf x} = {\bf b}.
\end{equation}

Esto es equivalente a $n$ ecuaciones lineales simultáneas para las $n$ incógnitas $x_i$.

La primera clase de métodos que consideramos son **directos**: se siguen un número finito de pasos que, en principio, resultan en la respuesta correcta.

La mayoría de los métodos directos utilizan el mismo enfoque básico: convertir el sistema lineal en un problema equivalente que sea fácil de resolver.

Entonces, lo primero que debemos hacer es considerar qué sistemas lineales son fáciles de resolver. Obviamente, si la matriz es diagonal, es fácil de resolver. Más generalmente, es sencillo resolver un sistema lineal si la matriz es *triangular*.

Como ejemplo, consideremos

\begin{equation}
  \begin{pmatrix} 1 & 2 & 3 \\ 0 & 4 & 5 \\ 0 & 0 & 6 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ x_3 \end{pmatrix} = \begin{pmatrix} 6 \\ 9 \\ 6 \end{pmatrix}.
\end{equation}

Realizamos la **sustitución hacia atrás** resolviendo de abajo hacia arriba. Es decir, leemos la ecuación definida por la última fila de la matriz:

\begin{equation}
  6 x_3 = 6 \qquad \implies \qquad x_3 = 1.
\end{equation}

Luego leemos la ecuación definida por la segunda fila de la matriz, utilizando la información encontrada para $x_3$:

\begin{equation}
  4 x_2 + 5 x_3 = 9 \qquad \implies \qquad 4 x_2 = 4 \qquad \implies \qquad x_2 = 1.
\end{equation}

Finalmente, leemos la ecuación definida por la primera fila de la matriz, utilizando la información encontrada para $x_2$ y $x_3$:

\begin{equation}
  x_1 + 2 x_2 + 3 x_3 = 6 \qquad \implies \qquad x_1 = 1.
\end{equation}

La sustitución hacia atrás funcionará para cualquier matriz *triangular superior*, siempre que ningún elemento diagonal sea cero (lo cual está garantizado si la matriz es no singular). Si la matriz es triangular inferior, empezaríamos desde la parte superior y trabajaríamos hacia abajo, utilizando la **sustitución hacia adelante**.

## Eliminación gaussiana

Entonces, necesitamos poder convertir nuestro sistema lineal original en un sistema equivalente en forma triangular; aquí apuntaremos a construir una matriz triangular superior. Por equivalente, queremos decir que la solución es la misma.

Piensa en cada fila como correspondiente a una sola ecuación lineal, y cada columna como correspondiente a una variable desconocida. Entonces, vemos que hay tres operaciones básicas que se pueden realizar sin cambiar la solución:

1. Multiplicar cualquier fila por un escalar no nulo (equivalente a escalar toda la ecuación).
2. Intercambiar dos filas (equivalente a cambiar el orden de las ecuaciones).
3. Intercambiar dos columnas (equivalente a cambiar el orden de las variables desconocidas).

Nos concentraremos en las dos primeras operaciones, ya que intercambiar las columnas requiere que hagamos un seguimiento de qué entradas del vector solución final corresponden a qué variables desconocidas.

Para asegurarnos de que las operaciones se realicen de manera coherente tanto en las entradas de la matriz $A$ *como* en el vector del lado derecho ${\bf b}$, es mejor construir la **matriz aumentada** $\left( A | {\bf b} \right)$. Todas las operaciones se aplican a esta matriz, que tiene $n+1$ columnas y $n$ filas.

### Algoritmo básico

El algoritmo básico toma la matriz aumentada con coeficientes arbitrarios y devuelve una matriz aumentada triangular superior. Luego, se puede dividir en la forma del sistema original y resolver mediante sustitución hacia atrás.

El algoritmo considera cada fila a su vez. Supongamos

1. Estamos observando la fila $i$, donde $1 \le i \le n$;
2. Los pasos previos del algoritmo significan que los coeficientes en las primeras $i-1$ columnas de la fila $i$, y todas las filas debajo de la fila $i$ son cero.
3. El $i^{\text{ésimo}}$ elemento de la fila $i$, $a_{i, i}$, no es cero.

Entonces podemos eliminar todos los coeficientes en la columna $i$ en las filas debajo de $i$ restando una adecuada de la fila $i$. Explícitamente, consideremos la fila $j$ donde $i < j \le n$. Para todos los coeficientes en la fila $j$, es decir, para $a_{j, k}$ con $1 \le k \le n$, reemplazamos el coeficiente por

\begin{equation}
  a_{j, k} \rightarrow a_{j, k} - \frac{a_{j, i}}{a_{i, i}} a_{i, k}.
\end{equation}

Vemos que cuando $k = i$ el coeficiente $a_{j, i}$ se establecerá en cero, como se requiere.

Si repetimos este algoritmo para todas las filas $i$, habremos construido una matriz triangular.

Escribamos este algoritmo explícitamente en código.

In [6]:
import numpy as np

def GaussianEliminationReduction(A, b):
    """
    Simple Eliminación Gaussiana algorithm. Solves linear system A x = b, assuming well-conditioned square matrix A.
    
    Parameters
    ----------
    
    A : float, numpy array, 2d.
        Square matrix, size n x n.
    b : float, numpy array, 1d.
        RHS vector, size n (must conform with A).
    """
    
    # Store size of system
    n = len(b)
    assert(np.all(A.shape == (n, n)))
    
    # Form augmented matrix
    aug = np.hstack((A, b.reshape(n,1)));
    
    # Loop over rows
    for i in range(n):
        # Loop over rows below i
        for j in range(i+1, n):
            aug[j, :] = aug[j, :] - aug[j, i] / aug[i, i] * aug[i, :]
    
    # Return the separated, reduced, matrix and right hand side vector.
    return (aug[:,:-1], aug[:, -1])

Ahora prueba el algoritmo en algunos ejemplos simples. El primero ya está en forma escalonada o triangular, como se muestra arriba.

In [7]:
A = np.array([[2.0, 1.0, 1.0], \
              [1.0, 3.0, 2.0], \
              [1.0, 2.0, 3.0]])
b = np.array([8.0, 13.0, 13.0])

(A1, b1) = GaussianEliminationReduction(A, b)
print("La matriz escalonada resultante es \n{}.\n El vector b pasa a ser {}.\n".format(A1, b1))

Resulting triangular matrix is 
[[2.  1.  1. ]
 [0.  2.5 1.5]
 [0.  0.  1.6]].
 Right hand side vector becomes [8.  9.  3.6].



In [8]:
A = np.array([[1.0, 2.0, 3.0], \
              [0.0, 4.0, 5.0], \
              [0.0, 0.0, 6.0]])
b = np.array([6.0, 9.0, 6.0])

(A1, b1) = GaussianEliminationReduction(A, b)
print("La matriz escalonada resultante es  \n{}.\n El vector b pasa a ser {}.\n".format(A1, b1))

C = np.array([[3.0, 0.0, 1.0], \
              [6.0, 2.0, 4.0], \
              [9.0, 2.0, 6.0]])
d = np.array([4.0, 10.0, 15.0])

(A2, b2) = GaussianEliminationReduction(C, d)
print("La matriz escalonada resultante es  \n{}.\n El vector b pasa a ser {}.\n".format(A2, b2))

Resulting triangular matrix is 
[[1. 2. 3.]
 [0. 4. 5.]
 [0. 0. 6.]].
 Right hand side vector becomes [6. 9. 6.].

Resulting triangular matrix is 
[[3. 0. 1.]
 [0. 2. 2.]
 [0. 0. 1.]].
 Right hand side vector becomes [4. 2. 1.].



### Pivotamiento

Sin embargo, el algoritmo simple anterior no funciona de manera robusta. Como un ejemplo sencillo, considera el sistema a continuación.


In [None]:
E = np.array([[1.0, 1.0, 1.0], \
              [0.0, 0.0, 2.0], \
              [0.0, 1.0, 1.0]])
f = np.array([1.0, 1.0, 2.0])

(A3, b3) = GaussianEliminationReduction(E, f)
print("Resulting triangular matrix is \n{}.\n Right hand side vector becomes {}.\n".format(A3, b3))

El algoritmo ha fallado porque la matriz no cumple con las suposiciones necesarias: en particular, el elemento $a_{2, 2}$ es cero.

Podemos simplemente evitar este problema intercambiando filas. En este caso, intercambiaríamos la segunda y la tercera fila y el algoritmo funcionaría (en este caso, intercambiar la segunda y la tercera fila pone la matriz en forma triangular).

Sin embargo, hay un problema similar si una entrada es muy pequeña, pero no es cero. Considera el problema

\begin{equation}
  \left( \begin{array}{c c|c} \varepsilon & 1 & 1 \\ 1 & 1 & 2 \end{array} \right) \rightarrow \left( \begin{array}{c c|c} \varepsilon & 1 & 1 \\ 0 & 1 - \varepsilon^{-1} & 2 - \varepsilon^{-1} \end{array} \right)
\end{equation}

que ha sido reducido a forma triangular usando la eliminación gaussiana. Si $\varepsilon$ es muy pequeño, entonces los términos $\varepsilon^{-1}$ dominarán, haciendo que el problema sea aproximadamente

\begin{equation}
  \left( \begin{array}{c c|c} \varepsilon & 1 & 1 \\ 0 & - \varepsilon^{-1} & - \varepsilon^{-1} \end{array} \right) \quad \implies \quad {\bf x} = \begin{pmatrix} 0 \\ 1 \end{pmatrix}.
\end{equation}

La respuesta correcta *debería* ser ${\bf x} = (1, 1)^T$. No hay nada mal con el número de condición. El problema es el paso de la eliminación gaussiana donde se divide por $\varepsilon$, un número muy pequeño.

Para evitar ambos problemas, la técnica estándar es **pivotar** o usar el **pivotamiento**. En cada etapa del algoritmo, estamos trabajando con la fila $i$ y buscando eliminar las entradas en las filas $j > i$. El primer paso es verificar si hay una fila $j > i$ con un coeficiente mayor (en magnitud) en la columna $i$. Si es así, intercambiamos las filas. Nota que no podemos considerar filas por encima de $i$ en la matriz, ya que estas pueden tener entradas no nulas en columnas $<i$.

Modificamos el algoritmo para incluir el pivotamiento.

In [None]:
def GaussianEliminationPivotingReduction(A, b):
    """
    Simple Eliminación Gaussiana algorithm with pivoting. Solves linear system A x = b, 
    assuming well-conditioned square matrix A.
    
    Parameters
    ----------
    
    A : float, numpy array, 2d.
        Square matrix, size n x n.
    b : float, numpy array, 1d.
        RHS vector, size n (must conform with A).
    """
    
    # Store size of system
    n = len(b)
    assert(np.all(A.shape == (n, n)))
    
    # Form augmented matrix
    aug = np.hstack((A, b.reshape(n,1)));
    
    # Loop over rows
    for i in range(n):
        # Find the row with largest magnitude, and then swap the rows.
        max_row = np.argmax(aug[i:, i])
        if (max_row): # Only swap rows if the maximum is not this row. \
                      # NOTE: the max_row is counted relative to i, so max_row = 0 => row i.
            tmp               = np.copy(aug[i, :])
            aug[i, :]         = np.copy(aug[i+max_row, :])
            aug[i+max_row, :] = np.copy(tmp)
        # Loop over rows below i
        for j in range(i+1, n):
            aug[j, :] = aug[j, :] - aug[j, i] / aug[i, i] * aug[i, :]
    
    # Return the separated, reduced, matrix and right hand side vector.
    return (aug[:,:-1], aug[:, -1])

Prueba en el caso que falló anteriormente.

In [None]:
(A4, b4) = GaussianEliminationPivotingReduction(E, f)
print("La matriz escalonada resultante es  \n{}.\n El vector b pasa a ser {}.\n".format(A4, b4))

## Caso especial - sistemas tridiagonales

Los sistemas tridiagonales aparecen con frecuencia en la solución de ecuaciones diferenciales, particularmente cuando se utilizan métodos de diferencias finitas.

Consideremos el simple sistema $4 \times 4$:

\begin{equation}
        \begin{pmatrix}
          2 & 1 & 0 & 0 \\
          1 & 2 & 1 & 0 \\
          0 & 1 & 2 & 1 \\
          0 & 0 & 1 & 2
        \end{pmatrix}
        \begin{pmatrix}
          x_1 \\ x_2 \\ x_3 \\ x_4
        \end{pmatrix}
        =
        \begin{pmatrix}
          -1 \\ 0 \\ 0 \\ -1
        \end{pmatrix}.
\end{equation}

Procedemos como lo haríamos con la eliminación gaussiana: eliminamos el (único) coeficiente debajo de la diagonal primero, reescalando a medida que avanzamos:

\begin{equation}
        \begin{pmatrix}
          1 & \tfrac{1}{2} & 0 & 0 \\
          0 & 1 & \tfrac{2}{3} & 0 \\
          0 & 0 & 1 & \tfrac{3}{4} \\
          0 & 0 & 0 & 1
        \end{pmatrix}
        \begin{pmatrix}
          x_1 \\ x_2 \\ x_3 \\ x_4
        \end{pmatrix}
        =
        \begin{pmatrix}
          -\tfrac{1}{2} \\ \tfrac{1}{3} \\ -\tfrac{1}{4} \\ -\tfrac{3}{5}
        \end{pmatrix},
\end{equation}

y luego utilizamos la sustitución hacia atrás para obtener

\begin{equation}
        \left\{
          \begin{aligned}
            x_4 & =-\tfrac{3}{5} \\
            x_3 & = \tfrac{1}{5} \\
            x_2 & = \tfrac{1}{5} \\
            x_1 & =-\tfrac{3}{5}
          \end{aligned} \right. .
\end{equation}

La formulación general de esto es el **algoritmo de Thomas**. Tiene la ventaja significativa de que solo las tres diagonales no triviales necesitan ser almacenadas y trabajadas. Esto puede reducir significativamente la memoria requerida.

In [33]:
import numpy as np

def thomas_algorithm(a, b, c, d):
    """
    Thomas algorithm for solving tridiagonal systems of equations.
    
    Parameters
    ----------
    a : numpy.ndarray
        Lower diagonal of the tridiagonal matrix, size n-1.
    b : numpy.ndarray
        Main diagonal of the tridiagonal matrix, size n.
    c : numpy.ndarray
        Upper diagonal of the tridiagonal matrix, size n-1.
    d : numpy.ndarray
        Right-hand side vector, size n.
        
    Returns
    -------
    x : numpy.ndarray
        Solution vector, size n.
    """
    n = len(b)
    x = np.zeros_like(b)
    bp = np.zeros_like(b)
    dp = np.zeros_like(d)
    
    # Forward elimination
    for i in range(1, n):
        m = a[i-1] / b[i-1]
        bp[i] = b[i] - (m * c[i-1])
        dp[i] = d[i] - (m * d[i-1])
        print(m * d[i-1])
        print(m, b[i], d[i])
    
    # Back substitution
    x[n-1] = dp[n-1] / bp[n-1]
    dp[0] = d[0]
    bp[0] = b[0]
    for i in range(n-2, -1, -1):
        x[i] = (dp[i] - c[i] * x[i+1]) / bp[i]
    
    print("b: ", bp)
    print("d: ", dp)
    return x

# Example using the thomas_algorithm function
a = np.array([1, 1, 1])  # lower diagonal
b = np.array([2, 2, 2, 2])  # main diagonal
c = np.array([1, 1, 1])  # upper diagonal
d = np.array([-1, 0, 0, -1])  # right-hand side vector

x = thomas_algorithm(a, b, c, d)
print("Solution vector x:")
print(x)


-0.5
0.5 2 0
0.0
0.5 2 0
0.0
0.5 2 -1
b:  [2 1 1 1]
d:  [-1  0  0 -1]
Solution vector x:
[ 0 -1  1 -1]


# Métodos de descomposición

In [None]:
import numpy as np
import numpy.linalg as la

En la eliminación gaussiana realizamos operaciones de fila (o columna) para reducir el sistema lineal

\begin{equation}
  A {\bf x} = {\bf b}
\end{equation}

a una forma que fuera fácil de resolver, esencialmente transformando a un sistema equivalente donde la matriz es triangular.

Por ejemplo, supongamos que podemos escribir

\begin{equation}
  A = L U
\end{equation}

donde $L$ es una matriz triangular inferior y $U$ es triangular superior. En este caso, el sistema lineal original es equivalente a los dos sistemas

\begin{equation}
  A {\bf x} = {\bf b} \qquad \Leftrightarrow \qquad \left\{ \begin{aligned} L {\bf y} & = {\bf b}, \\ U {\bf x} & = {\bf y}. \end{aligned} \right. 
\end{equation}

Como tanto $L$ como $U$ son triangulares, los dos sistemas que definen se pueden resolver fácilmente utilizando sustitución hacia adelante y hacia atrás, respectivamente. Por lo tanto, *si* podemos descomponer la matriz $A$ como el producto de matrices triangulares, el sistema lineal se resuelve fácilmente.

## Ejemplo

Consideremos el sistema

\begin{equation}
  \begin{pmatrix} 2 & 1 & -1 \\ 4 & 1 & 0 \\ -2 & -3 & 8 \end{pmatrix} {\bf x} = \begin{pmatrix} 0 \\ 6 \\ -12 \end{pmatrix}.
\end{equation}

Veremos más adelante que la matriz se puede descomponer como

\begin{equation}
  \begin{pmatrix} 2 & 1 & -1 \\ 4 & 1 & 0 \\ -2 & -3 & 8 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 \\ 2 & 1 & 0 \\ -1 & 2 & 1 \end{pmatrix} \begin{pmatrix} 2 & 1 & -1 \\ 0 & -1 & 2 \\ 0 & 0 & 3 \end{pmatrix}.
\end{equation}

Podemos verificar rápidamente que.

In [None]:
A = np.array([[2.0, 1.0, -1.0] ,[4.0,  1.0, 0.0], [-2.0, -3.0, 8.0]])
L = np.array([[1.0, 0.0,  0.0] ,[2.0,  1.0, 0.0], [-1.0,  2.0, 1.0]])
U = np.array([[2.0, 1.0, -1.0] ,[0.0, -1.0, 2.0], [ 0.0,  0.0, 3.0]])
np.dot(L, U)

Luego resolvemos $L {\bf y} = {\bf b}$ mediante sustitución hacia adelante:

\begin{equation}
  \begin{pmatrix}
    1 & 0 & 0 \\
    2 & 1 & 0 \\
   -1 & 2 & 1
  \end{pmatrix}
  \begin{pmatrix}
    y_1 \\ y_2 \\ y_3
  \end{pmatrix} =
  \begin{pmatrix}
    0 \\ 6 \\ -12
  \end{pmatrix}
  \Rightarrow \left\{
  \begin{aligned}
    y_1 & = 0, \\
    y_2 & = 6, \\
    y_3 & = -24.
  \end{aligned}
  \right.
\end{equation}

Finalmente resolvemos $U {\bf x} = {\bf y}$ mediante sustitución hacia atrás:

\begin{equation}
  \begin{pmatrix}
    2 & 1 & -1 \\
    0 & -1 & 2 \\
    0 & 0 & 3
  \end{pmatrix}
  \begin{pmatrix}
    x_1 \\ x_2 \\ x_3
  \end{pmatrix} =
  \begin{pmatrix}
    0 \\ 6 \\ -24
  \end{pmatrix}
  \Rightarrow \left\{
  \begin{aligned}
    x_1 & = 7, \\
    x_2 & = -22, \\
    x_3 & = -8.
  \end{aligned}
  \right.
\end{equation}

Nuevamente podemos verificar:


In [None]:
b = np.array([0.0, 6.0, -12.0])
la.solve(A, b)

## Ejemplo de factorización

El ejemplo anterior tenía la matriz

\begin{equation}
    A =
    \begin{pmatrix}
      2 & 1 & -1 \\
      4 & 1 & 0 \\
      -2 & -3 & 8
    \end{pmatrix}
\end{equation}

que descomponemos usando

\begin{equation}
    a_{i j} = \sum_{s=1}^{\min(i, j)} \ell_{i s} u_{s j}.
\end{equation}

El primer coeficiente, $i = j = 1$, cumple

\begin{equation}
    a_{1 1}  = 2 = \ell_{1 1} u_{1 1}.
\end{equation}

Usamos nuestra libertad para fijar algunos coeficientes y elegimos $\ell_{1 1} = 1$, por ejemplo, lo que da $u_{1 1} = a_{1 1} = 2$.

Ahora consideremos la primera fila de $U$ ($i = 1$, $j$ libre) y la primera columna de $L$ ($i$ libre, $j = 1$). La primera fila de $U$ cumple

\begin{equation}
    a_{1 j} = \ell_{1 1} u_{1 j} = u_{1 j}
\end{equation}

y la primera columna de $L$ cumple

\begin{equation}
    a_{i 1} = \ell_{i 1} u_{1 1} = 2 \ell_{i 1}.
\end{equation}

Por lo tanto, sabemos que

\begin{equation}
    L =
    \begin{pmatrix}
      1 & 0 & 0 \\
      \tfrac{4}{2} & ?? & 0 \\
      \tfrac{-2}{2} & ?? & ??
    \end{pmatrix}, \quad
    U =
    \begin{pmatrix}
      2 & 1 & -1 \\
      0 & ?? & ?? \\
      0 & 0 & ??
    \end{pmatrix}.
\end{equation}

Pasamos a la segunda fila y columna.

\begin{equation}
    a_{2 2} = \ell_{2 1} u_{1 2} + \ell_{2 2} u_{2 2}.
\end{equation}

Ya hemos calculado las entradas $\ell_{2 1} = 2$, $u_{1 2} = 1$. Nuevamente, fijamos $\ell_{2 2} = 1$, lo que da

\begin{equation}
    a_{2 2} = 1 = 2 + u_{2 2} \Rightarrow u_{2 2} = -1.
\end{equation}

Como en el paso anterior, consideramos la segunda fila de $U$ y la segunda columna de $L$, encontrando

\begin{align}
    u_{2 j}    & = a_{2 j} - \ell_{2 1} u_{1 j}, \\
    \ell_{i 2} & = \left(a_{i 2} - \ell_{i 1} u_{1 2} \right) / u_{2 2},
\end{align}

lo que implica que

\begin{align}
    u_{2 3}    & = 0 - 2 \times (-1) = 2, \\
    \ell_{3 2} & = \left(-3 - (-1) \times 1\right) / (-1) = 2.
\end{align}

Ahora tenemos las dos primeras filas y columnas:

\begin{equation}
    L =
    \begin{pmatrix}
      1 & 0 & 0 \\
      2 & 1 & 0 \\
      -1 & 2 & ??
    \end{pmatrix}, \quad
    U =
    \begin{pmatrix}
      2 & 1 & -1 \\
      0 & -1 & 2 \\
      0 & 0 & ??
    \end{pmatrix}.
\end{equation}

Continuando como antes, usamos la última elección libre para fijar $\ell_{3 3} = 1$. Finalmente, como antes, calculamos que $u_{3 3} = 3$. Así que finalmente tenemos

\begin{equation}
    L =
    \begin{pmatrix}
      1 & 0 & 0 \\
      2 & 1 & 0 \\
      -1 & 2 & 1
    \end{pmatrix}, \quad
    U =
    \begin{pmatrix}
      2 & 1 & -1 \\
      0 & -1 & 2 \\
      0 & 0 & 3
    \end{pmatrix}.
\end{equation}

## Algoritmo de Descomposición $LU$ 

* Escribe la fórmula explícita para los coeficientes de la matriz.

  1. Trabaja desde la primera fila/columna hasta la última.
  2. Observa la entrada diagonal de $A$: utiliza la libertad para elegir el valor de la entrada diagonal de $L$ o $U$.
  3. La fila correspondiente de $U$ y la columna de $L$ se derivan de la fórmula explícita ya que todas las demás entradas son conocidas.

* Si $u_{k k}$ o $\ell_{k k}$ son cero, el algoritmo simple falla; sin embargo, una descomposición $LU$ puede seguir existiendo.
* $U$ es la matriz que se encontraría usando la eliminación gaussiana. La descomposición $LU$ tiene la ventaja de que es válida para cualquier ${\bf b}$ en $A {\bf x} = {\bf b}$, mientras que con la eliminación gaussiana se necesita repetir todo el algoritmo.
* Al igual que con la eliminación gaussiana, el pivotamiento para mayor precisión es necesario para matrices generales.

## Codigo de ejemplo

Este es un ejemplo de algoritmo de descomposición $LU$. Ten en cuenta que, como no utiliza pivotamiento, es posible que falle.

In [None]:
def LU_decomposition(A):
    """Perform LU decomposition using the Doolittle factorisation."""
    
    L = np.zeros_like(A)
    U = np.zeros_like(A)
    N = np.size(A, 0)
    
    for k in range(N):
        L[k, k] = 1
        U[k, k] = (A[k, k] - np.dot(L[k, :k], U[:k, k])) / L[k, k]
        for j in range(k+1, N):
            U[k, j] = (A[k, j] - np.dot(L[k, :k], U[:k, j])) / L[k, k]
        for i in range(k+1, N):
            L[i, k] = (A[i, k] - np.dot(L[i, :k], U[:k, k])) / U[k, k]
    
    return L, U

Probemos este código con el ejemplo anterior.

In [None]:
L2, U2 = LU_decomposition(A)
print("Compare the code and hand answers for L:\n{},\n{}\nand for U:\n{},\n{}".format(L2, L, U2, U))