Не забываем загрузить библиотеки:

In [2]:
# Библиотека для работы с матрицами
import numpy as np 

# Алгоритмы линейной алгебры
import scipy.linalg as sla

# Библиотека для работы с разреженными матрицами
import scipy.sparse as sps

# Алгоритмы линейной алгебры для разреженных матриц
import scipy.sparse.linalg as spla

# Графическая библиотека
import matplotlib.pyplot as plt

# Позволяет отрисовывать графики и изображения прямо в ноутбуке, а не в отдельном окне. Жизненно важная вещь!
%matplotlib inline

# Теория

Информация в этой клетке с википедии, при желании — переходите по ссылкам и читайте полную версию.

## [Нормы](https://ru.wikipedia.org/wiki/Норма_(математика))
Вы знаете, что в векторном пространстве над полем вещественных или комплексных чисел есть понятие длины вектора — квадратный корень из скалярного произведения вектора на самого себя.  
Норма обобщает понятие длины вектора. Это функционал $||\cdot||: V \to \mathbb{R}_+$, обладающий следующими свойствами:

1. $||x|| = 0 \Rightarrow x = 0$;
2. $\forall x,y \in V,\ ||x+y|| \le ||x|| + ||y||$ (неравенство треугольника);
3. $\forall \alpha \in \mathbb{R} (\mathbb{C})\ \forall x \in V,\ ||\alpha x|| = |\alpha|\cdot ||x||$.

У некоторых норм есть общепринятые названия. Когда говорят об $l_p$-норме, имеют ввиду отображение
$$
||\cdot||_p: V \to \mathbb{R}_+,\quad ||(x_1, \ldots, x_n)||_p = (|x_1|^p + \ldots + |x_n|^p)^{\frac{1}{p}}
$$

В частности, $l_2$-норма — это длина вектора, $l_1$-норма — это сумма модулей координат, норма $l_\infty$ равна максимуму из модулей координат.

Норма матрицы — это просто её норма как вектора пространства $K^{m \times n}$ (где $K \in \{\mathbb{R}, \mathbb{C}\}$).  
Есть ещё операторные нормы, которые определяются через векторную норму:
$$
||\varphi|| = \sup\limits_{||x|| = 1} ||\varphi(x)||.
$$
Нас тут интересует только то, что используя любую норму, заданную на векторах, можно определить соответствующую операторную норму, которая в свою очередь определяет матричную норму.  
Таким образом определённая матричная норма (через норму вектора) называется согласованной с соответствующей векторной нормой.

## [$LU$-разложение](https://ru.wikipedia.org/wiki/LU-разложение#Вывод_формулы)
$LU$-разложение матрицы $A$ — это представление этой матрицы в виде произведения $A = LU$ нижнетреугольной матрицы $L$ и верхнетреугольной матрицы $U$.  
Это разложение важно при решении линейных систем. Если вы знаете такое разложение матрицы $A$, то решение СЛУ
$$Ax = b \Leftrightarrow LUx = b$$
сводится к решению двух систем
$$Ly = b \text{ и } Ux = y$$
c треугольными матрицами (а значит решаемыми одним прямым или обратным проходом).

## [$QR$-разложение](https://ru.wikipedia.org/wiki/QR-разложение)
$QR$-разложение матрицы $A$ — это представление этой матрицы в виде произведения $A = QR$ ортогональной (или унитарной) матрицы $Q$ и верхнетреугольной матрицы $R$.  

В силу того, что $Q^*Q = I$, при известном $QR$-разложении матрицы $A$ решение СЛУ 
$$Ax = b \Leftrightarrow QRx = b$$
сводится к решению системы
$$Rx = Q^* b$$
с треугольной матрицей.

**Задание 0 (1 балл) (теоретическое)** Найдите (по определению или в википедии), чему равны матричные нормы $l_1$ и $l_\infty$ и докажите полученные формулы.

Матричная норма $l_1$ представляет собой максимальное из чисел, полученных при сложении всех элементов каждого столбца, взятых по модулю.

$||A||_1 = \sup\limits_{1\leqslant j \leqslant n} \sum\limits_{i=1}^{m} |a_{ij}|$ \\

Матричная норма $l_{\infty}$ представляет собой максимальное из чисел, полученных при сложении всех элементов каждой строки, взятых по модулю.

$||A||_{\infty} = \sup\limits_{1\leqslant i \leqslant m} \sum\limits_{j=1}^{n} |a_{ij}|$


Векторной $l_2$-норме соответствует так называемая спектральная норма матрицы, для матрицы $A$ равная корню из максимального собственного числа матрицы $A^*A$ (где $A^*$ это сопряжённая матрица):
$$
||A||_2 = \sup\limits_{||x||_2 = 1} ||Ax||_2 = \sup\limits_{(x,x)=1} \sqrt{(Ax,Ax)} = \sqrt{\lambda_{max}(A^*A)}
$$

## Вычислительные особенности

С точки зрения математики матричные разложения являются точными: произведение сомножителей всегда равняется исходной матрице $A$. К сожалению, на практике этому часто мешает вычислительная погрешность. 

Для $LU$ разложения $l_2$-норма ошибки ошибки $||\delta A|| = ||A - LU||$ удовлетворяет следующей оценке:

$$||\delta A|| \leqslant ||L|| \cdot ||U|| \cdot O(\varepsilon_{machine})$$

А нормы $L$ и $U$ могут быть совсем нехорошими.

**Задание 1 (1 балл)** Рассмотрим следующее LU-разложение:

$$
\begin{pmatrix}
10^{-20} & 1\\
1 & 1
\end{pmatrix} = \begin{pmatrix}
1 & 0\\
10^{20} & 1
\end{pmatrix}\cdot\begin{pmatrix}
10^{-20} & 1\\
0 & 1 - 10^{20}
\end{pmatrix}
$$

Перемножьте полученные матрицы $L$ и $U$. А теперь перемножьте такие же матрицы, только после всех единиц поставьте десятичные точки. Изменился ли ответ? Как вам кажется, почему?

In [26]:

L = np.array([[1. , 0],[10**20, 1. ]]).reshape((2,2))
U = np.array([[10**(-20), 1. ],[0, 1. - 10**20]]).reshape((2,2))
A = L@U
A
# скорее всего, дело в том, как число представляется в питоне. 
# Когда мы поставили точку, число стало форматом флоат, а представление (именно вывод флоатов) в основном идет через экспоненциальном виде, 
# а не в десятичном. А без точки неявное преобразование (как сказано ниже) происходит внутри железа, и выводит нам в том виде, в котором мы условно задали
# 

array([[1e-20, 1.0],
       [1.0, 0.0]], dtype=object)

Отметим, что в реальных вычислениях матричные элементы почти наверняка с самого начала будут числами с плавающей точкой (а не целыми).

Теперь проверьте, что будет, если вычислить QR-разложение исходной матрицы и перемножить матрицы $Q$ и $R$.

In [24]:
A =np.array([[10**(-20),1],[1,1]]).reshape((2,2))
q,r = np.linalg.qr(A)
a = q@r
a

array([[0., 1.],
       [1., 1.]])

**Выход: LU-разложение с выбором главного элемента (по столбцу)**

Каждый раз ищем максимум в столбце и переставляем соответствующую строку наверх.

$$
\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{blue}{b_{ii}} & \color{blue}{b_{i,i+1}} & \dots & \color{blue}{b_{in}} \\
 & & b_{i+1,i} & b_{i+1,i+1} & \dots & b_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & \vdots & \vdots & & \vdots\\
\end{pmatrix}\longrightarrow
\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & b_{i+1,i} & b_{i+1,i+1} & \dots & b_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & \color{blue}{b_{ii}} & \color{blue}{b_{i,i+1}} & \dots & \color{blue}{b_{in}} \\
 & & \vdots & \vdots & & \vdots\\
\end{pmatrix}\longrightarrow
$$
$$
\longrightarrow\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & 0 & b'_{i+1,i+1} & \dots & b'_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & 0 & b'_{i,i+1} & \dots & b'_{in} \\
 & & \vdots & \vdots & & \vdots
\end{pmatrix}
$$

Наибольший, а не первый ненулевой элемент столбца берётся потому, что чем больше число - тем меньшие погрешности потенциально вносит деление на него.

Что при этом происходит? Перестановка строк матрицы равносильна умножению её слева на матрицу соответствующей перестановки. Таким образом, мы получаем равенство

$$L_nP_nL_{n-1}P_{n-1}\ldots L_2P_2L_1P_1 A = U\qquad\qquad(1)$$

где $L_1,\ldots,L_n$ - некоторые нижнетреугольные матрицы.

**Вопрос:** Ну, и где здесь матрица $L$?!

**Ответ:** Введём новые матрицы

\begin{align*}
L'_n &= L_n\\
L'_{n-1} &= P_nL_nP_{n-1}\\
L'_{n-2} &= P_nP_{n-1}L_{n-1}P_n^{-1}P_{n-1}^{-1}\\
&\ldots\\
L'_1 &= P_nP_{n-1}\ldots P_2L_1P_2^{-1}\ldots P_{n-1}^{-1}P_n^{-1}
\end{align*}

**Упражнение.** Матрицы $L'_i$ тоже нижнетреугольные!

Тогда левая часть (1) перепишется в виде

$$\underbrace{L'_nL'_{n-1}\ldots L'_1}_{:=L^{-1}}\underbrace{P_nP_{n-1}\ldots P_1}_{:=P^{-1}}\cdot A$$

**Итог:** разложение вида
$$A = PLU$$
где $P$ - матрица перестановки.

Функция `scipy.linalg.lu` в Питоне находит именно такое разложение!

Все элементы $L$ не превосходят $1$, так что $||L|| \leqslant 1$. При этом
$$||\Delta A|| \leqslant ||A||\cdot O(\rho \varepsilon_{machine}),$$
где
$$\rho = \frac{\max_{i,j}|u_{ij}|}{\max_{i,j}|a_{ij}|}$$
Это число называется *фактором роста матрицы*.

Но что, если это отношение велико?

**Задание 2 (1 балл)** Сгенерируйте матрицу $500\times500$, имеющую вид

$$
\begin{pmatrix}
1 & 0 & 0 & \cdots & 0 & 0 & 1\\
-1 & 1 & 0 &  &  & 0 & 1\\
-1 & -1 & 1 & 0  &  & 0 & 1\\
\vdots & & \ddots & \ddots  & \ddots & \vdots & \vdots \\
-1 & -1 & -1 & \ddots & 1 & 0 & 1\\
-1 & -1 & -1 &  & -1 & 1 & 1\\
-1 & -1 & -1 & \cdots & -1 & -1 & 1
\end{pmatrix}
$$

Например, сгенерировать сначала нулевую матрицу нужного размера, а потом заполнить её клетки правильными числами.

Найдите её PLU-разложение и QR-разложение. Убедитесь, что $P = E$. Вычислите $||A - LU||_2$ и $||A - QR||_2$. Чему равен фактор роста матрицы $A$? Сделайте вывод об устойчивости (или не устойчивости) нахождения PLU-разложения.

In [15]:
b=np.zeros((500,500))
size = 500
for i in range(0,size):
  x = np.arange(0,-i+size)
  y = +x + i
  b[x,y] =-1
b=b.transpose()
np.fill_diagonal(b,1)
b[:,499]=1
p,l,u=sla.lu(b)# ну тут да, Р единичной оказалась
q,r=sla.qr(b)#а тут страшное получилось
# а сейчас смешно, что в примере фигурирует матрица А, а у меня б
div_lu = b - np.dot(l,u)
div_qr = b - np.dot(q,r)
norm_lu=sla.norm(div_lu,ord=2)
norm_qr=sla.norm(div_qr,ord=2)
h=np.fabs(b).max()
ro=np.fabs(u).max()/h# что-то много получилось... видимо ПЛУ разложение матриц больших размеров неустойчивое
ro

1.636695303948071e+150

К счастью, на практике так редко бывает (чёрт его знает почему). Тем не менее, QR-разложение всё-таки лучше. Теоретическая оценка для ошибки QR-разложения имеет вид

$$||A - QR||_2 \leqslant ||A||_2\cdot O(\varepsilon_{machine})$$

**Задание 3 (1 балл)** Рассмотрим *матрицу Паскаля* $S_n = \left(C_{i + j}^i\right)$ ($i,j = 0,\ldots,n-1$).

Каково её LU-разложение? Выведите формулы для матриц L и U и приведите краткое обоснование прямо в ноутбуке. Не пользуйтесь функцией `scipy.linalg.lu`, чтобы его "угадать": матрица P будет отлична от единичной, и вы получите не то, что хотели.

Каков её определитель? Обязательно обоснуйте ответ.

Напишите функцию `my_pascal(n)`, генерирующую матрицу Паскаля размера $n\times n$.

In [16]:
def my_pascal(n):
  matr=np.zeros((n,n))    
  for i in range(n):
      matr[i][0]=1
  for j in range(n):
      matr[0][j]=1 
  for i in range(1,n):
      for j in range(1,n):
        matr[i][j]=matr[i-1][j]+matr[i][j-1]
  return matr
    
def luDecomposition(mat, n):
  lower = [[0 for x in range(n)]for y in range(n)]
  upper = [[0 for x in range(n)]for y in range(n)]
  for i in range(n):
    for k in range(i, n):
      sum = 0
      for j in range(i):
        sum += (lower[i][j] * upper[j][k])
      upper[i][k] = mat[i][k] - sum
      for k in range(i, n):
        if (i == k):
          lower[i][i] = 1
        else:
          sum = 0
          for j in range(i):
            sum += (lower[k][j] * upper[j][i])
          lower[k][i] = int((mat[k][i] - sum)/upper[i][i])
  return lower,upper
matr=np.array(my_pascal(6))
matr

array([[  1.,   1.,   1.,   1.,   1.,   1.],
       [  1.,   2.,   3.,   4.,   5.,   6.],
       [  1.,   3.,   6.,  10.,  15.,  21.],
       [  1.,   4.,  10.,  20.,  35.,  56.],
       [  1.,   5.,  15.,  35.,  70., 126.],
       [  1.,   6.,  21.,  56., 126., 252.]])

Найдите норму разности $||A - PLU||_2$. Не такая уж и большая, правда?

In [23]:
A = my_pascal(30)
p,l,u=sla.lu(A)
norm_plu=sla.norm(A-p@l@u,ord=2)
A

array([[1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00, 1.00000000e+00, 1.00000000e+00,
        1.00000000e+00, 1.00000000e+00],
       [1.00000000e+00, 2.00000000e+00, 3.00000000e+00, 4.00000000e+00,
        5.00000000e+00, 6.00000000e+00, 7.00000000e+00, 8.00000000e+00,
        9.00000000e+00, 1.00000000e+01, 1.10000000e+01, 1.20000000e+01,
        1.30000000e+01, 1.40000000e+01, 1.50000000e+01, 1.60000000e+01,
        1.70000000e+01, 1.80000000e+01, 1.90000000e+01, 2.00000000e+01,
        2.10000000e+01, 2.20000000e+01, 2.30000000e+01, 2.40000000e+01,
        2.50000000e+01,

Теперь попросим компьютер вычислить определитель матрицы Паскаля $30\times30$ и решить простенькую систему уравнений:

In [26]:
print(sla.det(A))

# Try to solve a linear system
x = np.ones(30)
b = A.dot(x)
x1 = sla.solve(A, b)
print(sla.norm(x1 - x))


4.6365440194083456e+47
79773753.66368194


  


Так себе ошибка. Теперь попробуем сделать это с помощью QR-разложения. Станет ли лучше?

In [27]:
Q, R = sla.qr(A)
x2 = sla.solve_triangular(R, Q.T.dot(b))
print( sla.norm(x2 - x))


50824992.35862077


array([-2.15920597e+16,  3.37578766e+16, -3.55019339e+16, -3.08689898e+16,
        2.31890860e+16, -1.52989331e+16, -8.93056188e+15,  4.62858778e+15,
        2.13288150e+15, -8.73888101e+14, -3.18071089e+14, -1.02669708e+14,
        2.93207055e+13,  7.38555134e+12, -1.63460508e+12,  3.16418450e+11,
        5.32647147e+10, -7.74436269e+09,  9.50406024e+08,  1.15003173e+08,
       -1.62764701e+07,  5.30495448e+06, -6.86858446e+05, -5.75968109e+05,
        4.61965469e+04,  1.32955898e+04,  4.78390039e+03, -1.18023047e+03,
       -2.36158203e+02, -4.10546875e+00])

Объясните полученные неприятные результаты.

Вообще, при QR-разложении получилась меньшая ошибка, что еще раз подтверждает, что оно точнее ПЛУ-разложения.