Не забываем загрузить библиотеки:

In [12]:
# Библиотека для работы с матрицами
import numpy as np 

# Алгоритмы линейной алгебры
import scipy.linalg as sla

# Библиотека для работы с разреженными матрицами
import scipy.sparse as sps

# Алгоритмы линейной алгебры для разреженных матриц
import scipy.sparse.linalg as spla

# Графическая библиотека
import matplotlib.pyplot as plt

# Позволяет отрисовывать графики и изображения прямо в ноутбуке, а не в отдельном окне. Жизненно важная вещь!
%matplotlib inline

# Теория

Информация в этой клетке с википедии, при желании — переходите по ссылкам и читайте полную версию.

## [Нормы](https://ru.wikipedia.org/wiki/Норма_(математика))
Вы знаете, что в векторном пространстве над полем вещественных или комплексных чисел есть понятие длины вектора — квадратный корень из скалярного произведения вектора на самого себя.  
Норма обобщает понятие длины вектора. Это функционал $||\cdot||: V \to \mathbb{R}_+$, обладающий следующими свойствами:

1. $||x|| = 0 \Rightarrow x = 0$;
2. $\forall x,y \in V,\ ||x+y|| \le ||x|| + ||y||$ (неравенство треугольника);
3. $\forall \alpha \in \mathbb{R} (\mathbb{C})\ \forall x \in V,\ ||\alpha x|| = |\alpha|\cdot ||x||$.

У некоторых норм есть общепринятые названия. Когда говорят об $l_p$-норме, имеют ввиду отображение
$$
||\cdot||_p: V \to \mathbb{R}_+,\quad ||(x_1, \ldots, x_n)||_p = (|x_1|^p + \ldots + |x_n|^p)^{\frac{1}{p}}
$$

В частности, $l_2$-норма — это длина вектора, $l_1$-норма — это сумма модулей координат, норма $l_\infty$ равна максимуму из модулей координат.

Норма матрицы — это просто её норма как вектора пространства $K^{m \times n}$ (где $K \in \{\mathbb{R}, \mathbb{C}\}$).  
Есть ещё операторные нормы, которые определяются через векторную норму:
$$
||\varphi|| = \sup\limits_{||x|| = 1} ||\varphi(x)||.
$$
Нас тут интересует только то, что используя любую норму, заданную на векторах, можно определить соответствующую операторную норму, которая в свою очередь определяет матричную норму.  
Таким образом определённая матричная норма (через норму вектора) называется согласованной с соответствующей векторной нормой.

## [$LU$-разложение](https://ru.wikipedia.org/wiki/LU-разложение#Вывод_формулы)
$LU$-разложение матрицы $A$ — это представление этой матрицы в виде произведения $A = LU$ нижнетреугольной матрицы $L$ и верхнетреугольной матрицы $U$.  
Это разложение важно при решении линейных систем. Если вы знаете такое разложение матрицы $A$, то решение СЛУ
$$Ax = b \Leftrightarrow LUx = b$$
сводится к решению двух систем
$$Ly = b \text{ и } Ux = y$$
c треугольными матрицами (а значит решаемыми одним прямым или обратным проходом).

## [$QR$-разложение](https://ru.wikipedia.org/wiki/QR-разложение)
$QR$-разложение матрицы $A$ — это представление этой матрицы в виде произведения $A = QR$ ортогональной (или унитарной) матрицы $Q$ и верхнетреугольной матрицы $R$.  

В силу того, что $Q^*Q = I$, при известном $QR$-разложении матрицы $A$ решение СЛУ 
$$Ax = b \Leftrightarrow QRx = b$$
сводится к решению системы
$$Rx = Q^* b$$
с треугольной матрицей.

**Задание 0 (1 балл) (теоретическое)** Найдите (по определению или в википедии), чему равны матричные нормы $l_1$ и $l_\infty$ и докажите полученные формулы.

Векторной $l_2$-норме соответствует так называемая спектральная норма матрицы, для матрицы $A$ равная корню из максимального собственного числа матрицы $A^*A$ (где $A^*$ это сопряжённая матрица):
$$
||A||_2 = \sup\limits_{||x||_2 = 1} ||Ax||_2 = \sup\limits_{(x,x)=1} \sqrt{(Ax,Ax)} = \sqrt{\lambda_{max}(A^*A)}
$$

## Вычислительные особенности

С точки зрения математики матричные разложения являются точными: произведение сомножителей всегда равняется исходной матрице $A$. К сожалению, на практике этому часто мешает вычислительная погрешность. 

Для $LU$ разложения $l_2$-норма ошибки ошибки $||\delta A|| = ||A - LU||$ удовлетворяет следующей оценке:

$$||\delta A|| \leqslant ||L|| \cdot ||U|| \cdot O(\varepsilon_{machine})$$

А нормы $L$ и $U$ могут быть совсем нехорошими.

**Задание 1 (1 балл)** Рассмотрим следующее LU-разложение:

$$
\begin{pmatrix}
10^{-20} & 1\\
1 & 1
\end{pmatrix} = \begin{pmatrix}
1 & 0\\
10^{20} & 1
\end{pmatrix}\cdot\begin{pmatrix}
10^{-20} & 1\\
0 & 1 - 10^{20}
\end{pmatrix}
$$

Перемножьте полученные матрицы $L$ и $U$. А теперь перемножьте такие же матрицы, только после всех единиц поставьте десятичные точки. Изменился ли ответ? Как вам кажется, почему?

In [13]:
import numpy as np 


L1 = np.array([[1 , 0], [10**(20), 1]])
U1 = np.array([[10**(-20) , 1], [0, 1 - 10**20]])
print(np.dot(L1, U1))

print('\n')

L2 = np.array([[1. , 0], [10**20, 1.]])
U2 = np.array([[10**(-20) , 1.], [0, 1. - 10**20]])
print(np.dot(L2, U2))


[[1e-20 1]
 [1.0 1]]


[[1e-20 1.0]
 [1.0 0.0]]


> В первом случае только один элемент содержит десятичную точку, во втором случае все элементы содержат десятичную точку, кроме числа $10^{-20}$.

> Мне кажется это связано стем, что по правилам языка при перемноженнии $int$ на $int$ мы получаем $int$, при перемножении $int$ на $float$ получаем  $float$ и при перемножении $float$ на $float$ получим $float$. 

> Таким образом при перемножении во втором случае мы получаем массив, значенния которого все равны $float$.

> При перемножении в первом случае значение $float$ будут иметь только те значения, которые получены при перемножении $10^{-20}$ на число.

Отметим, что в реальных вычислениях матричные элементы почти наверняка с самого начала будут числами с плавающей точкой (а не целыми).

Теперь проверьте, что будет, если вычислить QR-разложение исходной матрицы и перемножить матрицы $Q$ и $R$.

In [14]:
import numpy as np

A = np.array([[10**(-20), 1e+0], [1e+0, 1e+0]])
Q, R = np.linalg.qr(A)

print(Q, '\n')
print(R, '\n')
print (np.dot(Q, R), '\n')

def givens_rotation(A):
    (r, c) = np.shape(A)
    Q = np.identity(r)
    R = np.copy(A)
    (rows, cols) = np.tril_indices(r, -1, c)
    for (row, col) in zip(rows, cols):
        if R[row, col] != 0:  # Q = 1, S = 0, R, Q без изменений
            r_ = np.hypot(R[col, col], R[row, col])  # d
            c = R[col, col]/r_
            s = -R[row, col]/r_
            G = np.identity(r)
            G[[col, row], [col, row]] = c
            G[row, col] = s
            G[col, row] = -s
            R = np.dot(G, R)  # R=G(n-1,n)*...*G(2n)*...*G(23,1n)*...*G(12)*A
            Q = np.dot(Q, G.T)  # Q=G(n-1,n).T*...*G(2n).T*...*G(23,1n).T*...*G(12).T
    return (Q, R)



(Q, R) = givens_rotation(A)
print(Q, '\n')
print(R, '\n')
print (np.dot(Q,R))

[[ 0. -1.]
 [-1.  0.]] 

[[-1. -1.]
 [ 0. -1.]] 

[[0. 1.]
 [1. 1.]] 

[[ 1.e-20 -1.e+00]
 [ 1.e+00  1.e-20]] 

[[ 1.  1.]
 [ 0. -1.]] 

[[1.e-20 1.e+00]
 [1.e+00 1.e+00]]


> При использовании функции из библиотеки $numpy$, не хватает точности, при округлении ответ верный. Ответ выводится в формате $float$

> ФУнкцию, для более точного вычисления взяла с сайта (https://russianblogs.com/article/13201929500/), вывод более точный, формат $float$.

**Выход: LU-разложение с выбором главного элемента (по столбцу)**

Каждый раз ищем максимум в столбце и переставляем соответствующую строку наверх.

$$
\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{blue}{b_{ii}} & \color{blue}{b_{i,i+1}} & \dots & \color{blue}{b_{in}} \\
 & & b_{i+1,i} & b_{i+1,i+1} & \dots & b_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & \vdots & \vdots & & \vdots\\
\end{pmatrix}\longrightarrow
\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & b_{i+1,i} & b_{i+1,i+1} & \dots & b_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & \color{blue}{b_{ii}} & \color{blue}{b_{i,i+1}} & \dots & \color{blue}{b_{in}} \\
 & & \vdots & \vdots & & \vdots\\
\end{pmatrix}\longrightarrow
$$
$$
\longrightarrow\begin{pmatrix}
b_{11} & \dots & b_{1i} & b_{1,i+1} & \dots & b_{1n}\\
 & \ddots & \vdots & \vdots & & \vdots\\
 & & \color{green}{b_{ji}} & \color{green}{b_{j,i+1}} & \dots & \color{green}{b_{jn}} \\
 & & 0 & b'_{i+1,i+1} & \dots & b'_{i+1,n}\\
 & & \vdots & \vdots &  & \vdots \\
 & & 0 & b'_{i,i+1} & \dots & b'_{in} \\
 & & \vdots & \vdots & & \vdots
\end{pmatrix}
$$

Наибольший, а не первый ненулевой элемент столбца берётся потому, что чем больше число - тем меньшие погрешности потенциально вносит деление на него.

Что при этом происходит? Перестановка строк матрицы равносильна умножению её слева на матрицу соответствующей перестановки. Таким образом, мы получаем равенство

$$L_nP_nL_{n-1}P_{n-1}\ldots L_2P_2L_1P_1 A = U\qquad\qquad(1)$$

где $L_1,\ldots,L_n$ - некоторые нижнетреугольные матрицы.

**Вопрос:** Ну, и где здесь матрица $L$?!

**Ответ:** Введём новые матрицы

\begin{align*}
L'_n &= L_n\\
L'_{n-1} &= P_nL_nP_{n-1}\\
L'_{n-2} &= P_nP_{n-1}L_{n-1}P_n^{-1}P_{n-1}^{-1}\\
&\ldots\\
L'_1 &= P_nP_{n-1}\ldots P_2L_1P_2^{-1}\ldots P_{n-1}^{-1}P_n^{-1}
\end{align*}

**Упражнение.** Матрицы $L'_i$ тоже нижнетреугольные!

Тогда левая часть (1) перепишется в виде

$$\underbrace{L'_nL'_{n-1}\ldots L'_1}_{:=L^{-1}}\underbrace{P_nP_{n-1}\ldots P_1}_{:=P^{-1}}\cdot A$$

**Итог:** разложение вида
$$A = PLU$$
где $P$ - матрица перестановки.

Функция `scipy.linalg.lu` в Питоне находит именно такое разложение!

Все элементы $L$ не превосходят $1$, так что $||L|| \leqslant 1$. При этом
$$||\Delta A|| \leqslant ||A||\cdot O(\rho \varepsilon_{machine}),$$
где
$$\rho = \frac{\max_{i,j}|u_{ij}|}{\max_{i,j}|a_{ij}|}$$
Это число называется *фактором роста матрицы*.

Но что, если это отношение велико?

**Задание 2 (1 балл)** Сгенерируйте матрицу $500\times500$, имеющую вид

$$
\begin{pmatrix}
1 & 0 & 0 & \cdots & 0 & 0 & 1\\
-1 & 1 & 0 &  &  & 0 & 1\\
-1 & -1 & 1 & 0  &  & 0 & 1\\
\vdots & & \ddots & \ddots  & \ddots & \vdots & \vdots \\
-1 & -1 & -1 & \ddots & 1 & 0 & 1\\
-1 & -1 & -1 &  & -1 & 1 & 1\\
-1 & -1 & -1 & \cdots & -1 & -1 & 1
\end{pmatrix}
$$

Например, сгенерировать сначала нулевую матрицу нужного размера, а потом заполнить её клетки правильными числами.

Найдите её PLU-разложение и QR-разложение. Убедитесь, что $P = E$. Вычислите $||A - LU||_2$ и $||A - QR||_2$. Чему равен фактор роста матрицы $A$? Сделайте вывод об устойчивости (или не устойчивости) нахождения PLU-разложения.

In [15]:
from scipy.linalg import lu
E = np.zeros((500, 500))
A = np.zeros((500, 500))
for i in range (500):
    for j in range (500):
        if i == j:
            A[i][j] = 1
            E[i][j] = 1
        elif i > j:
            A[i][j] = -1
    A[i][499] = 1

Q, R = np.linalg.qr(A)
print ('QR разложение:')
print ('Матрица Q')
print(Q, '\n')
print ('Матрица R')
print(R, '\n')

P, L, U = lu(A)
print ('PLU разложение')
print ('Матрица P')
print(P, '\n')
print ('Матрица L')
print(L, '\n')
print ('Матрица U')
print(U, '\n')

if P.all() == E.all():
    arr_norm1 = np.linalg.norm(A - np.dot(L, U),ord=2)
    arr_norm2 = np.linalg.norm(A - np.dot(Q, R),ord=2)
    print('||𝐴−𝐿𝑈||2 = ' , arr_norm1)
    print('||𝐴−𝑄𝑅||2 = ', arr_norm2)

QR разложение:
Матрица Q
[[-4.47213595e-02  4.45332635e-01  1.94543248e-01 ...  9.21970076e-17
   2.21179130e-16  8.66025404e-01]
 [ 4.47213595e-02 -8.93353395e-01  9.72716239e-02 ...  4.48732096e-17
   1.11154928e-16  4.33012702e-01]
 [ 4.47213595e-02  2.68812456e-03 -9.74873473e-01 ...  2.22006615e-17
   5.50837783e-17  2.16506351e-01]
 ...
 [ 4.47213595e-02  2.68812456e-03  2.15723360e-03 ... -8.16496581e-01
  -3.17538245e-17  2.70616862e-16]
 [ 4.47213595e-02  2.68812456e-03  2.15723360e-03 ...  4.08248290e-01
  -7.07106781e-01  3.46944695e-17]
 [ 4.47213595e-02  2.68812456e-03  2.15723360e-03 ...  4.08248290e-01
   7.07106781e-01  1.45716772e-16]] 

Матрица R
[[-2.23606798e+01 -2.22265157e+01 -2.21817943e+01 ... -4.47213595e-02
   0.00000000e+00  2.22712371e+01]
 [ 0.00000000e+00 -2.23203943e+00 -1.33330978e+00 ... -2.68812456e-03
   0.00000000e+00  8.90665271e-01]
 [ 0.00000000e+00  0.00000000e+00 -2.04701857e+00 ... -2.15723360e-03
   0.00000000e+00  3.89086496e-01]
 ...
 [ 0.00

К счастью, на практике так редко бывает (чёрт его знает почему). Тем не менее, QR-разложение всё-таки лучше. Теоретическая оценка для ошибки QR-разложения имеет вид

$$||A - QR||_2 \leqslant ||A||_2\cdot O(\varepsilon_{machine})$$

**Задание 3 (1 балл)** Рассмотрим *матрицу Паскаля* $S_n = \left(C_{i + j}^i\right)$ ($i,j = 0,\ldots,n-1$).

Каково её LU-разложение? Выведите формулы для матриц L и U и приведите краткое обоснование прямо в ноутбуке. Не пользуйтесь функцией `scipy.linalg.lu`, чтобы его "угадать": матрица P будет отлична от единичной, и вы получите не то, что хотели.

Каков её определитель? Обязательно обоснуйте ответ.

Напишите функцию `my_pascal(n)`, генерирующую матрицу Паскаля размера $n\times n$.

In [16]:
def my_pascal(n):
    A = np.zeros((n, n))
    for i in range (n):
        for j in range (n):
            if i == j:
                A[i][j] = 1
            elif i == 0:
                A[i][j] = 0
            elif j == 0:
                A[i][j] = 1
            elif i > j:
                A[i][j] = A[i-1][j] + A[i-1][j-1]
    return A

def lu_decom(matrix):
    array = np.array(matrix)
    size = np.shape(matrix)[0]
    L = np.zeros([size, size])
    for k in range(size - 1):
        vector = array[:, k]
        vector[k + 1:] = vector[k + 1:] / vector[k]
        vector[0:k + 1] = np.zeros(k + 1)
        L[:, k] = vector
        L[k, k] = 1.0
        for i in range(k + 1, size):
            matrix[i, :] = matrix[i, :] - vector[i] * matrix[k, :]
        array = np.array(matrix)
    L[size - 1, size - 1] = 1.0
    U = array
    return (L, U)

    

> LU разложение подсмотрела на сайте (https://russianblogs.com/article/7153814717/),  немного изменила код 

Найдите норму разности $||A - PLU||_2$. Не такая уж и большая, правда?

In [17]:
A = my_pascal(30)
L, U = lu_decom(A)
arr_norm1 = np.linalg.norm(A - np.dot(L, U),ord=2)
print(arr_norm1)
# Find ||A - PLU||_2 here

200037352.54481462


Теперь попросим компьютер вычислить определитель матрицы Паскаля $30\times30$ и решить простенькую систему уравнений:

In [18]:
print(sla.det(A))

# Try to solve a linear system
x = np.ones(30)
b = A.dot(x)
x1 = sla.solve(A, b)
print(sla.norm(x1 - x))

1.0
0.0


Так себе ошибка. Теперь попробуем сделать это с помощью QR-разложения. Станет ли лучше?

In [19]:
Q, R = sla.qr(A)
x2 = sla.solve_triangular(R, Q.T.dot(b))
print (sla.norm(x2 - x))

0.0


Объясните полученные неприятные результаты.