In [None]:
from traitlets.config.manager import BaseJSONConfigManager
import jupyter_core
# path = "/Users/i.oseledets/anaconda2/envs/teaching/etc/jupyter/nbconfig"
cm = BaseJSONConfigManager(config_dir=path)
cm.update("livereveal", {
              "theme": "sky",
              "transition": "zoom",
              "start_slideshow_at": "selected",
               "scroll": True
})


# Лекция 3. Линейные системы

## План 

- Линейные системы
- Обратная матрица
- Метод Гаусса

## Линейные системы

$$ Ax = f, $$

где матрица $A$ и вектор $f$ известны.

- Задача решения системы линейных уравнений – одна из основных задач вычислительной линейной алгебры.

Она возникает при решении следующих задач:

- задача линейной регрессии - во второй части лекции
- задачи нелинейной регрессии - частично на курсе по машинноему обучению
- задачи оптимизации (методы Ньютона-Рафсона и Гаусса-Ньютона, условия ККТ) - во второй части этого курса про оптимизацию

## Интерпретация задачи

$$ Ax = f $$

- найти коэффициенты $x_i$ для столбцов $a_i$ матрицы $A$, такие что вектор $f$ равен $\sum_i x_i a_i$
- найти вектор $x$ такой что скалярное произведение с каждой строкой матрицы $A$ даст элемент вектора $f$

 ## Пример
 
 \begin{align*}
    &2 y + 3 x = 5 \\
    &2 x + 3z = 5 \\
    &z + y = 2 \\
\end{align*}

эквивалентно

$$ 
\begin{bmatrix}
3 & 2 & 0 \\
2 & 0 & 3 \\
0 & 1 & 1
\end{bmatrix}
\begin{bmatrix}
x \\ y \\ z
\end{bmatrix}
= 
\begin{bmatrix}
5 \\ 5 \\ 2
\end{bmatrix}
$$

## Существование решения

Решение системы линейных уравнений с квадратной матрицей $A$

$$A x = f$$

существует тогда и только тогда, когда матрица $A$ имеет полный ранг.

**Q:** что такое ранг матрицы? 

## Шкала размерностей линейных систем 

В различных приложениях размерности линейных систем могут быть различны 

- Малая: $n \leq 10^4$ (вся матрица помещается в память, **плотные матрицы**)
- Средняя: $n = 10^4 - 10^6$ (обычно **разреженные** или **структурированные** матрицы)
- Большая: $n = 10^8 - 10^9$ (обычно **разреженные** матрицы и параллельные вычисления)

## Линейные системы могут быть большими

- Задача моделирования аэродинамики самолёта сводится к решению огромной линейной системы.
Пример сетки для самолёта Airbus A319
(подробнее см. [GMSH website](http://geuz.org/gmsh/)).  
<img src="./a319_4.png" width=50%>

Основная сложность в том, что такие системы очень большие: миллионы и миллиарды неизвестных!

## Линейные системы могут быть структурированы

- Хранение $N^2$ элементов матрицы невозможно уже для $N = 100000$. Давайте получим сколько памяти будет занимать такая матрица и сравним с типичными размерами оперативной памяти в современных ноутбуках.

**Q:** как работать с такими матрицами?  

**A:** к счастью, такие матрицы чаще всего являются **структурированными** и требуют хранения $\mathcal{O}(N)$ элементов.

- Наиболее растространённый тип структурированных матриц – это разреженные матрицы: такие матрицы имеют только $\mathcal{O}(N)$ ненулевых элементов!  

- Пример (одна из самых известных матриц для $n = 5$):

$$
  \begin{pmatrix}
  2 & -1 & 0 & 0 & 0 \\
  -1 & 2 & -1 & 0 & 0 \\
  0 & -1 & 2 & -1 & 0 \\
  0 & 0 &-1& 2 & -1  \\
  0 & 0 & 0 & -1 & 2 \\
  \end{pmatrix}
$$

- По крайней мере можно хранить такие матрицы
- Также можно умножать такие матрицы на вектор быстро
- Но как решать линейные системы с такими матрицами?

## Основные вопросы о линейных системах

1. Как мы вычислим решение? (LU разложение, метод Гаусса)
2. Какая сложность решения системы линейных уравнений?
3. Какую точность мы можем получить от решения (из-за ошибок округления)?

## Как решать линейные системы?

- Есть формульное выражение решения с помощью **обратной матрицы**
- Есть алгоритм вычисления - метод Гаусса

## Что: обратная матрица

- Если есть линейное уравнение с матрицей 1 на 1 (то есть числом):

$$ ax = b, $$

то решение записывается как $x = b / a$ для ненулевого числа $a$ или $x = a^{-1}b$

- Обобщением обозначения $a^{-1}$ на случай системы линейных уравнений с матрицей $A$ размера $n \times n$ является обратная матрица $A^{-1}$

- Определение: матрица, обратная к матрице $A$, это такая матрица $X$ что  

$$
   AX = XA = I, 
$$

где $I$ – единичная матрица. Обратная матрица обозначается как $A^{-1}$.

- Вычисление обратной матрицы связано с решением линейной системы. В самом деле, $i$-ый столбец произведения даёт

$$
A x_i = e_i,
$$

где $e_i$ – $i$-ый столбец единичной матрицы. 


In [3]:
import numpy as np
n = 2
A = np.random.randint(10, size=(n, n))
Ainv = np.linalg.inv(A)
print(A)
print(Ainv)
print(np.linalg.norm(A @ Ainv - np.eye(n)))

[[3 7]
 [2 4]]
[[-2.   3.5]
 [ 1.  -1.5]]
1.2560739669470201e-15


## Зачем: обратная матрица и линейные системы

Если у нас есть обратная матрица $A^{-1}$, тогда решение линейной системы

$$Ax = f$$

выражается как $x = A^{-1} f$.  

В самом деле,  

$$   
    A(A^{-1} f) = (AA^{-1})f = I f = f.
$$

In [14]:
import numpy as np
n = 2
A = np.random.randint(10, size=(n, n))
f = np.random.randint(10, size=(n,))
Ainv = np.linalg.inv(A)
print(A)
print(f)
print(Ainv)
x = Ainv @ f
print(x)
print(A @ x - f)

[[2 0]
 [6 4]]
[8 6]
[[ 0.5   0.  ]
 [-0.75  0.25]]
[ 4.  -4.5]
[0. 0.]


## Какие недостатки у такого подхода к решению линейных систем?

## Как решать линейные системы: практика

Основной инструмент – исключение переменных. 

\begin{align*}
    &2 y + 3 x = 5 \quad&\longrightarrow \quad &y = 5/2 -  3/2 x \\
    &2 x + 3z = 5 \quad&\longrightarrow\quad &z = 5/3 - 2/3 x\\
    &z + y = 2 \quad&\longrightarrow\quad  & 5/2 + 5/3 - (3/2 + 2/3) x = 2,\\
\end{align*}

и так вы можете найти $x$ (и все остальные неизвестные).  

- Этот процесс называется **методов Гаусса** и является одним из самых часто используемых алгоритмов. 
- Далее мы подробно обсудим, как он обобщается на линейные системы с большим количеством переменных

## Метод Гаусса

Метод Гаусса состоит из двух этапов:
1. Проход вперёд
2. Проход назад

## Проход вперёд

- Исключим $x_1$:

$$
   x_1 = f_1 - (a_{12} x_2 + \ldots + a_{1n} x_n)/a_{11},
$$

и подставим в уравнения $2, \ldots, n$. 

- Затем исключим $x_2$ и подставим в остальные уравнения.

- Важно, что ведущий элемент (pivot), тот на который мы делим, не равен $0$.

## Пример
- Исключили $x$ из первого уравнения и подставили в остальные уравнения
\begin{align*}
    &2 y + 3 x = 5 \quad&\longrightarrow \quad &x = (5 - 2y) / 3 \quad&\longrightarrow\quad &x = (5 - 2y) / 3 \\
    &2 x + 3z = 5 \quad&\longrightarrow\quad &2 x + 3z = 5 \quad&\longrightarrow\quad & 2/3 (5 - 2y) + 3z = 5 \\
    &z + y = 2 \quad&\longrightarrow\quad  & z + y = 2 \quad&\longrightarrow\quad & z + y = 2\\
\end{align*}
- Исключили $y$ из второго уравнения и подставили в последующие уравнения

\begin{align*}
    & x = (5 - 2y) / 3 \\
    & y = (5 - (5 - 3z)3 / 2) / 2\\
    & z + (5 - (5 - 3z)3 / 2) / 2 = 2
\end{align*}

**Q:** где в этом примере на каждом шаге ведущий элемент, который обязательно должен не быть нулём?

## Проход назад

Во время прохода назад:
- решаем уравнение для $x_n$
- подставляем решение в уравнение для $x_{n-1}$ и так далее, пока не вычислим все $x_i, i=1,\ldots, n$.

## Продолжение примера

- Находим $z$ из последнего уравнения

\begin{align*}
    &x = (5 - 2y) / 3 \\
    & y = (5 - (5 - 3z)3 / 2) / 2\\
    & z + (5 - (5 - 3z)3 / 2) / 2 = 2\quad&\longrightarrow\quad  & z = 1 \\
\end{align*}

- Подставляем $z$ во второе уравнение

\begin{align*}
    &x = (5 - 2y) / 3 \\
    & y = (5 - (5 - 3z)3 / 2) / 2\quad&\longrightarrow\quad  & y = 1\\
    & z + (5 - (5 - 3z)3 / 2) / 2 = 2\quad&\longrightarrow\quad  & z = 1 \\
\end{align*}

- Подставляем $y$ в первое уравнение

\begin{align*}
    &x = (5 - 2y) / 3 \quad&\longrightarrow\quad  &  x = 1\\
    & y = (5 - (5 - 3z)3 / 2) / 2\quad&\longrightarrow\quad  & y = 1\\
    & z + (5 - (5 - 3z)3 / 2) / 2 = 2\quad&\longrightarrow\quad  & z = 1 \\
\end{align*}

In [15]:
import numpy as np

A = np.array([[3, 2, 0], [2, 0, 3], [0, 1, 1]])
print(A)
f = np.array([5, 5, 2])
x = np.linalg.solve(A, f)
print(x)
print(A @ x - f)

[[3 2 0]
 [2 0 3]
 [0 1 1]]
[1. 1. 1.]
[ 0.00000000e+00  0.00000000e+00 -2.22044605e-16]


## Что: LU разложение

Метод Гаусса связан с вычислением одного из самых важных матричных разложений: **LU разложения**.

**Определение**: LU разложение матрицы $A$ – это представление

$$A =  LU,$$

где $L$ – **нижнетреугольная** и $U$ – **верхнетреугольная** матрица.

Это разложение **неединственно**, поэтому обычно требуют дополнительно, что на диагонали матрицы $L$ стоят 1.

## Зачем: LU разложение нужно для решения линейных систем

- **Основная цель** вычисления LU разложения – это решение системы линейных уравнений, поскольку

$$
    A^{-1} f = (L U)^{-1} f = U^{-1} L^{-1} f, 
$$

и задача сводится к решению двух линейных систем с верхне- и нижнетреугольными матрицами.

- Проход вперёд выражается в виде

$$
     L y = f, 
$$

аналогично для прохода назад

$$
   U x = y.
$$

## Пример вычисления

- Рассмотрим всё ту же матрицу $A = \begin{bmatrix} 3 & 2 & 0\\ 2 & 0 & 3\\ 0 & 1 & 1  \end{bmatrix}$

- Возьмём первый диагональный элемент, поделим первый столбец на него. Получим первый столбец матрицы $L$ и первую строку матрицы $U$:

$$ L_1 = \begin{bmatrix} 1 & 0 & 0 \\ 2/3 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix} \qquad U_1 = \begin{bmatrix} 3 & 2 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 0 \end{bmatrix} \quad L_1U_1 = \begin{bmatrix} 3 & 2 & 0 \\ 2 & 4/3 & 0 \\ 0 & 0 & 0\end{bmatrix} $$ 

- Вычтем из матрицы $A$ текущее произведение $L_1U_1$, получим $\begin{bmatrix} 0 & 0 & 0 \\ 0 & -4/3 & 3 \\ 0 & 1 & 1  \end{bmatrix}$

- Далее возьмём второй диагональный элемент и поделим второй столбец на него - получим второй столбец и строку для матриц $L_2$ и $U_2$

$$ L_2 = \begin{bmatrix} 1 & 0 & 0 \\ 2/3 & 1 & 0 \\ 0 & -3/4 & 0 \end{bmatrix} \qquad U_2 = \begin{bmatrix} 3 & 2 & 0 \\ 0 & -4/3 & 3 \\ 0 & 0 & 0 \end{bmatrix} \quad L_2U_2 = \begin{bmatrix} 3 & 2 & 0 \\ 2 & 0 & 3 \\ 0 & 1 & -9/4\end{bmatrix} $$ 

- $A - L_2U_2 = \begin{bmatrix} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 13/4  \end{bmatrix}$

- Итоговый вид треугольных факторов

$$ L = \begin{bmatrix} 1 & 0 & 0 \\ 2/3 & 1 & 0 \\ 0 & -3/4 & 1 \end{bmatrix} \qquad U = \begin{bmatrix} 3 & 2 & 0 \\ 0 & -4/3 & 3 \\ 0 & 0 & 13/4 \end{bmatrix} \quad LU = \begin{bmatrix} 3 & 2 & 0 \\ 2 & 0 & 3 \\ 0 & 1 & 1\end{bmatrix} $$

## Существование LU разложения

- Алгоритм вычисления LU разложения работает, если **мы не делим на $0$** на каждом шаге метода Гаусса.

**Q:** Для какого класса матриц это так?

**A:** Это так для **строго регулярных матриц**.

## Сложность метода Гаусса/LU разложения

- Каждый шаг исключения занимает $\mathcal{O}(n^2)$ операций. 

- Таким образом, сложность алгоритма $\mathcal{O}(n^3)$.  

In [11]:
import numpy as np

n = 5
A = np.random.randn(n, n)
rhs = np.random.randn(n)
x = np.linalg.solve(A, rhs)
print(np.linalg.norm(A @ x - rhs))

7.040950043316808e-15


## Строго регулярные матрицы и LU разложение

**Определение.** Матрица $A$ называется *строго регулярной*, если все подматрицы из первых $k$ строк и $k$ столбцов не вырождены. 

В этом случае LU разложение всегда существует. Обратное также верно.

## Когда алгоритм вычисления LU разложения не работает

- Что случится, если матрица не является строго регулярной (или ведущий элемент в методе Гаусса очень мал)?   

- Классический пример матрицы $2 \times 2$ с "плохим" LU разложением:

$$
    A = \begin{pmatrix}
    \varepsilon & 1 \\
    1 & 1 
    \end{pmatrix}
$$

- Если $\varepsilon$ достаточно мал, мы можем столкнуться с неустойчивостью.

Проверим это численно...

In [17]:
import numpy as np
eps = 1e-16
a = np.array([[eps, 1],[1.0,  1]])
a0 = a.copy()
n = a.shape[0]
L = np.zeros((n, n))
U = np.zeros((n, n))
for k in range(n): #Eliminate one row   
    L[k, k] = 1
    for i in range(k+1, n):
        L[i, k] = a[i, k] / a[k, k]
        for j in range(k+1, n):
            a[i, j] = a[i, j] - L[i, k] * a[k, j]
    for j in range(k, n):
        U[k, j] = a[k, j]

print('L * U - A:\n', np.dot(L, U) - a0)
L, U

L * U - A:
 [[ 0.  0.]
 [ 0. -1.]]


(array([[1.e+00, 0.e+00],
        [1.e+16, 1.e+00]]),
 array([[ 1.e-16,  1.e+00],
        [ 0.e+00, -1.e+16]]))

## Ещё один класс матриц - симметричные положительно определённые матрицы

- **Определение.** Симметричная матрица $A$ называется <span style='color:red'> положительно определённой </span>, если для любого $x: \Vert x \Vert \ne 0$ выполнено

$$
(x, Ax) = x^\top Ax > 0.
$$

- **Утверждение.** У симметричных положительно определённых матриц все подматрицы из первых $k$ строк и $k$ столбцов не вырождены.

- Значит у таких матриц всегда существует LU разложение

## Пример

- Матрица $A = \begin{bmatrix} 10 & 0 \\ 0 & 1 \end{bmatrix}$ симметричная и положительно определённая так как $x^{\top}Ax = 10x_1^2 + x^2_2 > 0$ для любого вектора $x$

- Матрица $A = \begin{bmatrix} 10 & 0 \\ 0 & -1 \end{bmatrix}$ симметричная, но не является положительно определённой, так как $x^{\top}Ax = 10x_1^2 - x^2_2$ и можно найти вектор, для которого $x^{\top}Ax < 0$ например $x = (0, 1)$

## Разложение Холецкого – LU разложение для симметричных положительно определённых матриц

**Утверждение:** для симметричной положительно определённой матрицы $A$ справедливо следующее разложение вида

$$A = RR^\top,$$

где $R$ нижнетреугольная матрица. Оно называется разложением Холецкого, всегда существует и вычисляется устойчиво.

Часто матрица $R$ называется "квадратным корнем" матрицы $A$. 

In [2]:
import numpy as np

n = 5
A = np.random.randn(n, n)
A = A.T @ A
L = np.linalg.cholesky(A)
print(L)
print(np.linalg.norm(L @ L.T - A))

[[ 3.7848241   0.          0.          0.          0.        ]
 [-1.74893557  2.99984631  0.          0.          0.        ]
 [-0.1320517   1.39416365  1.32075826  0.          0.        ]
 [ 0.76423297 -1.04321792  2.34332337  1.20176368  0.        ]
 [-0.78567496 -0.67761953 -0.13224449 -0.60664557  0.67094997]]
3.0697214909333174e-15


## Вычисление LU разложения

- Во многих случаях достаточно один раз вычислить LU разложение!

- Если такое разложение найдено (что требует $\mathcal{O}(n^3)$ операций), тогда решение линейной системы сводится к решению линейных систем с матрицами $L$ и $U$, которые требуют $\mathcal{O}(n^2)$ операций.

**Упражнение:** Почему решение треугольной системы требует $\mathcal{O}(n^2)$ операций?

## Выбор ведущего элемента (pivoting)

- Мы можем переставить строки и столбцы матрицы $A$ так, чтобы элемент $A_{kk}$, на который мы делим, был максимальным.  

- Простейшая, но эффективная стратегия – это выбор максимального элемента в строке: на каждом шаге выбираем элемент, который максимален по модулю и перемещаем его на диагональ.

- Это даёт следующее разложение 

$$A = P L U,$$

где $P$ – это **матрица перестановки**.

- Почему это хорошая стратегия?

In [10]:
import scipy.linalg as splin

n = 5
A = np.random.randn(n, n)
# A = np.array([[1e-16, 1], [1, 1]])
P, L, U = splin.lu(A)
print(P) 
print(L, "\n", U)
print(np.linalg.norm(A - P @ L @ U))

[[0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0.]
 [1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1.]]
[[ 1.          0.          0.          0.          0.        ]
 [ 0.483176    1.          0.          0.          0.        ]
 [-0.04715401 -0.37180963  1.          0.          0.        ]
 [ 0.86750141  0.09228915  0.41543609  1.          0.        ]
 [ 0.41535394 -0.37889264  0.85953625  0.77967807  1.        ]] 
 [[-2.03759842 -0.44789767 -0.34296607  1.10087447  0.57597927]
 [ 0.          0.76764421  2.56366995  1.22377302 -1.23772115]
 [ 0.          0.          1.64510102  0.6599175   0.22532871]
 [ 0.          0.          0.         -2.2847565  -0.55120314]
 [ 0.          0.          0.          0.          0.73990973]]
6.894341957538586e-16


## Главное в этой лекции

- Линейные системы можно решать методом Гаусса, сложность – $\mathcal{O}(n^3)$.
- Линейные системы можно решать с помощью LU разложения, сложность – $\mathcal{O}(n^3)$ для разложения, и  $\mathcal{O}(n^2)$ для каждой правой части
- Выбор ведущего элемента повышает устойчивость LU разложения
- Симметричные положительно определённые матрицы