# Линейные системы.

## Пролог

Предположим, что у нас есть $n$ - наблюдений $m$ количества раз (размерности), например запись $i$-ого наблюдения $x_i = (a_1, a_2, \dots, a_m)$, тогда уместить все наблюдения в компактной форме для глаз и написания можно в матричной форме, где $x_i$ будут являться строчками данной матрицы $A$, где $a_{ij}$ - элемент $i$-ой строчки (наблюдения), $j$-ого столбца (?) 
$\newline$
$$A = \begin{bmatrix}
    a_{11}       & a_{12} & a_{13} & \dots & a_{1m} \\
    a_{21}       & a_{22} & a_{23} & \dots & a_{2m} \\
    \vdots \\
    a_{n1}       & a_{n2} & a_{n3} & \dots & a_{nm}
\end{bmatrix}$$

## Виды матриц

Исторически сложилось, что в зависимости от того, какие матрицы (наполнение матриц) - такие и существуют полезные свойства при дальнейшем анализе и решении задач. В основном сейчас понадобятся следующие матрицы:

Транспонирование: $A^{\top}$, данная операция меняет порядок индексирования в матрице $A_{i,j} \rightarrow A_{j,i}$

Комплексное сопряжение: $A^{*}$, для комплексных матриц меняет порядок индексирования + меняет комплексные числа на их комплексное споряжение -   $A_{i,j} \rightarrow A_{j,i}, \forall z = x \mp iy \rightarrow x \pm iy$ 

Таким образом, если  $A$ - вещественная матрица, то $A^{*} = A^{\top}$

$A = A^{\top}$ - симметричные матрицы

$$
I = E = \mathbb{1} = \begin{bmatrix}
1 & 0 & 0 & \cdots & 0 \\
0 & 1 & 0 & \cdots & 0 \\
0 & 0 & 1 & \cdots & 0 \\
\vdots& & & \ddots &   \\
0 & 0 & 0 & \cdots & 1
\end{bmatrix}
$$

$$
A^{-1}A = E
$$
Дополнить

### Где встречается

* Линейная регрессия
* Задачи оптимизации

### Задача

$$
Ax = b
$$

Дано: матрица $A_{n\times m}$, вектор $b_{n\times1}$

Найти: вектор $x_{m\times1}$

### Существование решения

#### Теорема Кронекера-Капелли
Система уравнений называется совместной, когда:

$$
\textbf{rank}(A) = \textbf{rank}(A|B)
$$

1. Если система несовместна, то решений **не существует**.
2. Если система совместна и $\textbf{rank}(A) = n$ - существует **единственное** решение.
3. Если система совместна и  $\textbf{rank}(A) < n$ - существует **бесконечное** количество решений.

Таким образом, когда $\textbf{rank}(A) = n$ матрица $A$ имеет полный ранг и решение существует.

Также будем называть, когда $n = m$ - определенная система, $n > m$ - переопределенная система (в общем случае решений не имеет), $n < m$ - недоопределенная система (решение неединственно).

На этой части рассмотрим базовые алгоритмы на определенных системах.

## Решаем линейные системы

$$
Ax = b \rightarrow x = A^{-1}b
$$

Все.

На самом деле нет. А почему нет?

1. Получить обратную матрицу в общем случае дольше, чем работа других алгоритмов
2. Сложность получения обратной матрицы $O(n^3)$, что сравнимо с альтерантивными алгоритмами, но в случае LU - алгоритм итеративный и при достижении разложения - алгоритм работает за $O(n^2)$
3. Получение обратной матрицы - численно менее стабильный алгоритм 
4. Необходимо хранить обратную матрицу, в то время как итеративные алгоритмы in-place
5. Иногда расчет $A^{-1}$ - оверкилл для получения решения, так как это не учитывает структуру матрицы 


In [34]:
import numpy as np
from scipy.linalg import lu_factor, lu_solve
from time import time

A = np.random.rand(10_000,10_000)
x = np.random.rand(10_000,1)
b = A@x

start = time()
x_est = np.linalg.inv(A)@b

error_inv = np.linalg.norm(x-x_est)
time_inv = time() - start

x_est_lu = np.linalg.solve(A,b)

error_lu = np.linalg.norm(x-x_est_lu)
time_lu = time() - start - time_inv

lu, piv = lu_factor(A)
x_est_lu_sc = lu_solve((lu, piv), b)

error_lu_sc = np.linalg.norm(x-x_est_lu_sc)
time_lu_sc = time() - start - time_lu - time_inv

pct_inv = error_inv/error_lu_sc
pct_lu = error_lu/error_lu_sc

print(f'Time in sec. inversion: {time_inv:.1f}, LU: {time_lu:.1f}, LU_sci: {time_lu_sc:.1f}')
print(f'Error inv/lu_sc: {pct_inv:.1f} lu/lu_sc: {pct_lu:.1f} ')

Time in sec. inversion: 14.9, LU: 4.2, LU_sci: 4.3
Error inv/lu_sc: 641.6 lu/lu_sc: 4.5 


## Gaussian Elimination

Начнем с того какие системы нам хотелось бы решать, или какие системы решать проще, то есть какого вида должна быть матрица $A$, чтобы система решалась простым методом подставновки.

Напримир треугольная матрица.

### Треугольные матрицы

1. L - Lower triangular matrix (нижне треугольная матрица)


$$ L = 
\begin{bmatrix}
a_{11} & 0 & 0\\
a_{21} & a_{22} & 0\\
a_{31} & a_{32} & a_{33}
\end{bmatrix}
$$

1. U - Upper triangular matrix (верхне треугольная матрица)

$$ U =
\begin{bmatrix}
a_{11} & a_{12} & a_{13}\\
0 & a_{22} & a_{23}\\
0 & 0 & a_{33}
\end{bmatrix}
$$

Тогда, допустим следующая система решалась бы простым исключением переменных:

$$
\begin{align}
\begin{bmatrix}
a_{11} & a_{12} & a_{13}\\
0 & a_{22} & a_{23}\\
0 & 0 & a_{33}
\end{bmatrix} 
\begin{bmatrix}
x_1\\
x_2\\
x_3\\
\end{bmatrix} = 
\begin{bmatrix}
{b_1}\\
{b_2}\\
{b_3}\\
\end{bmatrix}\\
x_{3}a_{33} = b_3 \quad \Rightarrow \quad x_3^{*} = \frac{b_3}{a_{33}} \\
x_{2}a_{22} + x_3^{*}a_{23} = b_2 \quad \Rightarrow \quad x_2^{*} = \frac{b_2 - x_3^{*}a_{23}}{a_{22}} \\
x_{1}a_{11}+ x_2^{*}a_{12} + x_3^{*}a_{13} = b_1 \quad \Rightarrow \quad x_1^{*} = \frac{b_1 - x_2^{*}a_{12} - x_3^{*}a_{13} }{a_{11}}
\end{align}
$$

Таким образом, система $N\times N$ решается за $\frac{N(N-1)}{2}$ вычетаний и умножений и $N$ делений, что похоже на $O(N^2)$

### Gaussian Elimination in matrix forms

Метод исключения Гаусса основан на том, чтобы привести матрицу к такому виду. Метод Гаусса начинается с вычитания первой строки из остальных строк, чтобы занулить первый столбец, тем самым исключая переменную $x_1$ (определяя ее). Затем та же процедура повторяется для остальных столбцов.

Данную процедуру можно описать путем умножения матриц, например:

$$
A = 
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix} 
$$

Чтобы занулить первый столбец надо вычесть из 2 строчки первую 1 раз и 0.5 раз из 3 строчки вычесть первую, в матричной форме это записывается следующим образом. Мы конечно же могли бы вычитать строчки из строчек но...

### Преобразование Хаусхольдера (кратко)

$$
w^{\top}w = 1, \quad P = \mathbf{I} - 2w^{\top}w - \text{матрица Хаусхольдера}
$$

Для данной матрицы есть несколько полезных свойств, например **симметричность и ортогональность** (доказать?):

$$
Pw = -w \\
x,y: ||x|| = ||y||, \, P = \mathbf{I} - 2w^{\top}w , \, \text{где} \, w = \frac{(x-y)}{||x-y||_2} \\
Px = y
$$

Что означает, что для любых векторов $x,y, ||x|| = ||y||$ существует матрица хаусхольдера с помощью которой мы можем $x \rightarrow y$

Итак, для матрицы $A$ мы хотим превратить $x_1 = (4,4,2) \rightarrow y_1 = (*,0,0)$, найдем этот вектор, $||x_1|| = 36 \rightarrow y_1 = (6,0,0)$

$$
w = \frac{
\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}}{||\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}||} = \begin{pmatrix} \frac{-1}{6}\\ \frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} \end{pmatrix}
$$ 

$$
w^{\top}w = \begin{bmatrix}
\frac{1}{6} & \frac{-2}{6} & \frac{-1}{6}\\
\frac{-2}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{-1}{6} & \frac{2}{6} & \frac{1}{6}
\end{bmatrix}\\
\newline
P = \mathbf{I} - 2w^{\top}w  = 
\begin{bmatrix}
\frac{4}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{4}{6} & - \frac{2}{6} & -\frac{4}{6}\\
\frac{2}{6} & -\frac{4}{6} & \frac{4}{6}
\end{bmatrix}\\
P\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} = \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}
$$

Ну а для получения матрицы данного преобразования:

$$
PA = \begin{bmatrix}
6 & 7 & \frac{13}{3}\\
0 & -1 & -\frac{5}{3}\\
0 & 0 & \frac{2}{3}
\end{bmatrix}
$$

Аналогичные преобразования можно получать и для строчек (минусая столбцы) умножая на матрицу Хаусхольдера справа $AP$, аналогично сводя матрицу к треугольному виду

### Теперь попроще 

Преобразования Хаусхольдера являются **общим** способом сведения матриц к треугольному виду, и о них будет позже, а если мы точно знаем какие операции нужно проводить для сведения матриц к треугольному (ступенчатому) виду, то можно воспользоваться следующим:
> Домножая матрицу слевой стороны на единичную $\mathbf{I}$, у которой на $(i, j)_{i \neq j}$ позициях находятся элементы , которые обозначают следующие операции: "вычти из $i$ строчки $j$ строчку", если элемент $-m_{ij}$, и сложи строчки если $m_{ij}$

В данной операции на месте $m_{21} = -1$, что означает вычитание из 2 строчки первой

$$
\begin{align}
M_{1}A =
\begin{bmatrix}
1 & 0 & 0\\
-1 & 1 & 0\\
-0.5 & 0 & 1
\end{bmatrix} 
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix}  = 
\begin{bmatrix}
4 & 4 & 2\\
0 & 1 & 1\\
0 & 1 & 2
\end{bmatrix} \\ 
\newline
M_{2}M_{1}A = 
\begin{bmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & -1 & 1
\end{bmatrix}
\begin{bmatrix}
4 & 4 & 2\\
0 & 1 & 1\\
0 & 1 & 2
\end{bmatrix} = 
\begin{bmatrix}
4 & 4 & 2\\
0 & 1 & 1\\
0 & 0 & 1
\end{bmatrix} = U
\end{align}
$$

В итоге получаем,

$$
M_{2}M_{1}Ax = Ux = M_{2}M_{1}b
$$

Что уже решается делом техники, нужно лишь найти произведение $M_{2}M_{1}b$

Также можно заметить, что $M_{2}M_{1}A = U$ можно переписать в $A = LU$, где $L = M_1^{-1}M_2^{-1}$

$
L = M_1^{-1}M_2^{-1} = \begin{bmatrix}
1 & 0 & 0\\
1 & 1 & 0\\
0.5 & 0 & 1
\end{bmatrix}\begin{bmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 1 & 1
\end{bmatrix} = \begin{bmatrix}
1 & 0 & 0\\
1 & 1 & 0\\
0.5 & 1 & 1
\end{bmatrix}
$

Где все суб-диагональные элементы в $L$ это множители Гаусса, c которыми мы сталкнулись при процедуре исключения переменных. 

**Как правило $LU$ разложение и ассоциируется с методом Гаусса.**

При получении $LU$ разложения остается только лишь дважды решить систему с треугольными матрицами.

## LU разложение

* LU разложение считается самым дешевым матричным разложением $O(\frac{2}{3}n^3)$
* LU - не стабильный алгоритм. 

Нам нужны гарантии того, что ведущий элемент ненулевой, мы не делим на ноль.

Например

$
A = \begin{bmatrix}
1 & 1 & 1\\
2 & 2 & 5\\
4 & 6 & 8
\end{bmatrix}, \, M_1 = \begin{bmatrix}
1 & 0 & 0\\
-2 & 1 & 0\\
-4 & 0 & 1
\end{bmatrix}, \, M_1A = \begin{bmatrix}
1 & 1 & 1\\
0 & 0 & 3\\
0 & 2 & 4
\end{bmatrix}, \quad \text{алгоритм ломается, так как придется делить на 0}
$

Либо, $\epsilon=0$

$
A = \begin{bmatrix}
1 & 1 & 1\\
2 & 2 +\epsilon & 5\\
4 & 6 & 8
\end{bmatrix}, \, M_1A = \begin{bmatrix}
1 & 1 & 1\\
0 & \epsilon & 3\\
0 & 2 & 4
\end{bmatrix}, \, M_2 = \begin{bmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & -\frac{2}{\epsilon} & 1
\end{bmatrix}, \, M_2M_1A = \begin{bmatrix}
1 & 1 & 1\\
0 & \epsilon & 3\\
0 & 0 & 4 - \frac{6}{\epsilon}
\end{bmatrix}, \, L = M_1^{-1}М_2^{-1} = \begin{bmatrix}
1 & 0 & 0\\
2 & 1 & 0\\
4 & \frac{2}{\epsilon} & 1
\end{bmatrix}\\
\epsilon > 0 \, (small) \rightarrow (4 - \frac{6}{\epsilon}) \rightarrow - \frac{6}{\epsilon} \\
\tilde U = \begin{bmatrix}
1 & 1 & 1\\
0 & \epsilon & 3\\
0 & 0 &  - \frac{6}{\epsilon}
\end{bmatrix}, \, \tilde L \tilde U = \begin{bmatrix}
1 & 1 & 1\\
2 & 2 +\epsilon & 5\\
4 & 6 & 4
\end{bmatrix} \neq A
$

### PLU разложение

А что, если бы мы могли как нибудь поменять местами строчки, например $2\longleftrightarrow3$, данная операция выплняется через следующее матричное умножение:
> умножая на единичную матрицу $(i,j)_{i=j} = 1$ матрица не меняется, умножение в таком виде говорит нам о том, что $i$-ая строчка находится в $j$-ом индексе, но если переставить единицы по строчкам то получится и смена строчек после умножения

Сейчас мы хотим переставить 2 и 3 строчки, тогда $1$ из 2 строчки единичной матрицы должна стоять в 3 столбце, а 1 из 3 строчки единичной матрицы должна стоять во 2 столбце. **Такие матрицы называются матрицами перестановок со свойством** $\mathbf{P^{-1} = P^{\top}}$

$
P_1M_1A = \begin{bmatrix}
1 & 0 & 0\\
0 & 0 & 1\\
0 & 1 & 0
\end{bmatrix}
\begin{bmatrix}
1 & 1 & 1\\
0 & 0 & 3\\
0 & 2 & 4
\end{bmatrix} = \begin{bmatrix}
1 & 1 & 1\\
0 & 2 & 4\\
0 & 0 & 3
\end{bmatrix}
$

Идея состоит в том чтобы на шаге $k$ найти максимальный элемент в столбце под текущей переменной $x_k$ и поменять эту строчку $k$ со строкой, которая содержит $x_{max_k}$

Общий вывод PLU разложения:

$
PA = LU \\
LUx = P^{\top}b\\
Ly = \tilde b \\
Ux = y
$

**LU Теорема. Для каждой матрицы полного ранга** $\mathbf{R^{n\times n}}$ **существует матрица перестановок P, такая что матрица PA может быть представлена через LU разложение, где L - нижне тругольная матрица со всеми диагональными элементами 1**

**Доказательство:**

Если матрица полного ранга то с помощью перестановки

$
P_1A = \begin{bmatrix}
a_{11} & A_{12}\\
A_{21} & A_{22} 
\end{bmatrix}, P_1a_{11}\neq0, = \begin{bmatrix}
1 & 0\\
\frac{A_{21}}{a_{11}} & \mathbf{I} 
\end{bmatrix}
\begin{bmatrix}
a_{11} & A_{12}\\
0 & S 
\end{bmatrix}\\
S = A_{22} - a_{11}^{-1}A_{21}A_{12}\\
\mathbb{det}(A)\neq 0, \mathbb{det}(S)\neq 0, \, \text{продолжаем разложение по индукции для S}
$

Где $S$ является дополнением Шура матрицы $A$ к элементу $A_{22}$, дополнение Шура играет ключевую роль в алгоритмических приложениях для решения блочных систем уравнений методом Гаусса/LU разложением.

### Блочный метод Гаусса