## Линейные системы

В лекции про $LU$ разложение мы обуславливались, что в системе $Ax = b$ работаем с квадратными матрицами $A \in R^{n\times n}$ и также говорили, что такие системы называются определенными. Но нам также надо считать решение и для других систем, в этом блоке будут разобраны **переопределенные системы**, когда $A \in R^{m\times n}, m > n$. Пример такой системы $A \in R^{3\times 2}$ (3 наблюдения, 2 атрибута):

$
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
7 \\
2
\end{bmatrix}
$

Мы разумеется могли бы сделать $LU$ разложение для данной матрицы:

$
A = 
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix}, b = 
\begin{bmatrix}
-1 \\
7 \\
2
\end{bmatrix}
$

$
\begin{aligned}
& PA = LU \\
&\begin{bmatrix}
1 & 0 & 0 \\
0 & 0 & 1 \\
0 & 1 & 0
\end{bmatrix}
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix} = 
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
\frac{4}{3} & 0 & 1
\end{bmatrix}
\begin{bmatrix}
3 & -6 \\
0 & 1 \\
0 & 0
\end{bmatrix} \\
&\tilde b = 
\begin{bmatrix}
-1 \\
2 \\
7 
\end{bmatrix} \\
& Ly = \tilde b, \quad \begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
\frac{4}{3} & 0 & 1
\end{bmatrix}
\begin{bmatrix}
y_1 \\
y_2 \\
y_3
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
2 \\
7 
\end{bmatrix}, \quad \tilde y = (-1, 2, \frac{25}{3}) \\
& Ux = \tilde y, \quad \begin{bmatrix}
3 & -6 \\
0 & 1 \\
0 & 0
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
2 \\
\frac{25}{3}
\end{bmatrix}, \quad \tilde x = (\frac{11}{3}, 2)
\end{aligned}
$

Но увы, данное решение нам не подходить, так как в данном случае оно удовлетворяет только 2 наблюдениям из 3, а последнее игнорируется, это можно было заметить в самом начале разложение, где матрица $U$ имела нулевую строку, в общем, любое уравнение вида $A \in R^{m\times n}, m > n$ будет иметь $(m-n)$ нулевых строк, а нулевые строчки никак не адаптируют полученное решение из ненулевых строк. То есть решение системы $Ax =b$, полученное с помощью $LU$ алгоритма инвариантно к $(m-n)$ наблюдением и решает задачу только для $n$ ведущих миноров.

### Метод наименьших квадратов

Предположим, что у нас есть матрица $A \in R^{m\times n}, m > n$, как мы только что показали, в общем случае мы не можем решить такую систему, и единственное, что мы можем сделать - это минимизировать ошибку нашего решения. Запишем задачу:

$$
\begin{aligned}
\text{argmin}_{x} ||Ax - b||^2 \\
\end{aligned}
$$

Поиск такого вектора $x$, удовлетворяющего задаче минимизации ошибки выше и называется **методом наименьших квадратов**. Решение такой задачи методом градиентного спуска - тема будующих лекций, но на данном этапе мы рассмотрим следующий способ решения.

$
\begin{aligned}
&F(x) = ||Ax - b||^2 = (Ax - b)^{\top}(Ax - b) = x^{\top}A^{\top}Ax - 2x^{\top}A^{\top}b + b^{\top}b \\
&\nabla F(x) = 2(A^{\top}Ax - A^{\top}b) = 0 \\
&A^{\top}Ax = A^{\top}b, \quad A^{\top}(Ax - b) = 0
\end{aligned}
$

Последнее уравнение называется **нормальным уравнением**, потому что данное уравнение задает соотношение ортогогнальности между вектором ошибок $r = Ax - b$ и любым вектором $Ay$ из пространства $A$. Нам важно это соотношение тем, что остаток (ошибка) полученная методом наименьштх квадратов не зависит от направлений пространства матрицы $A$, то есть наша ошибка не смещена по какому-либо направлению и не может быть воспроизведена любой линейной комбинацией пространства $A$.

#### Решение через ортогональные преобразования

Напомню, что класс ортогональных матриц, если вы поворачиваете или отображаете вектор, не меняет длину вектора (его норму), например $||Qy||^2 = (Qy)^{\top}(Qy) = y^{\top}Q^{\top}Qy = ||y||^2$

Следовательно, если мы сделаем следующее преобразование, то логика поиска $x$ не изменится: $\text{argmin}_{x} ||Q^{\top}(Ax - b)||^2 = \text{argmin}_x||Q^{\top}Ax - Q^{\top}b||^2$, и наш план состоит в том, чтобы применить к A последовательность ортогональных преобразований $Q$, которые приведут еe к верхнетреугольной форме. Это создаст эквивалентную, легко решаемую проблему. Для нашего примера выше:

$
\newcommand\norm[1]{\left\lVert#1\right\rVert}
\text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2 = \text{argmin}_{x\in\mathbb{R}^2}
\norm{
\begin{bmatrix}
r_{11} & r_{12} \\
0 & r_{22} \\
0 & 0
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} -
\begin{bmatrix}
\tilde b_1 \\
\tilde b_2 \\
\tilde b_3
\end{bmatrix}
}^2
$

Где $\tilde b = Q^{\top}b$, заметим, что неважно какие $x_1, x_2$ мы подберем, сумма квадратов ошибок будет как минимум $\tilde b_3^2$, поэтому мы можем вычеркнуть последнюю строчку и решать следующую систему как обычно:

$
\begin{bmatrix}
r_{11} & r_{12} \\
0 & r_{22}
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
\tilde b_1 \\
\tilde b_2 
\end{bmatrix}
$

Таким образром, нам надо свести матрицу $A$ верхнетреугольной форме, но задача легче от этого не становится. Нам все еще надо решить следующее - $\text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2$, то есть подобрать какую-то последовательность ортогональных преобразований $Q$, и было бы гораздо легче, если бы существовало следующее разложение $A = QR$, тогда бы наша задача превратилась бы в:

$
\begin{aligned}
& \text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2, \, A = QR \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}QRx - Q^{\top}b||^2 \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Rx - Q^{\top}b||^2 \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Rx - \tilde b||^2, \, Q^{\top}b = \tilde b \\
& Rx = \tilde b
\end{aligned}
$

Оказывается такое разложение существует и называется $\mathbf{QR}\textbf{-разложение!}$, но о нем немного позже.

#### Решение через нормальное уравнение

Также можно попробовать решить данную задачу в текущем сетапе без подбора ортогонального преобразования из полученного ранее **нормального уравнения**.

Для заданной матрицы $A \in \mathbb{R}^{m\times n}$ с рангом $rank(A) = n$ и $b \in \mathbb{R}^{n}$, мы найдем такой вектор $x_{ls}$, удовлетворяющий нормальному уравнению. 

$
\begin{aligned}
& A^{\top}Ax = A^{\top}b \\
& \text{Посчитать} \, C = A^{\top}A \\
& \text{Посчитать} \, d = A^{\top}b \\
& \text{Разложение Холецкого:} \, C = GG^{\top} \\
& \text{Решить} \, Gy =d, \, G^{\top}x_{ls} = y 
\end{aligned}
$

## QR разложение

**Теорема. Любая $\mathbf{A \in \mathbb{R}^{m \times n}}$ может быть разложена на произведение ортогональной матрицы $\mathbf{Q \in \mathbb{R}^{m \times m}}$ и верхнетреугольной матрицы $\mathbf{R \in \mathbb{R}^{m \times n}}$.**

Также существуют и другие записи в части размеров матриц разложения: $\mathbf{Q \in \mathbb{R}^{m \times n}}, \mathbf{R \in \mathbb{R}^{n \times n}}$ как вариант одной из записей, но данный вопрос касается программирования и численных алгоритов, в линейной алгебре матрица $Q$ - ортогональна (унитарна), а следовательно квадратна.

### QR разложение через процедуру Грамма-Шмидта

#### Внешнее произведение (outer product)

Тут следует немного углубиться в детали внешнего произведения и его геометрических интепретаций.

Начнем с более подобного рассмотрения этого разложения. $QR$ разложение можно представить как сумму внешних произведений (outer product) колонок матрицы $Q$ и строчек матрицы $R$. Само внешнее произведение $ww^{\top}$ определяет проекцию по направлению вектора $w$. Проекция вектора на линию (или, в более общем смысле, подпространство) — это ближайшая точка на этой линии к исходному вектору. Если $w$ — вектор, определяющий направление линии, проекция любого вектора y на линию по w можно описать матрицей $ww^{\top}$. Разумеется матрица $ww^{\top}$ обладает всеми свойствами проекций. 

Если $w$ - единичный вектор, то матрица $P = ww^{\top}$ задает матрицу проекции на линюю, задаваемую вектором $w$. $Px = w(w^{\top}x)$, где $w^{\top}x$ - скалярное произведение, которое задает скалярную проекцию векторф $x$ на вектор $w$, то есть длину вектора $x$, лежащую по направлению вектора $w$, далее умножая на $w$ получаем векторную проекцию вектора $x$ по направлению вектора $w$. Таким образом внешнее произведение $ww^{\top}$ берет любой вектор $x$ и возращает ту часть, которая лежит по напралению $w$, эффективно исключая компоненты, ортогональные данному направлению, например мы хотем найти проекцию вектора $b = (5,3)$ на вектор $a = (1,2)$, посчитаем внешнее произведение:

$
aa^{\top} = 
\begin{pmatrix}
1 \\
2
\end{pmatrix}
\begin{pmatrix}
1 & 2
\end{pmatrix} = 
\begin{pmatrix}
1 & 2 \\
2 & 4
\end{pmatrix}
$
и далее посчитаем матрично-векторное произведение 
$
\begin{pmatrix}
1 & 2 \\
2 & 4
\end{pmatrix}
\begin{pmatrix}
5 \\
3
\end{pmatrix} = 
\begin{pmatrix}
11 \\
22
\end{pmatrix} = 11 \begin{pmatrix}
1 \\
2
\end{pmatrix}
$

В данном примере, мы не задавали ограничение на единичность вектора, на который собирались делать отображение. И математически, мы посчитали следующее: $a^{\top}b = ||a||||b||\cos\theta$ - угол между векторами не нормированный на длины векторов, тогда проекцией является длина катета треугольника на стороне вектора $a$ (расстояние от начала векторов до перпендикуляра) и это $proj_a(b) = ||b||\cos\theta = \frac{a^{\top}b}{||a||}$, а чтобы расчитать векторную составляющую компоненты $b$ по вектору $a$ надо домножить длину катета на нормированный вектор $\frac{a}{||a||}$, и того $\overset{\rightharpoonup}{\text{proj}}_a(b) = \frac{aa^{\top}}{a^{\top}a}b$

#### Продолжение процедуры Грамма Шмидта

#### Преобразование Хаусхольдера 

$$
w^{\top}w = 1, \quad P = \mathbf{I} - 2ww^{\top} - \text{матрица Хаусхольдера}
$$

Для данной матрицы есть несколько полезных свойств, например **симметричность и ортогональность**:

**Доказательство симметричности:**

$
P^{\top} = (\mathbf{I} - 2ww^{\top})^{\top} = \mathbf{I} - 2(w^{\top})^{\top}w^{\top} = \mathbf{I} - 2ww^{\top}
$

**Доказательство ортогональности:**

$
PP^{\top} = (\mathbf{I} - 2ww^{\top})(\mathbf{I} - 2ww^{\top}) = \mathbf{I} - 4ww^{\top} + 4ww^{\top}ww^{\top} = \mathbf{I} - 4ww^{\top} + 4w(w^{\top}w)w^{\top} = \mathbf{I} - 4ww^{\top} + 4ww^{\top} = \mathbf{I}
$

И некоторые другие свойства касательно матрицы Хаусхольдера:

a) $Pw = -w$ и для любого $x\perp w, \, w^{\top}x = 0 \rightarrow Px = x$ говорит нам о том, что матрица $P$ имеет собственное значение $\lambda_1 = 1$ кратности $(n-1)$ и $\lambda_{n} = -1$

**Доказательство**.

$
\begin{aligned}
Pw = w - 2ww^{\top}w = -w
\end{aligned}
$

б) $x,y: ||x|| = ||y||, \, P = \mathbf{I} - 2ww^{\top} , \, \text{где} \, w = \frac{(x-y)}{||x-y||_2} $

$Px = y$

**Доказательство**. Предположим, что $Px = y$:

$
\begin{align}
x - &2\frac{(x-y)}{||x-y||_2}\frac{(x-y)^{\top}}{||x-y||_2}x = y \\
(x-y) - &\frac{(x-y)(x-y)^{\top}}{||x-y||^2_2}x = 0 \\
\frac{(x-y)}{||x-y||^2_2}&(||x-y||^2_2 - 2(x-y)^{\top}x) = 0 \\
\frac{(x-y)}{||x-y||^2_2}&((x-y)(x-y)^{\top} - 2(x-y)^{\top}x) = 0 \\
\frac{(x-y)}{||x-y||^2_2}&(xx^{\top}-xy^{\top}-yx^{\top}+yy^{\top}-2x^{\top}x+2y^{\top}x) = 0 
\end{align}
$

Что означает, что для любых векторов $x,y, ||x|| = ||y||$ существует матрица хаусхольдера с помощью которой мы можем $x \rightarrow y$

Матрица Хаусхолдера (или отражения Хаусхольдера) похожи на преобразования Гаусса в том, что они могут использоваться для обнуления выбранных компонентов вектора. В частности, предположим, что нам дан $x \in \mathbb{R}^{m}$ и мы хотим найти такую матрицу $P$:

$
Px = 
\begin{pmatrix}
||x||_2 \\
0 \\
\vdots \\
0
\end{pmatrix}
$

Отнормируем матрицу Хаусхольдера и перепишем ее в общем виде без добавления ограничения на его норму $P = \mathbf{I} - 2\frac{ww^{\top}}{w^{\top}w}$, вектор $w$ выбирается таким образом, что при применении преобразования Хаусхолдера к $x$ получается вектор, кратный стандартному базисному вектору $e_1 = (1, 0, \dots, 0)^{\top}$. Мы назначаем такой вектор $w = x + \alpha e_1$ для некоторого скаляра $\alpha$, где $e_1$ — первый стандартный базисный вектор в $\mathbb{R}^m$. Выбор $\alpha$ имеет решающее значение для обеспечения того, чтобы преобразованный вектор $Px$ имел нули в желаемых позициях. Для достижения нашей задачи мы накладываем такое условие, что $Px$ должно быть кратно $e_1$. Это приводит нас к решению для $\alpha$, при котором коэффициент при $x$ в преобразованном векторе становится равным нулю.

$
\begin{aligned}
&w^{\top}x = x^{\top}x + \alpha x_1 \\
&w^{\top}w = x^{\top}x + 2\alpha x_1 + \alpha^2 \\
&Px = x - 2\frac{w^{\top}x}{w^{\top}w}w \\
&Px = x - 2\frac{(x + \alpha e_1)(x^{\top}x + \alpha x_1 )}{x^{\top}x + 2\alpha x_1 + \alpha^2} \\
&Px = (1 - \frac{x^{\top}x + \alpha x_1}{x^{\top}x + 2\alpha x_1 + \alpha^2})x - 2\alpha\frac{w^{\top}x}{w^{\top}w}e_1 \\
&Px = (\frac{\alpha^2 - ||x||_2^2}{x^{\top}x + 2\alpha x_1 + \alpha^2})x - 2\alpha\frac{w^{\top}x}{w^{\top}w}e_1
\end{aligned}
$

Чтобы коэффициент при $x$ был нулевой выбираем $\alpha = ||x||_2$, тогда:

$
w = x + ||x||_2 e_1 \rightarrow Px = (\mathbf{I} - 2\frac{ww^{\top}}{w^{\top}w})x = ||x||_2e_1
$


**Пример**

$
A = 
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix}
$

Для матрицы $A$ мы хотим превратить $x_1 = (4,4,2) \rightarrow y_1 = (*,0,0)$, найдем этот вектор, $||x_1|| = 36 \rightarrow y_1 = (6,0,0)$

$$
w = \frac{
\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}}{||\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}||} = \begin{pmatrix} \frac{-1}{6}\\ \frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} \end{pmatrix}
$$ 

$$
w^{\top}w = \begin{bmatrix}
\frac{1}{6} & \frac{-2}{6} & \frac{-1}{6}\\
\frac{-2}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{-1}{6} & \frac{2}{6} & \frac{1}{6}
\end{bmatrix}\\
\newline
P = \mathbf{I} - 2w^{\top}w  = 
\begin{bmatrix}
\frac{4}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{4}{6} & - \frac{2}{6} & -\frac{4}{6}\\
\frac{2}{6} & -\frac{4}{6} & \frac{4}{6}
\end{bmatrix}\\
P\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} = \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}
$$

Ну а для получения матрицы данного преобразования:

$$
PA = \begin{bmatrix}
6 & 7 & \frac{13}{3}\\
0 & -1 & -\frac{5}{3}\\
0 & 0 & \frac{2}{3}
\end{bmatrix}
$$

Аналогичные преобразования можно получать и для строчек (минусая столбцы) умножая на матрицу Хаусхольдера справа $AP$, аналогично сводя матрицу к треугольному виду

Таким образом имеем $QR$ разложение для матрицы $A$:

$
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix} = 
\begin{bmatrix}
\frac{4}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{4}{6} & - \frac{2}{6} & -\frac{4}{6}\\
\frac{2}{6} & -\frac{4}{6} & \frac{4}{6}
\end{bmatrix}
\begin{bmatrix}
6 & 7 & \frac{13}{3}\\
0 & -1 & -\frac{5}{3}\\
0 & 0 & \frac{2}{3}
\end{bmatrix}
$

надо написать почему $w = x +ae$

#### Вращение Гивенса