# Линейные системы

В лекции про $LU$ разложение мы обуславливались, что в системе $Ax = b$ работаем с квадратными матрицами $A \in R^{n\times n}$ и также говорили, что такие системы называются определенными. Но нам также надо считать решение и для других систем, в этом блоке будут разобраны **переопределенные системы**, когда $A \in R^{m\times n}, m > n$. Пример такой системы $A \in R^{3\times 2}$ (3 наблюдения, 2 атрибута):

$
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
7 \\
2
\end{bmatrix}
$

Мы разумеется могли бы сделать $LU$ разложение для данной матрицы:

$
A = 
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix}, b = 
\begin{bmatrix}
-1 \\
7 \\
2
\end{bmatrix}
$

$
\begin{aligned}
& PA = LU \\
&\begin{bmatrix}
1 & 0 & 0 \\
0 & 0 & 1 \\
0 & 1 & 0
\end{bmatrix}
\begin{bmatrix}
3 & -6 \\
4 & -8 \\
0 & 1
\end{bmatrix} = 
\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
\frac{4}{3} & 0 & 1
\end{bmatrix}
\begin{bmatrix}
3 & -6 \\
0 & 1 \\
0 & 0
\end{bmatrix} \\
&\tilde b = 
\begin{bmatrix}
-1 \\
2 \\
7 
\end{bmatrix} \\
& Ly = \tilde b, \quad \begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
\frac{4}{3} & 0 & 1
\end{bmatrix}
\begin{bmatrix}
y_1 \\
y_2 \\
y_3
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
2 \\
7 
\end{bmatrix}, \quad \tilde y = (-1, 2, \frac{25}{3}) \\
& Ux = \tilde y, \quad \begin{bmatrix}
3 & -6 \\
0 & 1 \\
0 & 0
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
-1 \\
2 \\
\frac{25}{3}
\end{bmatrix}, \quad \tilde x = (\frac{11}{3}, 2)
\end{aligned}
$

Но увы, данное решение нам не подходить, так как в данном случае оно удовлетворяет только 2 наблюдениям из 3, а последнее игнорируется, это можно было заметить в самом начале разложение, где матрица $U$ имела нулевую строку, в общем, любое уравнение вида $A \in R^{m\times n}, m > n$ будет иметь $(m-n)$ нулевых строк, а нулевые строчки никак не адаптируют полученное решение из ненулевых строк. То есть решение системы $Ax =b$, полученное с помощью $LU$ алгоритма инвариантно к $(m-n)$ наблюдением и решает задачу только для $n$ ведущих миноров.

## Метод наименьших квадратов

Предположим, что у нас есть матрица $A \in R^{m\times n}, m > n$, как мы только что показали, в общем случае мы не можем решить такую систему, и единственное, что мы можем сделать - это минимизировать ошибку нашего решения. Запишем задачу:

$$
\begin{aligned}
\text{argmin}_{x} ||Ax - b||^2 \\
\end{aligned}
$$

Поиск такого вектора $x$, удовлетворяющего задаче минимизации ошибки выше и называется **методом наименьших квадратов**. Решение такой задачи методом градиентного спуска - тема будующих лекций, но на данном этапе мы рассмотрим следующий способ решения.

$
\begin{aligned}
&F(x) = ||Ax - b||^2 = (Ax - b)^{\top}(Ax - b) = x^{\top}A^{\top}Ax - 2x^{\top}A^{\top}b + b^{\top}b \\
&\nabla F(x) = 2(A^{\top}Ax - A^{\top}b) = 0 \\
&A^{\top}Ax = A^{\top}b, \quad A^{\top}(Ax - b) = 0
\end{aligned}
$

Последнее уравнение называется **нормальным уравнением**, потому что данное уравнение задает соотношение ортогогнальности между вектором ошибок $r = Ax - b$ и любым вектором $Ay$ из пространства $A$. Нам важно это соотношение тем, что остаток (ошибка) полученная методом наименьштх квадратов не зависит от направлений пространства матрицы $A$, то есть наша ошибка не смещена по какому-либо направлению и не может быть воспроизведена любой линейной комбинацией пространства $A$.

#### Решение через ортогональные преобразования

Напомню, что класс ортогональных матриц, если вы поворачиваете или отображаете вектор, не меняет длину вектора (его норму), например $||Qy||^2 = (Qy)^{\top}(Qy) = y^{\top}Q^{\top}Qy = ||y||^2$

Следовательно, если мы сделаем следующее преобразование, то логика поиска $x$ не изменится: $\text{argmin}_{x} ||Q^{\top}(Ax - b)||^2 = \text{argmin}_x||Q^{\top}Ax - Q^{\top}b||^2$, и наш план состоит в том, чтобы применить к A последовательность ортогональных преобразований $Q$, которые приведут еe к верхнетреугольной форме. Это создаст эквивалентную, легко решаемую проблему. Для нашего примера выше:

$
\newcommand\norm[1]{\left\lVert#1\right\rVert}
\text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2 = \text{argmin}_{x\in\mathbb{R}^2}
\norm{
\begin{bmatrix}
r_{11} & r_{12} \\
0 & r_{22} \\
0 & 0
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} -
\begin{bmatrix}
\tilde b_1 \\
\tilde b_2 \\
\tilde b_3
\end{bmatrix}
}^2
$

Где $\tilde b = Q^{\top}b$, заметим, что неважно какие $x_1, x_2$ мы подберем, сумма квадратов ошибок будет как минимум $\tilde b_3^2$, поэтому мы можем вычеркнуть последнюю строчку и решать следующую систему как обычно:

$
\begin{bmatrix}
r_{11} & r_{12} \\
0 & r_{22}
\end{bmatrix}
\begin{bmatrix}
x_1 \\
x_2
\end{bmatrix} = 
\begin{bmatrix}
\tilde b_1 \\
\tilde b_2 
\end{bmatrix}
$

Таким образром, нам надо свести матрицу $A$ верхнетреугольной форме, но задача легче от этого не становится. Нам все еще надо решить следующее - $\text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2$, то есть подобрать какую-то последовательность ортогональных преобразований $Q$, и было бы гораздо легче, если бы существовало следующее разложение $A = QR$, тогда бы наша задача превратилась бы в:

$
\begin{aligned}
& \text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}Ax - Q^{\top}b||^2, \, A = QR \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Q^{\top}QRx - Q^{\top}b||^2 \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Rx - Q^{\top}b||^2 \\
& \text{argmin}_{x\in\mathbb{R}^2} \||Rx - \tilde b||^2, \, Q^{\top}b = \tilde b \\
& Rx = \tilde b
\end{aligned}
$

Оказывается такое разложение существует и называется $\mathbf{QR}\textbf{-разложение!}$, но о нем немного позже.

#### Решение через нормальное уравнение

Также можно попробовать решить данную задачу в текущем сетапе без подбора ортогонального преобразования из полученного ранее **нормального уравнения**.

Для заданной матрицы $A \in \mathbb{R}^{m\times n}$ с рангом $rank(A) = n$ и $b \in \mathbb{R}^{n}$, мы найдем такой вектор $x_{ls}$, удовлетворяющий нормальному уравнению. 

$
\begin{aligned}
& A^{\top}Ax = A^{\top}b \\
& \text{Посчитать} \, C = A^{\top}A \\
& \text{Посчитать} \, d = A^{\top}b \\
& \text{Разложение Холецкого:} \, C = GG^{\top} \\
& \text{Решить} \, Gy =d, \, G^{\top}x_{ls} = y 
\end{aligned}
$

## QR разложение

**Теорема (QR разложение). Любая $\mathbf{A \in \mathbb{R}^{m \times n}}$ может быть разложена на произведение ортогональной матрицы $\mathbf{Q \in \mathbb{R}^{m \times m}}$ и верхнетреугольной матрицы $\mathbf{R \in \mathbb{R}^{m \times n}}$.**

**Теорема (Узкое QR разложение). Любая $\mathbf{A \in \mathbb{R}^{m \times n}}$ имеющая полный ранг по колонкам тогда узкое QR разложение $\mathbf{A = Q_1R_1}$, где $\mathbf{Q_1 \in \mathbb{R}^{m \times n}}$ уникальная матрица с ортонормальными колоноками, и верхнетреугольная матрица $\mathbf{R_1 \in \mathbb{R}^{n \times n}}$.**

### QR разложение через процедуру Грамма-Шмидта

#### Внешнее произведение (outer product)

Тут следует немного углубиться в детали внешнего произведения и его геометрических интепретаций.

Начнем с более подобного рассмотрения этого разложения. $QR$ разложение можно представить как сумму внешних произведений (outer product) колонок матрицы $Q$ и строчек матрицы $R$. Само внешнее произведение $ww^{\top}$ определяет проекцию по направлению вектора $w$. Проекция вектора на линию (или, в более общем смысле, подпространство) — это ближайшая точка на этой линии к исходному вектору. Если $w$ — вектор, определяющий направление линии, проекция любого вектора y на линию по w можно описать матрицей $ww^{\top}$. Разумеется матрица $ww^{\top}$ обладает всеми свойствами проекций. 

Если $w$ - единичный вектор, то матрица $P = ww^{\top}$ задает матрицу проекции на линюю, задаваемую вектором $w$. $Px = w(w^{\top}x)$, где $w^{\top}x$ - скалярное произведение, которое задает скалярную проекцию векторф $x$ на вектор $w$, то есть длину вектора $x$, лежащую по направлению вектора $w$, далее умножая на $w$ получаем векторную проекцию вектора $x$ по направлению вектора $w$. Таким образом внешнее произведение $ww^{\top}$ берет любой вектор $x$ и возращает ту часть, которая лежит по напралению $w$, эффективно исключая компоненты, ортогональные данному направлению, например мы хотем найти проекцию вектора $b = (5,3)$ на вектор $a = (1,2)$, посчитаем внешнее произведение:

$
aa^{\top} = 
\begin{pmatrix}
1 \\
2
\end{pmatrix}
\begin{pmatrix}
1 & 2
\end{pmatrix} = 
\begin{pmatrix}
1 & 2 \\
2 & 4
\end{pmatrix}
$
и далее посчитаем матрично-векторное произведение 
$
\begin{pmatrix}
1 & 2 \\
2 & 4
\end{pmatrix}
\begin{pmatrix}
5 \\
3
\end{pmatrix} = 
\begin{pmatrix}
11 \\
22
\end{pmatrix} = 11 \begin{pmatrix}
1 \\
2
\end{pmatrix}
$

В данном примере, мы не задавали ограничение на единичность вектора, на который собирались делать отображение. И математически, мы посчитали следующее: $a^{\top}b = ||a||||b||\cos\theta$ - угол между векторами не нормированный на длины векторов, тогда проекцией является длина катета треугольника на стороне вектора $a$ (расстояние от начала векторов до перпендикуляра) и это $proj_a(b) = ||b||\cos\theta = \frac{a^{\top}b}{||a||}$, а чтобы расчитать векторную составляющую компоненты $b$ по вектору $a$ надо домножить длину катета на нормированный вектор $\frac{a}{||a||}$, и того $\overset{\rightharpoonup}{\text{proj}}_a(b) = \frac{aa^{\top}}{a^{\top}a}b$

#### Продолжение процедуры Грамма Шмидта

Произведение $A = QR$ можно рассмотреть как сумму внешних произведений колонок матрицы $Q$ и строчек матрицы $R$

$
\begin{aligned}
A &= \begin{bmatrix} | & | & & | \\ q_1 & q_2 & \cdots & q_n \\  | & | & & |  \end{bmatrix}  \begin{bmatrix} - &  \tilde{r}_1^T & - \\ - & \tilde{r}_2^T & - \\ &  \vdots & \\ - & \tilde{r}_n^T & - \end{bmatrix} \\
&=
\begin{bmatrix} | \\ q_1 \\ | \end{bmatrix} \begin{bmatrix} - &  \tilde{r}_1^T  & - \end{bmatrix}
+ 
\begin{bmatrix} | \\ q_2 \\ | \end{bmatrix} \begin{bmatrix} - &  \tilde{r}_2^T  & - \end{bmatrix}
+ \cdots + \begin{bmatrix} | \\ q_n \\ | \end{bmatrix} \begin{bmatrix} - &  \tilde{r}_n^T  & - \end{bmatrix}
\end{aligned}
$

Например:

$
\begin{bmatrix}
1 & 1 \\
1 & 1
\end{bmatrix} = 
\begin{bmatrix}
\frac{\sqrt{2}}{2} & -\frac{\sqrt{2}}{2} \\
\frac{\sqrt{2}}{2} & \frac{\sqrt{2}}{2}
\end{bmatrix}
\begin{bmatrix}
\sqrt{2} & \sqrt{2} \\
0 & 0
\end{bmatrix} = 
\begin{bmatrix}
\frac{\sqrt{2}}{2} \\
\frac{\sqrt{2}}{2} 
\end{bmatrix}
\begin{bmatrix}
\sqrt{2} & \sqrt{2}
\end{bmatrix} + 
\begin{bmatrix}
-\frac{\sqrt{2}}{2} \\
\frac{\sqrt{2}}{2} 
\end{bmatrix}
\begin{bmatrix}
0 & 0
\end{bmatrix} = 
\begin{bmatrix}
1 & 1 \\
1 & 1
\end{bmatrix} +
\begin{bmatrix}
0 & 0 \\
0 & 0
\end{bmatrix}
$

Однако оказывается, что каждый из этих внешних произведений имеет совершенно особую структуру, то есть каждый из них имеет больше столбцов со всеми нулями. Это связано с тем, что строки $R$ имеют большое количество нулевых элементов, поскольку матрица верхнетреугольная. Рассмотрим небольшой пример для $m=5,n=3$:

$
\begin{aligned}
\underbrace{A}_{5 \times 3} &= \underbrace{Q_1}_{5 \times 3} \underbrace{R}_{3 \times 3} \\
 A &= \begin{bmatrix} a_1 & a_2 & a_3 \end{bmatrix} \\
 A  &=  \begin{bmatrix} q_1 & q_2 & q_3 \end{bmatrix}  \begin{bmatrix} r_1^T \\ r_2^T \\ r_3^T \end{bmatrix} = \begin{bmatrix} q_1 & q_2 & q_3 \end{bmatrix} \begin{bmatrix} \times & \times & \times \\ 0 & \times & \times \\ 0 & 0 & \times \end{bmatrix} =  q_1r_1^T + q_2 r_2^T + q_3 r_3^T \\
      A &= \begin{bmatrix}\times & \times & \times \\ \times & \times & \times \\ \times & \times & \times\\ \times & \times & \times \\ \times & \times & \times \end{bmatrix} +
      \begin{bmatrix} 0 & \times & \times \\ 0 & \times & \times  \\ 0 & \times & \times  \\ 0 & \times & \times  \\ 0 & \times & \times  \end{bmatrix} +
      \begin{bmatrix}  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \end{bmatrix}  \\
\end{aligned}
$

Где $\times$ обозначает потенциально ненулевой элемент матрицы. Рассмотрим очень интересный факт: если выполнена приведенная выше эквивалентность, то вычитая полную матрицу $q_1r_1^{\top}$ мы гарантированно получим матрицу хотя бы с одним нулевым столбцом. Назовем вложенную матрицу $A^{(2)}$:

$
\begin{aligned}
    \begin{bmatrix} | & \\ 0 & A^{(2)} \\ | & \end{bmatrix} &= A - \begin{bmatrix}\times & \times & \times \\ \times & \times & \times \\ \times & \times & \times\\ \times & \times & \times \\ \times & \times & \times \end{bmatrix} = \begin{bmatrix} 0 & \times & \times \\ 0 & \times & \times  \\ 0 & \times & \times  \\ 0 & \times & \times  \\ 0 & \times & \times  \end{bmatrix} +
      \begin{bmatrix}  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \\  0 & 0 & \times \end{bmatrix} \\
\end{aligned}
$

Мы можем обощить процесс получения $A^{(k)}$, в котором будем вычислять столбец матрицы $Q$, который назовем $q_k$:

$
\begin{aligned}
      &A = \sum\limits_{i=1}^n q_r r_i^T = \sum\limits_{i=1}^{k-1} q_i r_i^T + \sum\limits_{i=k}^n q_i r_i^T \\
      &A - \sum\limits_{i=1}^{k-1} q_i r_i^T = \sum\limits_{i=k}^n q_i r_i^T \\
      &\begin{bmatrix} 0 & A^{(k)} \end{bmatrix} e_k = \sum\limits_{i=k}^n q_i r_i^T e_k = q_k r_k^T e_k + q_{k+1} r_{k+1}^T e_k + \cdots + q_n r_n^T e_k = q_k r_{kk} 
\end{aligned}
$

Домнажая на $e_k = (0, \underbrace{\dots}_{k-3}, 0, 1, \dots, 0)$ мы сравниваем $k$-ые колонки с каждой стороны. Проверим, действительно ли это так, возьмем разложение:

$
\begin{aligned}
&\begin{bmatrix}
1 & 0 & 1 \\
1 & 1 & 1 \\
0 & 1 & 1 \\
1 & 1 & 0
\end{bmatrix} = 
\begin{bmatrix}
\frac{\sqrt{3}}{3} & -2\frac{\sqrt{15}}{15} & 3\frac{\sqrt{35}}{35} \\
\frac{\sqrt{3}}{3} & \frac{\sqrt{15}}{15} & \frac{\sqrt{35}}{35} \\
0 & \frac{\sqrt{15}}{5} & 3\frac{\sqrt{35}}{35} \\
\frac{\sqrt{3}}{3} & \frac{\sqrt{15}}{15} & -4\frac{\sqrt{35}}{35}
\end{bmatrix}
\begin{bmatrix}
\sqrt{3} & \frac{2}{3}\sqrt{3} & \frac{2}{3}\sqrt{3} \\
0 & \frac{\sqrt{15}}{3} & 2\frac{\sqrt{15}}{15} \\
0 & 0 & \frac{\sqrt{35}}{5}
\end{bmatrix} = \begin{bmatrix}
1 & \frac{2}{3} & \frac{2}{3} \\
1 & \frac{2}{3} & \frac{2}{3} \\
0 & 0 & 0 \\
1 & \frac{2}{3} & \frac{2}{3}
\end{bmatrix} +
\begin{bmatrix}
0 & -\frac{2}{3} & -\frac{4}{15} \\
0 & \frac{1}{3} & \frac{2}{15} \\
0 & 1 & \frac{2}{5} \\
0 & \frac{1}{3} & \frac{2}{15}
\end{bmatrix} + \\
&\begin{bmatrix}
0 & 0 & \frac{3}{5} \\
0 & 0 & \frac{1}{5} \\
0 & 0 & \frac{3}{5} \\
0 & 0 & -\frac{4}{5}
\end{bmatrix} \\
&\begin{bmatrix}
1 & 0 & 1 \\
1 & 1 & 1 \\
0 & 1 & 1 \\
1 & 1 & 0
\end{bmatrix} - \begin{bmatrix}
1 & \frac{2}{3} & \frac{2}{3} \\
1 & \frac{2}{3} & \frac{2}{3} \\
0 & 0 & 0 \\
1 & \frac{2}{3} & \frac{2}{3}
\end{bmatrix} - \begin{bmatrix}
0 & -\frac{2}{3} & -\frac{4}{15} \\
0 & \frac{1}{3} & \frac{2}{15} \\
0 & 1 & \frac{2}{5} \\
0 & \frac{1}{3} & \frac{2}{15}
\end{bmatrix} = \begin{bmatrix}
0 & 0 & \frac{9}{15} \\
0 & 0 & \frac{3}{15} \\
0 & 0 & \frac{3}{5} \\
0 & 0 & -\frac{12}{15}
\end{bmatrix}
\end{aligned}
$

Можно заметить, что в действительности $a_k$ столбец матрицы $A$ либо первый столбец матрицы $A^{(k)}$ произведение $a_k = q_kr_{kk}$, где $q_k^{\top}q_k = 1$, и:

$
\begin{aligned}
&a_k =  q_k r_{kk} \\
&q_k = \frac{a_k}{r_{kk}} \\
&r_{kk} = \|a_k\|_2      
\end{aligned}
$

Еще одно короткое наблюдение, если мы знаем вектор $q_k^{\top}$, то нам не составит труда посчитать $r_k$, так как колонки матрицы $Q$ ортогональны друг другу и единственное ненулевое произведение, когда $i = k$:

$
\begin{equation}
       q_k^T \begin{bmatrix} 0 & A^{(k)} \end{bmatrix} = q_k^T \Bigg( \sum\limits_{i=k}^n q_i r_i^T \Bigg) = r_k^T
\end{equation}
$

Таким образом, чтобы получить первую колонку матрицы $Q$ и первую строчку матрицы $R$, делаем слелующую процедуру:

$
\begin{aligned}
A &= \sum\limits_{i=1}^n q_i r_i^T \\
&= q_1r_1^T + \cdots + q_n r_n^T \\
Ae_1 &= \Big( q_1 r_1^T + \cdots + q_n r_n^T \Big) e_1 & \mbox{первая колонка с обоих сторон} \\
Ae_1 &= q_1 r_{11} \\
a_1 &= Ae_1 = q_1 r_{11} \\
r_{11} &= \|a_1 \|_2 \\
q_1 &= a_1 / r_{11} \\
q_1^T A &= q_1^T (q_1 r_1^T + \cdots + q_n r_n^T) = r_1^T \\
A - q_1 r_1^T &= \sum\limits_{i=2}^n q_i r_i^T
\end{aligned}
$

И далее по индукции общая формула для $QR$ разложения уже была получена выше:

$
\begin{equation}
       a_1 = Ae_1 = \sum\limits_{i=1}^n q_i r_i^T e_1 = q_1 r_{11}
\end{equation}
$

$
\begin{equation}
   q_1^T A = q_1^T ( \sum\limits_{i=1}^n q_i r_i^T) = r_1^T
\end{equation}
$

$
\begin{equation}
 \begin{bmatrix} 0 & A^{(2)} \end{bmatrix} = A - q_1 r_1^T = \sum\limits_{i=2}^n q_i r_i^T
\end{equation}
$

Теперь можно провести весь процесс на матрице, предложенной выше:

$
\begin{aligned}
&A = \begin{bmatrix}
1 & 0 & 1 \\
1 & 1 & 1 \\
0 & 1 & 1 \\
1 & 1 & 0
\end{bmatrix} \\
&q_1 = \frac{a_1}{\|a_1\|_2} = \begin{pmatrix} \frac{1}{\sqrt{3}} \\ \frac{1}{\sqrt{3}} \\ 0 \\ \frac{1}{\sqrt{3}} \end{pmatrix},\,  r_1^{\top} = q_1^{\top}A = \begin{pmatrix} \frac{3}{\sqrt{3}} & \frac{2}{\sqrt{3}} & \frac{2}{\sqrt{3}} \end{pmatrix}, \, A^{(2)} = A - q_1 r_1^T = 
\begin{bmatrix}
0 & -\frac{2}{3} & \frac{1}{3} \\
0 & \frac{1}{3} & \frac{1}{3} \\
0 & 1 & 1 \\
0 & \frac{1}{3} & -\frac{2}{3}
\end{bmatrix} \\
&q_2 = \frac{\begin{pmatrix} -\frac{2}{3} \\ \frac{1}{3} \\ 1 \\ \frac{1}{3} \end{pmatrix}}{\frac{\sqrt{15}}{3}} = \begin{pmatrix} -\frac{2}{\sqrt{15}} \\ \frac{1}{\sqrt{15}} \\ \frac{3}{\sqrt{15}} \\ \frac{1}{\sqrt{15}} \end{pmatrix}, \, r_2^{\top} = q_2^{\top}A^{(2)} = \begin{pmatrix} 0 & \frac{5}{\sqrt{15}} & \frac{2}{\sqrt{15}} \end{pmatrix}, \, A^{(3)} = A^{(2)} - q_2 r_2^T = 
\begin{bmatrix}
0 & 0 & \frac{3}{5} \\
0 & 0 & \frac{1}{5} \\
0 & 0 & \frac{3}{5} \\
0 & 0 & -\frac{4}{5}
\end{bmatrix}\\ 
&q_3 = \begin{pmatrix} \frac{3}{\sqrt{35}} \\ \frac{1}{\sqrt{35}} \\ \frac{3}{\sqrt{35}} \\ -\frac{4}{\sqrt{35}}\end{pmatrix}, \, r_3^{\top} = q_3^{\top}A^{(3)} = \begin{pmatrix} 0 & 0 & \frac{\sqrt{35}}{5} \end{pmatrix}
\end{aligned}
$

Kлючевая геометрическая концепция, лежащая в основе процесса Грама-Шмидта - это проецирование векторов. Для каждого вектора мы вычитаем компоненты, которые указывают в направлении предыдущих векторов. Это гарантирует, что новый вектор будет ортогонален предыдущим. Удаляя эти проекции, мы получаем новые векторы, находящиеся перпендикулярно по отношению к другим. Каждый шаг процесса Грама-Шмидта добавляет одно новое ортогональное направление. По мере прохождения процесса строится ортогональный базис для подпространства, охватываемого исходными векторами.

### Хаусхольдер QR

Процедура ортогонализации Грама-Шмидта обычно не рекомендуется для численного использования. Предположим, мы записываем $A = [a_1 \dots a_m]$ и $Q = [q_1 \dots q_m]$. Основная проблема заключается в том, что если $r_{jj} \leq\leq \|a_j \|_2$, то на этапе вычитания может разрушиться точность вычисленного $q_j$; и в частности, вычисленный $q_j$ может быть не совсем ортогонален предыдущему $q_j$. На самом деле, потеря ортогональности может накапливаться, даже если диагональные элементы $R$ не являются исключительно малыми. Это нехорошо, и хотя существуют приемы для решения этой проблемы, необходим другой подход, если мы хотим, чтобы проблема полностью исчезла.

Например, возьмем округление до 7 знаков:

$
a_1 = \begin{pmatrix}1 \\ 1 \end{pmatrix}, \, a_2 = \begin{pmatrix}1 \\ 1.0000001 \end{pmatrix}
$

$
\begin{aligned}
&q_1 = \frac{a_1}{\|a_1\|_2} = \frac{1}{\sqrt{2}}\begin{pmatrix}1 \\ 1 \end{pmatrix} = \begin{pmatrix}0.7071067 \\ 0.7071067 \end{pmatrix} \\
&\text{proj}_{q_1}(a_2) = \frac{<a_2,q_1>}{<q_1,q_1>}q_1 = \frac{1*0.7071067+1.0000001*0.7071067}{1}\begin{pmatrix}0.7071067 \\ 0.7071067 \end{pmatrix} = \begin{pmatrix}0.9999998 \\ 0.9999998 \end{pmatrix}\\
&u_2 = a_2 - \text{proj}_{q_1}(a_2) = \begin{pmatrix}1 \\ 1.0000001 \end{pmatrix} - \begin{pmatrix}0.9999998 \\ 0.9999998 \end{pmatrix} = \begin{pmatrix}0.0000002 \\ 0.0000003\end{pmatrix} \\
&q_2 = \frac{u_2}{\|u\|_2} = \frac{1}{0.0000004}\begin{pmatrix}0.0000002 \\ 0.0000003\end{pmatrix} = \begin{pmatrix}0.5\\ 0.75\end{pmatrix} \\
&<q_1,q_2> = 0.7071067*0.5 + 0.7071067*0.75 = 0.88
\end{aligned}
$

Что должно быть равно нулю.

### Преобразование Хаусхольдера 

Напомним, что один из способов реализации алгоритма Гаусса — это LU разложение, которое используется для сведения матрицы к нижнетреугольной. Преобразования Хаусхолдера — это ортогональные преобразования (отражения), которые можно использовать для аналогичного эффекта. Отражение поперек плоскости, ортогональной единичному нормальному вектору $w$, можно выразить в матричной форме как:

$$
w^{\top}w = 1, \quad P = \mathbf{I} - 2ww^{\top} - \text{матрица Хаусхольдера}
$$

Что означает данная матрица геометрически, перепишем с нормировкой, как было разобрано ранее про внешнее произведение: $P = \mathbf{I} - 2\frac{ww^{\top}}{w^{\top}w}$, также вспомним, что $\overset{\rightharpoonup}{\text{proj}}_w(x) = \frac{ww^{\top}}{w^{\top}w}x$, являеся веткорной проекцией вектра $x$ на вектор $w$, **векторная проекция** это вектор исходящий из начала координат (начала векторов) длиной проекции вектора $x$ на вектор $w$ по направлению вектора $w$. Очевидно, что векторная проекция может быть отрицательной при отрицательной скалярной проекции, такое происходит, когда вектора направлены в разные стороны, когда скалярное произведение векторов отрицательно, так как знак скалярного произведения это косинус угла между векторами, а косинус положителен когда угол между векторами лежит в диапазоне $[-\frac{\pi}{2};\frac{\pi}{2}]$, если угол между векторами в абсолютном значении лежит в диапазоне $[\frac{\pi}{2};\pi]$, то скалярное произведение в данном случае будет отрицательно. Также напомним, что является отражением, отражение это задается через отражение по оси $y$, если $X \in \mathbb{R}^2, (x,y) \rightarrow_{\text{поворот}} (x, -y)$. Если нас инетересует угол поворота при отражении, то нам необходимо посчитать $\cos(\theta) = \frac{x^2 - y^2}{x^2 + y^2}$, что вообще может напоминать следующую формулу при геометрической подстановке: $x = r\cos\phi, y = r\sin\phi \rightarrow \cos(\theta) = \frac{r^2 (\cos^2\phi - \sin^2\phi)}{r^2} = \cos(2\phi) \rightarrow \theta = 2\phi$, угол отражения равен двойному углу поворота в сферической системе координат. В общем, можно рассмотреть следующий простой пример, чтобы убедиться, что эа матрица действительно является матрицей отражения, отразим $(x, y)$ через плоскость $y$, которую можно задать единичным вектором $e_2 = (0,1), 2\frac{ww^{\top}}{w^{\top}w} = 2\frac{e_2e_2^{\top}}{e_2^{\top}e_2} = \begin{pmatrix} 0 & 0 \\ 0 & 2 \end{pmatrix}$, посчитаем $P(x,y) = (x,y)^{\top} - 2\frac{ww^{\top}}{w^{\top}w}(x,y)^{\top} = \begin{pmatrix}x \\y \end{pmatrix} - \begin{pmatrix}0 \\2y \end{pmatrix} = \begin{pmatrix}x \\-y \end{pmatrix}$. 

Разумеется, что отразить мы могли относительно любого вектора, смысл в том, что сама процедура отражения происходит в два этапа: нахождение векторной проекции вектора на ось, относительно которой мы будем отражать и вычитание из первоначального вектора данное отражение дважды, вычитая дважды проекцию, мы сначала удаляем компоненту $x$ в направлении $w$, а затем добавляем ее обратно в противоположном направлении, отражая вектор относительно заданной оси $w$.

Для данной матрицы есть несколько полезных свойств, например **симметричность и ортогональность**:

**Доказательство симметричности:**

$
P^{\top} = (\mathbf{I} - 2ww^{\top})^{\top} = \mathbf{I} - 2(w^{\top})^{\top}w^{\top} = \mathbf{I} - 2ww^{\top}
$

**Доказательство ортогональности:**

$
PP^{\top} = (\mathbf{I} - 2ww^{\top})(\mathbf{I} - 2ww^{\top}) = \mathbf{I} - 4ww^{\top} + 4ww^{\top}ww^{\top} = \mathbf{I} - 4ww^{\top} + 4w(w^{\top}w)w^{\top} = \mathbf{I} - 4ww^{\top} + 4ww^{\top} = \mathbf{I}
$

#### Хаусхольдер - Гаусс?

Матрица Хаусхолдера (или отражения Хаусхольдера) похожи на преобразования Гаусса в том, что они могут использоваться для обнуления выбранных компонентов вектора. В частности, предположим, что нам дан $x \in \mathbb{R}^{m}$ и мы хотим найти такую матрицу $P$:

$
Px = 
\begin{pmatrix}
||x||_2 \\
0 \\
\vdots \\
0
\end{pmatrix}
$

Отнормируем матрицу Хаусхольдера и перепишем ее в общем виде без добавления ограничения на его норму $P = \mathbf{I} - 2\frac{ww^{\top}}{w^{\top}w}$, вектор $w$ выбирается таким образом, что при применении преобразования Хаусхолдера к $x$ получается вектор, который был бы лишь кратным стандартному базисному вектору $e_1 = (1, 0, \dots, 0)^{\top}$. Мы назначаем такой вектор $w = x + \alpha e_1$ для некоторого скаляра $\alpha$, где $e_1$ — первый стандартный базисный вектор в $\mathbb{R}^m$. Логика выбора такого вектора состоит в том, чтобы занулить все координаты $x$ кроме координаты указанной кратности, так как векторное отображение $x$ на $x$ это в точности $x$ с амлитудой 1. Выбор $\alpha$ имеет решающее значение для обеспечения того, чтобы преобразованный вектор $Px$ имел нули в желаемых позициях. Для достижения нашей задачи мы накладываем такое условие, что $Px$ должно быть кратно $e_1$. Это приводит нас к решению для $\alpha$, при котором коэффициент при $x$ в преобразованном векторе становится равным нулю.

$
\begin{aligned}
&w^{\top}x = x^{\top}x + \alpha x_1 \\
&w^{\top}w = x^{\top}x + 2\alpha x_1 + \alpha^2 \\
&Px = x - 2\frac{w^{\top}x}{w^{\top}w}w \\
&Px = x - 2\frac{(x + \alpha e_1)(x^{\top}x + \alpha x_1 )}{x^{\top}x + 2\alpha x_1 + \alpha^2} \\
&Px = (1 - \frac{x^{\top}x + \alpha x_1}{x^{\top}x + 2\alpha x_1 + \alpha^2})x - 2\alpha\frac{w^{\top}x}{w^{\top}w}e_1 \\
&Px = (\frac{\alpha^2 - ||x||_2^2}{x^{\top}x + 2\alpha x_1 + \alpha^2})x - 2\alpha\frac{w^{\top}x}{w^{\top}w}e_1
\end{aligned}
$

Чтобы коэффициент при $x$ был нулевой выбираем $\alpha = \pm ||x||_2$, тогда:

$
w = x \pm ||x||_2 e_1 \rightarrow Px = (\mathbf{I} - 2\frac{ww^{\top}}{w^{\top}w})x = ||x||_2e_1
$

Таким образом последовательно примененяя операцию отражения на вектор в матрице, мы можем подобрать такую ось отражения, что данная процедура будет в точности копировать результат алгоритма Гаусса.

Например:

$
\begin{aligned}
&\begin{bmatrix}
3 & 1 \\
4 & 2
\end{bmatrix} \\
&w = \begin{pmatrix} 3 \\ 4\end{pmatrix} - \sqrt{3^2+4^2}\begin{pmatrix} 1 \\0 \end{pmatrix} = \begin{pmatrix} -2 \\ 4\end{pmatrix} \\
&2(\frac{ww^{\top}}{w^{\top}w})x = \frac{2}{20}\begin{bmatrix}
4 & -8 \\
-8 & 16
\end{bmatrix}
\begin{bmatrix}
3 \\
4 
\end{bmatrix} =
\begin{bmatrix}
-2 \\
4
\end{bmatrix} \\
&Px = \begin{pmatrix} 5 \\ 0 \end{pmatrix}
\end{aligned}
$

В частности, мы можем отображать не только на один единичный вектор, но и на совокупность векторов $y$, если $x,y: ||x|| = ||y||$, тогда $w = x - y$, здесь переход $e = \frac{y}{\|y\|} = \frac{y}{\|x\|} \rightarrow w = x - \|x\|e = x - y$

Таким образом, если нам дан вектор $x$, и мы хотим найти отражение, которое преобразует $x$ в направление, параллельное некоторому единичному вектору $y$. Правильное отражение проходит через гиперплоскость, которая является биссектрисой угла между $x$ и $y$.

И некоторые другие свойства касательно матрицы Хаусхольдера:

a) $Pw = -w$ и для любого $x\perp w, \, w^{\top}x = 0 \rightarrow Px = x$ говорит нам о том, что матрица $P$ имеет собственное значение $\lambda_1 = 1$ кратности $(n-1)$ и $\lambda_{n} = -1$

**Пример**

$
A = 
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix}
$

Для матрицы $A$ мы хотим превратить $x_1 = (4,4,2) \rightarrow y_1 = (*,0,0)$, найдем этот вектор, $||x_1|| = 36 \rightarrow y_1 = (6,0,0)$

$$
w = \frac{
\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}}{||\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} - \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}||} = \begin{pmatrix} \frac{-1}{6}\\ \frac{2}{\sqrt{6}} \\ \frac{1}{\sqrt{6}} \end{pmatrix}
$$ 

$$
w^{\top}w = \begin{bmatrix}
\frac{1}{6} & \frac{-2}{6} & \frac{-1}{6}\\
\frac{-2}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{-1}{6} & \frac{2}{6} & \frac{1}{6}
\end{bmatrix}\\
\newline
P = \mathbf{I} - 2w^{\top}w  = 
\begin{bmatrix}
\frac{4}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{4}{6} & - \frac{2}{6} & -\frac{4}{6}\\
\frac{2}{6} & -\frac{4}{6} & \frac{4}{6}
\end{bmatrix}\\
P\begin{pmatrix} 4\\ 4 \\ 2 \end{pmatrix} = \begin{pmatrix} 6\\ 0 \\ 0 \end{pmatrix}
$$

Ну а для получения матрицы данного преобразования:

$$
PA = \begin{bmatrix}
6 & 7 & \frac{13}{3}\\
0 & -1 & -\frac{5}{3}\\
0 & 0 & \frac{2}{3}
\end{bmatrix}
$$

Аналогичные преобразования можно получать и для строчек (минусая столбцы) умножая на матрицу Хаусхольдера справа $AP$, аналогично сводя матрицу к треугольному виду

Таким образом имеем $QR$ разложение для матрицы $A$:

$
\begin{bmatrix}
4 & 4 & 2\\
4 & 5 & 3\\
2 & 3 & 3
\end{bmatrix} = 
\begin{bmatrix}
\frac{4}{6} & \frac{4}{6} & \frac{2}{6}\\
\frac{4}{6} & - \frac{2}{6} & -\frac{4}{6}\\
\frac{2}{6} & -\frac{4}{6} & \frac{4}{6}
\end{bmatrix}
\begin{bmatrix}
6 & 7 & \frac{13}{3}\\
0 & -1 & -\frac{5}{3}\\
0 & 0 & \frac{2}{3}
\end{bmatrix}
$


#### Вращение Гивенса