# Разложения с ортогональными матрицами

Одним из наиболее используемых на практике разложений (см. также ранее изученное [LU разложение](lu.ipynb)) часто используется [QR разложение](https://en.wikipedia.org/wiki/QR_decomposition), т.е. представление произвольной (даже не обязательно квадратной) матрицы $A$
в виде произведения 
$$A=QR,$$
где матрица $Q$ ортогональна (или [унитарна](https://en.wikipedia.org/wiki/Unitary_matrix) в комплексном случае), т.е. $Q^*Q=1$,
а матрица $R$ [верхнетреугольная](https://en.wikipedia.org/wiki/Triangular_matrix). 
QR разложение может быть, например, использовано для решения систем, $Ax=B$,
так как решение в данном случае может быть найдено из системы $Rx=Q^*B$, что можно сделать эффективно методом [обратных подстановок](https://en.wikipedia.org/wiki/Triangular_matrix#Forward_and_back_substitution). 
Для нахождения LU разложения мы ранее использовали [преобразования Гаусса](https://en.wikipedia.org/wiki/Gaussian_elimination), аналогично для вычисления QR разложения и подобных используются отражения Хаусхоледар и вращения Гивенса. 

Преобразование вида
$$
P = 1-2\frac{|v\rangle\langle v|}{v^2}
$$
называется [преобразованием (отражением) Хаусхолдера](https://en.wikipedia.org/wiki/Householder_transformation).
Здесь $1$ обозначает тождественный оператор, числитель дроби содержит [внешнее произведение](https://en.wikipedia.org/wiki/Outer_product) вектора $v$ на себя, а знаменатель - скалярный квадрат вектора $v$.
Преобразование Хаусхолдера используется для обнуления в матрице всех элементов столбца, кроме одного (см. задание ниже).

Вторым распространенным преобразованием при разложении с ортогональными матрицами является [вращение Гивенса](https://en.wikipedia.org/wiki/Givens_rotation):
$$G=1-|v\rangle\langle v|-|u\rangle\langle u|
+\begin{pmatrix}|v\rangle & |u\rangle\end{pmatrix}
\begin{pmatrix}\cos\theta & \sin\theta\\-\sin\theta & \cos\theta\end{pmatrix}
\begin{pmatrix}\langle v| \\ \langle u|\end{pmatrix},$$
где вектора $u$ и $v$ ортогональны и нормированы $u^2=v^2=1$, $u\cdot v=0$.
Вещественное число $\theta$ задает [угол поворота](https://en.wikipedia.org/wiki/Rotation_matrix) в плоскости, натянутой на вектора $u$, $v$.
Вращение Гивенса используется для обнуления одного коэффициента вектора (см. задание ниже).

Отражения Хаусхолдера и вращения Гивенса являются возмущениями ранга один и два соответственно тождественного оператора,
т.е. они действуют на все вектора как тождественный оператор, кроме одномерного и двумерного подпространств, соответственно. 
Малый ранг возмущения позволяет вычислять действие таких преобразований на вектор значительно быстрее, чем умножение на заполненную матрицу.

# Задания

1. Покажите, что в базисе, содержащим вектора $u$ и $v$, матрица вращений Гивенса отличается от единичной только блоком $2\times 2$.

1. Докажите, что преобразование Хаусхолдера ортогональное и симметрическое, а вращения Гивенса - ортогональное преобразование. Сравните с преобразованиями Гаусса.

1. Покажите, что для любых векторов $x$ и $e$ можно найти такое $v$, что отражение Хаусхолдера переводит $x$ в вектор кратный $e$. Убедитесь, что если в качестве $e$ взять базисный вектор, то с помощью отражения Хаусхолдера можно обратить все элементы одного столбца матрицы, кроме одного, в ноль.

1. Покажите, что преобразованием Гивенса всегда можно обратить один заданный элемент вектора в ноль. Убедитесь, что также в ноль можно обратить один желаемый элемент матрицы.

1. Пользуясь тем, что преобразование Хаусхолдера модифицирует только одномерное подпространство, опишите алгоритм последовательного применения отражений Хаусхолдера для приведения матрицы к верхнетреугольному виду. Как этот алгоритм связан с QR разложением?

1. Аналогично предыдущему пункту, опишите алгоритм применения вращений Гивенса для приведения матрицы к треугольному виду.

1. Реализуйте один из вариантов QR разложения.

1. Как можно выполнить QR разложение в блочном виде? 

Помимо решения систем QR разложение находит свое применение во множестве других задач, например, при вычисление [спектрального разложения](https://en.wikipedia.org/wiki/QR_algorithm).
Мы же сейчас рассмотрим [метод наименьших квадратов](https://en.wikipedia.org/wiki/Least_squares),
один из наиболее распространенных методов [регрессионного анализа](https://en.wikipedia.org/wiki/Regression_analysis).

Допустим мы задались некоторой моделью $f(x,\beta)=y$, сопоставляющей переменной $x$ переменную $y$
по некоторому закону, содержащему параметр (вектор параметров) $\beta$.
Допустим у нас есть набор эмпирических наблюдений пар этих переменных $(x_k, y_k)$.
Мы хотим найти такое значение параметра, при котором ошибки $r_k=f(x_k,\beta)-y_k$
предсказаний модели будут минимальными.
Можно использовать разные меры ошибок, выбор меры зависит от специфики задачи,
однако наиболее простым выбором является среднеквадратическая ошибка
$$
R[\beta]=\sum_k r_k^2,
$$
которая и приводит нас к методу наименьших квадратов.
В предположении дифференцируемости функции $f$, квадратичная ошибка также дифференцируема,
что дает простое необходимое условие оптимальности параметра $\beta$:
$$
\frac{\partial R}{\partial \beta} = 2\sum_k r_k\frac{\partial f(x_k,\beta)}{\partial\beta} = 0. 
$$
В общем виде это уравнение нелинейное и решается [оптимизационными методами](https://en.wikipedia.org/wiki/Mathematical_optimization).
Однако есть простой частный случай, когда решение может быть предъявлено явно.
Пусть 
$$f(x,\beta)=\sum_j \beta_j f_j(x),$$
т.е. пусть наша модель линейна по вектору параметров $\beta$.
В качестве примера хорошо держать в голове разложение по многочленам фиксированной степени,
в этом случае $f_j(x)=x^j$ или разложение по базису Фурье $f_j(x)=\cos jx$ 
(метод наименьших квадратов, однако, не самый быстрый способ получить эти разложения).
В линейной модели необходимое условие оптимальности (являющееся и достаточным в этом случае),
принимает вид линейной системы уравнений на $\beta$:
$$\sum_k r_k\cdot f_j(x_k)=\sum_k (\sum_{j'}\beta_{j'} f_{j'}(x_k)-y_k)\cdot f_j(x_k)=0\forall j.$$ 
Введем матрицу $A$, $A_{kj}=f_j(x_k)$, вектора $\beta=(\beta_j)$, $Y=(y_k)$,
тогда систему можно записать в матричном виде:
$$
A^T(A\beta-Y)=0.
$$
Вектор $R=A\beta-Y$ называется невязкой, по сути решаемая задача сводилась к минимизации невязке в норме $l_2$.
Искомые оптимиальные параметры модели находятся из системы
$$A^TA\beta=A^TY,$$
с симметрической матрицей. 
В случае невырожденной квадратной матрицы $A$ решение задачи наименьших квадртов давалось бы из уравнения $A\beta=Y$.
На практике обычно число измерений $Y$ намного больше, чем число параметров $\beta$, поэтому систем $A\beta=Y$ оказывается переопределенной, и метод наименьших квадратов дает лучшее возможное решение (в смысле наименьше ошибки).
Система с матрицей $A^TA$ с точки зрения численных методов хуже, так как число обусловленности у этой матрицы больше
$$\kappa(A^TA)=\kappa(A)^2,$$
а значит больше погрешность решения и ниже скорость сходимости итерационных методов.
Используя QR разложения и подобные можно предложить альтернативные методы решения. 

## Задания

9. Предложите способ решения задачи наименьших квадратов используя SVD разложение.

9. Аналогично, используя QR разложение.

9. Реализуйте решение задачи линейной регрессии, используя QR разложение. Исплользуйте эффективное представление преобразований Хаусхолдера или Гаусса, для минимизации сложности вычислений.

## Литература

1. Gene H. Golub, Charles F. Van Loan. Matrix Computations. Глава 5.