# Разложения с ортогональными матрицами

Одним из наиболее используемых на практике разложений (см. также ранее изученное [LU разложение](lu.ipynb)) часто используется [QR разложение](https://en.wikipedia.org/wiki/QR_decomposition), т.е. представление произвольной (даже не обязательно квадратной) матрицы $A$
в виде произведения 
$$A=QR,$$
где матрица $Q$ ортогональна (или [унитарна](https://en.wikipedia.org/wiki/Unitary_matrix) в комплексном случае), т.е. $Q^*Q=1$,
а матрица $R$ [верхнетреугольная](https://en.wikipedia.org/wiki/Triangular_matrix). 
QR разложение может быть, например, использовано для решения систем, $Ax=B$,
так как решение в данном случае может быть найдено из системы $Rx=Q^*B$, что можно сделать эффективно методом [обратных подстановок](https://en.wikipedia.org/wiki/Triangular_matrix#Forward_and_back_substitution). 
Для нахождения LU разложения мы ранее использовали [преобразования Гаусса](https://en.wikipedia.org/wiki/Gaussian_elimination), аналогично для вычисления QR разложения и подобных используются отражения Хаусхоледар и вращения Гивенса. 

Преобразование вида
$$
P = 1-2\frac{|v\rangle\langle v|}{v^2}
$$
называется [преобразованием (отражением) Хаусхолдера](https://en.wikipedia.org/wiki/Householder_transformation).
Здесь $1$ обозначает тождественный оператор, числитель дроби содержит [внешнее произведение](https://en.wikipedia.org/wiki/Outer_product) вектора $v$ на себя, а знаменатель - скалярный квадрат вектора $v$.
Преобразование Хаусхолдера используется для обнуления в матрице всех элементов столбца, кроме одного (см. задание ниже).

Вторым распространенным преобразованием при разложении с ортогональными матрицами является [вращение Гивенса](https://en.wikipedia.org/wiki/Givens_rotation):
$$G=1-|v\rangle\langle v|-|u\rangle\langle u|
+\begin{pmatrix}|v\rangle & |u\rangle\end{pmatrix}
\begin{pmatrix}\cos\theta & \sin\theta\\-\sin\theta & \cos\theta\end{pmatrix}
\begin{pmatrix}\langle v| \\ \langle u|\end{pmatrix},$$
где вектора $u$ и $v$ ортогональны и нормированы $u^2=v^2=1$, $u\cdot v=0$.
Вещественное число $\theta$ задает [угол поворота](https://en.wikipedia.org/wiki/Rotation_matrix) в плоскости, натянутой на вектора $u$, $v$.
Вращение Гивенса используется для обнуления одного коэффициента вектора (см. задание ниже).

Отражения Хаусхолдера и вращения Гивенса являются возмущениями ранга один и два соответственно тождественного оператора,
т.е. они действуют на все вектора как тождественный оператор, кроме одномерного и двумерного подпространств, соответственно. 
Малый ранг возмущения позволяет вычислять действие таких преобразований на вектор значительно быстрее, чем умножение на заполненную матрицу.

# Задания

1. Покажите, что в базисе, содержащим вектора $u$ и $v$, матрица вращений Гивенса отличается от единичной только блоком $2\times 2$.

1. Докажите, что преобразование Хаусхолдера ортогональное и симметрическое, а вращения Гивенса - ортогональное преобразование. Сравните с преобразованиями Гаусса.

1. Покажите, что для любых векторов $x$ и $e$ можно найти такое $v$, что отражение Хаусхолдера переводит $x$ в вектор кратный $e$. Убедитесь, что если в качестве $e$ взять базисный вектор, то с помощью отражения Хаусхолдера можно обратить все элементы одного столбца матрицы, кроме одного, в ноль.

1. Покажите, что преобразованием Гивенса всегда можно обратить один заданный элемент вектора в ноль. Убедитесь, что также в ноль можно обратить один желаемый элемент матрицы.

1. Пользуясь тем, что преобразование Хаусхолдера модифицирует только одномерное подпространство, опишите алгоритм последовательного применения отражений Хаусхолдера для приведения матрицы к верхнетреугольному виду. Как этот алгоритм связан с QR разложением?

1. Аналогично предыдущему пункту, опишите алгоритм применения вращений Гивенса для приведения матрицы к треугольному виду.

1. Реализуйте один из вариантов QR разложения.

1. Как можно выполнить QR разложение в блочном виде?

### Хаусхолдер: $ \hat{P} = \hat{I}-2\frac{|v\rangle\langle v|}{v^2}$

  1. $ \hat{P} \hat{P}^T = \hat{I}$

  $$\hat{P}^2  = \hat{I} - \frac{4}{v^2}|v\rangle\langle v| + \frac{4}{v^4}\big( |v\rangle\langle v| \big)^2 = \hat{I} - \frac{4}{v^2}|v\rangle\langle v| + \frac{4v^2}{v^4}|v\rangle\langle v| = \hat{I}$$

  1. $(\hat{P}a, b) = (a, \hat{P}b)$

  $$(\hat{P}a, b) = (a, b) -  \frac{2}{v^2} (v, a)(v, b) = (a, \hat{P}b)$$

### Гивенс: $\hat{G}=\hat{I}-|v\rangle\langle v|-|u\rangle\langle u|
+\begin{pmatrix}|v\rangle & |u\rangle\end{pmatrix}
\begin{pmatrix}\cos\theta & \sin\theta\\-\sin\theta & \cos\theta\end{pmatrix}
\begin{pmatrix}\langle v| \\ \langle u|\end{pmatrix}$

m,n - координаты матрицы поворота

$G_k\cdot G_l^T = I_{kl}:$\
$k=l=m: G_k\cdot G_l^T = cos^2+sin^2 = 1$\
$k=l=n: G_k\cdot G_l^T = cos^2+(-sin)^2 = 1$\
$k=m and l=n: G_k\cdot G_l^T = cos\cdot sin - sin\cdot cos = 0$\
во всех других случаях:  $G_k\cdot G_l^T = cos\cdot 0 - sin\cdot 0 = 0$
$G_k\cdot G_l^T = -sin\cdot 0 - cos\cdot 0 = 0$

$$
\hat{G}_{\mathcal{E}}
=
\begin{pmatrix}
0 & 0 & ... & 0 \\
0 & 0 & ... & 0 \\
...   & ... & ... & ...     \\
0 & 0 & ... & 1
\end{pmatrix}
+
\cos\theta\cdot
\begin{pmatrix}
1 & 0 & ... & 0 \\
0 & 0 & ... & 0 \\
...   & ... & ... & ...     \\
0 & 0 & ... & 0
\end{pmatrix}
+
\sin\theta\cdot
\begin{pmatrix}
0 & 1 & ... & 0 \\
0 & 0 & ... & 0 \\
...   & ... & ... & ...     \\
0 & 0 & ... & 0
\end{pmatrix}
-
\sin\theta\cdot
\begin{pmatrix}
0 & 0 & ... & 0 \\
1 & 0 & ... & 0 \\
...   & ... & ... & ...     \\
0 & 0 & ... & 0
\end{pmatrix}
+
\cos\theta\cdot
\begin{pmatrix}
0 & 0 & ... & 0 \\
0 & 1 & ... & 0 \\
...   & ... & ... & ...     \\
0 & 0 & ... & 0
\end{pmatrix}
=
\begin{pmatrix}
\cos \theta & \sin \theta & ... & 0 \\
-\sin \theta & \cos \theta & ... & 0 \\
...   & ... & 1 & ...     \\
0 & 0 & ... & 1
\end{pmatrix}
$$

$\hat{P} = \hat{I}-2\frac{|v\rangle\langle v|}{v^2}$

Первым отражением переводим первый столбец матрицы в базисный вектор или кратный ему, вычисляем матрицу преобразования, умножаем ее на исходную матрицу и затем повторяем вниз рекурсивно по $(i,i)$ минорам

$U = E - \frac{1}{\gamma}vv*$, v - отражение на текущий столбец

$\hat{P}\hat{A} = A + v\cdot w^T$

На первом этапе зануляются первые два столбца под диагональю двумя матрицами $\hat{H_1}, \hat{H_2}$
Далее ищём такую матрицу, что она зануляет столбец вида $\hat{\tilde{H_3}}\begin{pmatrix}
...\\
x_3\\
x_4\\
...\\
x_n
\end{pmatrix}$=$\begin{pmatrix}
...\\
x_3\\
0\\
...\\
0
\end{pmatrix}$

Находим $H_3 = diag(\hat{I_2}\hat{\tilde{H_3}})$
Действуем $H_3H_2H_1$ на матрицу А

Повторяя такой механизм n раз - получаем матрицу $H_nH_{n-1}...H_2H_1\cdot A = R$
$\implies Q = H_1H_2...H_n \implies A = QR$

$$\hat{G} =
\begin{pmatrix}
 \hat{I}_{n-k}  & \hat{0} & \hat{0} \\
 \hat{0} & \hat{R} & \hat{0}  \\
 \hat{0} & \hat{0} & \hat{I}_{k-2}  \\
\end{pmatrix}
$$


Умножая такую матрицу на вектор всегда можно подобрать угол поворота так, чтобы координата занулилась

$$y = \hat{G}x =
\begin{pmatrix}
x_1\\
...\\
x_{i-1} \cdot \cos \theta  + x_i \cdot \sin \theta \\
-x_{i+1} \cdot \sin \theta  + x_i \cdot \cos \theta \\
... \\
x_n
\end{pmatrix}$$

Если послежовательно применять Гивенса, можно занулить всё ниже одной диагонали
$\hat{G}_1 \hat{G}_2 ... \hat{G}_r \hat{A} = \hat{R}$
Преобразования Гивенса ортогональны, последовательность ортогональных преобразований - ортогонально, поэтому действие слева можно заменить одним ортогональным оператором$\big(\hat{Q}^T\big)^{-1} = \big(\hat{Q}^T\big)^{T} = \hat{Q}$, получается $\hat{A} = \hat{Q}\hat{R}$



In [1]:
from matrix_full import *

In [2]:
n = 4
m_full = FullMatrix.zero(n, n, float)
for i in range(n):
    for j in range(n):
        m_full[i,j] = float(random.randrange(0,10000))
print(m_full)
print(m_full.qr()[0]*m_full.qr()[1])

| 1652.0 7230.0 6410.0 8671.0 |
| 604.0  7659.0 2503.0 1207.0 |
| 649.0  7412.0 3345.0 5516.0 |
| 4362.0 6091.0 7644.0 9585.0 |
| 1652.0 7229.999999999998 6410.000000000003  8670.999999999998  |
| 604.0  7658.999999999998 2502.9999999999986 1206.9999999999961 |
| 649.0  7411.999999999997 3345.0             5516.0000000000055 |
| 4362.0 6091.000000000001 7644.0             9585.000000000002  |


Помимо решения систем QR разложение находит свое применение во множестве других задач, например, при вычисление [спектрального разложения](https://en.wikipedia.org/wiki/QR_algorithm).
Мы же сейчас рассмотрим [метод наименьших квадратов](https://en.wikipedia.org/wiki/Least_squares),
один из наиболее распространенных методов [регрессионного анализа](https://en.wikipedia.org/wiki/Regression_analysis).

Допустим мы задались некоторой моделью $f(x,\beta)=y$, сопоставляющей переменной $x$ переменную $y$
по некоторому закону, содержащему параметр (вектор параметров) $\beta$.
Допустим у нас есть набор эмпирических наблюдений пар этих переменных $(x_k, y_k)$.
Мы хотим найти такое значение параметра, при котором ошибки $r_k=f(x_k,\beta)-y_k$
предсказаний модели будут минимальными.
Можно использовать разные меры ошибок, выбор меры зависит от специфики задачи,
однако наиболее простым выбором является среднеквадратическая ошибка
$$
R[\beta]=\sum_k r_k^2,
$$
которая и приводит нас к методу наименьших квадратов.
В предположении дифференцируемости функции $f$, квадратичная ошибка также дифференцируема,
что дает простое необходимое условие оптимальности параметра $\beta$:
$$
\frac{\partial R}{\partial \beta} = 2\sum_k r_k\frac{\partial f(x_k,\beta)}{\partial\beta} = 0. 
$$
В общем виде это уравнение нелинейное и решается [оптимизационными методами](https://en.wikipedia.org/wiki/Mathematical_optimization).
Однако есть простой частный случай, когда решение может быть предъявлено явно.
Пусть 
$$f(x,\beta)=\sum_j \beta_j f_j(x),$$
т.е. пусть наша модель линейна по вектору параметров $\beta$.
В качестве примера хорошо держать в голове разложение по многочленам фиксированной степени,
в этом случае $f_j(x)=x^j$ или разложение по базису Фурье $f_j(x)=\cos jx$ 
(метод наименьших квадратов, однако, не самый быстрый способ получить эти разложения).
В линейной модели необходимое условие оптимальности (являющееся и достаточным в этом случае),
принимает вид линейной системы уравнений на $\beta$:
$$\sum_k r_k\cdot f_j(x_k)=\sum_k (\sum_{j'}\beta_{j'} f_{j'}(x_k)-y_k)\cdot f_j(x_k)=0\forall j.$$ 
Введем матрицу $A$, $A_{kj}=f_j(x_k)$, вектора $\beta=(\beta_j)$, $Y=(y_k)$,
тогда систему можно записать в матричном виде:
$$
A^T(A\beta-Y)=0.
$$
Вектор $R=A\beta-Y$ называется невязкой, по сути решаемая задача сводилась к минимизации невязке в норме $l_2$.
Искомые оптимиальные параметры модели находятся из системы
$$A^TA\beta=A^TY,$$
с симметрической матрицей. 
В случае невырожденной квадратной матрицы $A$ решение задачи наименьших квадртов давалось бы из уравнения $A\beta=Y$.
На практике обычно число измерений $Y$ намного больше, чем число параметров $\beta$, поэтому систем $A\beta=Y$ оказывается переопределенной, и метод наименьших квадратов дает лучшее возможное решение (в смысле наименьше ошибки).
Система с матрицей $A^TA$ с точки зрения численных методов хуже, так как число обусловленности у этой матрицы больше
$$\kappa(A^TA)=\kappa(A)^2,$$
а значит больше погрешность решения и ниже скорость сходимости итерационных методов.
Используя QR разложения и подобные можно предложить альтернативные методы решения. 

## Задания

9. Предложите способ решения задачи наименьших квадратов используя SVD разложение.

9. Аналогично, используя QR разложение.

9. Реализуйте решение задачи линейной регрессии, используя QR разложение. Исплользуйте эффективное представление преобразований Хаусхолдера или Гаусса, для минимизации сложности вычислений.

## Литература

1. Gene H. Golub, Charles F. Van Loan. Matrix Computations. Глава 5.

In [1]:
from matrix_full import *

In [2]:
def test_svd_lsm():
    num_sample = [10]
    for n in num_sample:
        print(n)
        vector = FullMatrix.zero(n, 2, 0.0)
        for i in range(n):
            for j in range(2):
                vector[i,j] = float(random.randrange(-10000, 10000))
        x, y = vector.lsm_svd()
        res_poly = np.polyfit(x, vector[:, 1].data, 1)
        res_poly = res_poly.flatten()
        poly_np = np.poly1d(res_poly)
        plt.scatter(vector[:,0].data, vector[:,1].data, s = 7, label = 'exp data', color='orange')
        plt.plot(list(x), y, 'r', label = 'My fit', linewidth = 3)
        plt.plot(list(x), poly(x), '--b', label = 'np.polyfit', linewidth = 1)
        plt.xlabel('x')
        plt.ylabel('y')
        plt.legend()
        plt.show()
        if not np.any(np.abs(poly_np(x)-y) <= numerical_error):
            print("Error in least sqares method (by QR)")
            return -1
    return 0

test_svd_lsm()

10
[[ 0.10700048 -0.02213884 -0.0864123  -0.26677675 -0.04154797 -0.38677446
   0.39047986 -0.06495697  0.34891006 -0.69258283]
 [-0.09870054  0.33712637  0.57156267  0.12695785  0.18529461  0.09472053
   0.66937669 -0.07878439 -0.16766642  0.09006442]
 [ 0.36303297 -0.45494222  0.74618715 -0.06774768 -0.08290498 -0.05916659
  -0.27466952  0.03145564  0.08931424 -0.07117492]
 [ 0.29983945  0.01404635 -0.0901358   0.92054421 -0.03247004 -0.1043485
   0.01247124 -0.00602854  0.10411495 -0.17719533]
 [ 0.12967402 -0.14119559 -0.08412882 -0.02548389  0.97235477 -0.02416694
  -0.08502811  0.00948609  0.03356166 -0.03189625]
 [ 0.38992063  0.09775824 -0.09284645 -0.10811941 -0.03488278  0.85298756
   0.06502477 -0.01436729  0.14158322 -0.25457793]
 [-0.01015652 -0.76137842 -0.2302084   0.04856661 -0.069181    0.1118366
   0.53239541  0.06268677 -0.06276705  0.23714443]
 [ 0.01801578  0.09844501  0.02450469 -0.0106585   0.00706398 -0.02016166
   0.06067482  0.99162313  0.01385448 -0.04029537]

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 2 is different from 10)