In [59]:
import numpy as np
import scipy.linalg

# Матричные разложения

Для любой ненулевой вещественной матрицы $X$ размером $m\times n$ существуют две вещественные ортогональные матрицы $U$ и $V$, такие, что $U^{T}XV$ является матрицей $D$ размера $m\times n$ с неотрицательными элементами на главной диагонали (в прямоугольной матрице под главной диагональю будем понимать совокупность элементов $d_{ii}$). Все элементы матрицы $D$, не лежащие на главной диагонали, являются нулевыми.

$U$ и $V$ при этом можно выбрать таким образом, чтобы диагональные элементы матрицы $D$ имели вид

$$\mu_{1}\geqslant \mu_{2}\geqslant ... \geqslant \mu_{r} > \mu_{r+1}=...=\mu_{n}=0,$$

где $r$ — ранг матрицы $X$. В частности, если $X$ невырождена, то 

$$\mu_{1}\geqslant \mu_{2}\geqslant ... \geqslant \mu_{r} > 0.$$

![title](factorization.png)

Таким образом, задача матричного разложения сводится к декомпозиции начальной матрицы $X$ на произведение двух других матриц
$U$ и $V$, чтобы ранг матрицы линейного оператора(аппроксимирующей матрицы) был меньше $k$.Ранг должен быть именно таким, поскольку, как правило, далеко не все исходные данные полезны. Например, они могут содержать шум, а признаки могут быть
коллинеарными.

В конечном итоге, задача приближения начальной матрицы $X$ матрицей меньшего ранга примет вид

$$U, V = {argmin {U, V}} : \sum\limits_{i, j}^{\infty}(x_{i,j} - u_{i}v_{j}^T)^2$$

Для оценки степени близости проекции матрицы $X$ к линейному отображению матрицы $X$ используются различные метрики оценки
коэффициентов матрицы линейного оператора. Например, норма Фробениуса

$$||X|| =\sqrt{\sum\limits_{i, j}^{\infty}{a_{i, j}^2}}$$

Видим, что норма Фробениуса очень похожа на евклидову метрику(либо L2 норму). Также могут использоваться такие метрики как
косинусное расстояние, манхэтеннская норма, и.т.д.

### LU-разложениe ###

LU-разложениe — модификация метода Гаусса, придуманная Аланом Тьюрингом в 1948 году.

Пусть дана квадратная матрица $X$ порядка $n$, и $X_{k}$ — главный минор этой матрицы, составленный из первых $k$ строк и столбцов. Если $det(X_{k})\neq0$ для $k=1,2,...,n-1$, тогда существует единственная нижняя треугольная матрица $L=(l_{ij})$, где $l_{11}=l_{22}=...=l_{nn}=1$, и единственная верхняя треугольная матрица $U=(u_{ij})$, такие, что $LU=A$. Более того, $det(A)=u_{11}\cdot u_{22}\cdot...\cdot u_{nn}$.

Представление матрицы системы уравнений $X$ в виде произведения $LU$ явялется основной идеей гауссовских схем исключения, так как система $Xx=b$ может быть записана как

$$LUx=b$$

и сводится к двум системам с треугольными матрицами.

Если принять $Ux=y$, то получим

$$Ly=b.$$

Так как $L$ — нижняя треугольная матрица, компоненты промежуточного решения $y$ могут быть получены просто путем последовательной подстановки, так как первое уравнение содержит только $y_{1}$, второе —  $y_{1}$ и  $y_{}$ и т. д.

Вторым шагом, когда мы нашли $y$, решается система

$$Ux=y,$$

где $U$ — верхняя треугольная матрица, то есть эта система также решается простой последовательной подстановкой в обратном порядке: $x_{n}, x_{n-1},...,x_{1}$.

Найдём с помощью NumPy LU для матрицы

$$\begin{pmatrix}
7 & 3 & -1 & 2\\ 
3 & 8 & 1 & -4\\ 
-1 & 1 & 4 & -1\\ 
2 & -4 & -1 & 6\\ 
\end{pmatrix}.$$

In [66]:
A = np.array([[7, 3, -1, 2], 
              [3, 8, 1, -4], 
              [-1, 1, 4, -1], 
              [2, -4, -1, 6]])

In [67]:
P, L, U = scipy.linalg.lu(A)

In [72]:
P

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [73]:
L

array([[ 1.     ,  0.     ,  0.     ,  0.     ],
       [ 0.42857,  1.     ,  0.     ,  0.     ],
       [-0.14286,  0.21277,  1.     ,  0.     ],
       [ 0.28571, -0.7234 ,  0.08982,  1.     ]])

In [74]:
U

array([[ 7.     ,  3.     , -1.     ,  2.     ],
       [ 0.     ,  6.71429,  1.42857, -4.85714],
       [ 0.     ,  0.     ,  3.55319,  0.31915],
       [ 0.     ,  0.     ,  0.     ,  1.88623]])

Осуществим проверку.

In [75]:
np.dot(P.transpose(), A) - np.dot(L, U)

array([[ 0.,  0.,  0.,  0.],
       [ 0.,  0.,  0., -0.],
       [ 0.,  0.,  0.,  0.],
       [ 0., -0.,  0.,  0.]])

Разложение прошло успешно.

### Разложение Холецкого ###

Метод заключается в разложении матрицы $X$ (при соблюдении условий ее симметричности и положительной определенности) на произведение матриц $LL^{T}$, описанном в Следствии 3. В этом разложении $L$ — нижняя треугольная матрица со строго положительными элементами на диагонали.

После получения разложения, аналогично методу $LU$-разложения, нужно представить систему уравнений в матричной форме как

$$Xx=LL^{T}x=Ly=b$$

и затем методом прямой подстановки решить последовательно две простые системы, характеризующиеся треугольными матрицами коэффициентов:

$$Ly=b,$$
$$L^{T}x=y.$$

Найдем искомое разложениие.

Из условия разложения, имея в виду правила умножения матриц, получаем

$$a_{ij}=\sum_{k=1}^{n}l_{ik}l_{kj}^{T},$$

где $l_{ij}$ и $l_{ij}^{T}$ — элементы матриц $L$ и $L^{T}$ соответственно ($l_{ij}^{T}=l_{ji}$).

В частности, при $i<j$ получим 

$$a_{ij}=\sum_{k=1}^{j-1}l_{ik}l_{jk},$$

$$l_{ij}=\frac{1}{l_{jj}}\left( a_{ij}-\sum_{k=1}^{j-1}l_{ik}l_{jk}\right ).$$

При $i=j$:

$$a_{ij}=\sum_{k=1}^{i-1}l_{ik}^{2}+l_{ii}^{2}~~\Rightarrow$$

$$l_{ii}=\sqrt{a_{ii}-\sum_{k=1}^{i-1}l_{ik}^{2}}.$$

Таким образом, элементы матрицы $L$ для нахождения $LL^{T}$-разложения вычисляются по следуюшим формулам:

$$l_{ii}=\sqrt{a_{ii}-\sum_{k=1}^{i-1}l_{ik}^{2}},$$
$$l_{ij}=\frac{1}{l_{jj}}\left( a_{ij}-\sum_{k=1}^{j-1}l_{ik}l_{jk}\right ), \; j < i.$$

Найдём с помощью NumPy разложение Холецкого для матрицы

$$\begin{pmatrix}
7 & 3 & -1 & 2\\ 
3 & 8 & 1 & -4\\ 
-1 & 1 & 4 & -1\\ 
2 & -4 & -1 & 6\\ 
\end{pmatrix}.$$

In [56]:
A = np.array([[7, 3, -1, 2], 
              [3, 8, 1, -4], 
              [-1, 1, 4, -1], 
              [2, -4, -1, 6]])

In [57]:
L = np.linalg.cholesky(A)
print(L)

[[ 2.64575  0.       0.       0.     ]
 [ 1.13389  2.59119  0.       0.     ]
 [-0.37796  0.55132  1.88499  0.     ]
 [ 0.75593 -1.87448  0.16931  1.3734 ]]


Осуществим проверку.

In [58]:
np.dot(L, np.transpose(L))

array([[ 7.,  3., -1.,  2.],
       [ 3.,  8.,  1., -4.],
       [-1.,  1.,  4., -1.],
       [ 2., -4., -1.,  6.]])

Разложение прошло успешно.

### SVD разложение ###

Представление матрицы $X$ в виде

$$X=UDV^{T}$$

называется _сингулярным разложением (Singular Values Decomposition, SVD)_.

Элементы, лежащие на главной диагонали матрицы $D$, называются _сингулярными числами_ матрицы $A$. Столбцы матриц $U$ и $V$ называются _левыми и правыми сингулярными векторами_ матрицы $X$ соответственно.

Пусть матрица $X$ размера $m\times n$ описывает линейный оператор, обозначаемый $\textbf{A}$. Сингулярное разложение матрицы $A=UDV^{T}$ тогда можно будет переформулировать в геометрическом контексте: линейный оператор, характеризующий сложное отображение элементов пространства $\mathbb{R}^{m}$ в элементы пространства $\mathbb{R}^{n}$, можно будет представить в виде последовательно выполняемых простых линейных операций вращения (ортогональный оператор $U$), растяжения (диагональный оператор $D$) и снова вращения (ортогональный оператор $V^{T}$).

Поэтому компоненты сингулярного разложения показывают геометрические изменения при отображении линейным оператором $\textbf{A}$ векторов из одного линейного пространства в другое.

Число ненулевых элементов на диагонали матрицы $D$ будет характеризовать фактическую размерность собственного пространства матрицы $A$ (набора векторов $b$, при котором уравнение $Ax=b$ будет иметь ненулевое решение).

![title](svd.jpg)

Найдём с помощью NumPy SVD для матрицы

$$\begin{pmatrix}
1 & 2 & 0\\ 
0 & 0 & 5\\ 
3 & -4 & 2\\ 
1 & 6 & 5\\ 
0 & 1 & 0
\end{pmatrix}.$$

In [41]:
A = np.array([[1, 2, 0],
              [0, 0, 5],
             [3, -4, 2],
             [1, 6, 5],
             [0, 1, 0]])
print(f'Матрица A:\n{A}')

Матрица A:
[[ 1  2  0]
 [ 0  0  5]
 [ 3 -4  2]
 [ 1  6  5]
 [ 0  1  0]]


In [43]:
U, s, W = np.linalg.svd(A)

Транспонируем матрицу W.

In [44]:
V = W.T

Cписок диагональных элементов s можно привести к виду диагональной матрицы для наглядности.

In [45]:
D = np.zeros_like(A, dtype=float)
D[np.diag_indices(min(A.shape))] = s

Убедимся, что матрица U действительно ортогональна.

In [46]:
print(np.dot(U.T, U))

[[ 1.  0. -0. -0. -0.]
 [ 0.  1.  0. -0.  0.]
 [-0.  0.  1. -0. -0.]
 [-0. -0. -0.  1. -0.]
 [-0.  0. -0. -0.  1.]]


Убедимся, что матрица V действительно ортогональна.

In [47]:
print(np.dot(V.T, V))

[[ 1.  0.  0.]
 [ 0.  1. -0.]
 [ 0. -0.  1.]]


Проведём проверку.

In [48]:
print(np.dot(np.dot(U, D), V.T))

[[ 1.  2.  0.]
 [ 0. -0.  5.]
 [ 3. -4.  2.]
 [ 1.  6.  5.]
 [-0.  1.  0.]]


Разложение осуществлено успешно.

### ALS разложение ###

В методе альтернативных наименьших квадратов мы считаем один набор векторов постоянным(зафиксируем его). Затем мы берем производную функции 
потерь(ищем градиент) по другому набору векторов. Мы устанавливаем производную равной нулю, поскольку хотим минимизировать функцию
потерь и обучаемся на антиградиент. Теперь вычисленные векторы мы считаем постоянными. Теперь ищем [градиент](https://github.com/doksketch/algorithms-for-data-analysis/tree/master/00_math_analysis) по векторам, которые зафиксировали в прошлый раз. 
Таким образом, итерационно, мы постепенно приближаем сходимость и с каждым шагом минимизируем функцию потерь.

$$\sum\limits_{i, j}^{\infty}w_{i, j}(u_{i}v_{j}^T - x_{i,j})^2 \rightarrow \min$$

$$\frac{\partial U}{\partial x_{u}}dx  = -2 \sum\limits_{i, j}^{\infty}w_{i, j}(u_{i}v_{j}^T - x_{i,j}) $$

Фактически, в роли функции потерь у нас выступает [метод наименьших квадратов](https://github.com/doksketch/algorithms-for-data-analysis/blob/master/01_linear%20regression%20and%20gradient%20descent.ipynb). Оптимизация функции потерь происходит с использованием градиентного(стохастического) градиентного спуска. Для решения проблемы переобучения можем добавить L1 и L2 [регуляризацию](https://github.com/doksketch/algorithms-for-data-analysis/blob/master/02_L1-L2%20regularization_stochastic%20gradient%20descent.ipynb).