# Урок 5

# Сингулярное разложение матриц

В этом уроке речь пойдёт о разделе линейной алгебры, максимально близком к прикладным вопросам в области машинного обучения, в частности, об одном из самых широко используемых методов разложения матриц. С матричными разложениями вы вскользь знакомились на уроке по линейным преобразованиям и более подробно на уроках по решению СЛАУ.

__Теорема__

Для любой ненулевой вещественной матрицы $A$ размером $m\times n$ существуют две вещественные ортогональные матрицы $U$ и $V$, такие, что $U^{T}AV$ считается матрицей $D$ размера $m\times n$ с неотрицательными элементами на главной диагонали. В прямоугольной матрице под главной диагональю будем понимать совокупность элементов $d_{ii}$). Все элементы матрицы $D$, не лежащие на главной диагонали, считаются нулевыми.

$U$ и $V$ при этом можно выбрать таким образом, чтобы диагональные элементы матрицы $D$ имели вид:

$$\mu_{1}\geqslant \mu_{2}\geqslant ... \geqslant \mu_{r} > \mu_{r+1}=...=\mu_{n}=0,$$

где $r$ — ранг матрицы $A$. В частности, если $A$ невырождена, то: 

$$\mu_{1}\geqslant \mu_{2}\geqslant ... \geqslant \mu_{r} > 0.$$

Представление матрицы $A$ в виде:

$$A=UDV^{T}$$

называется _сингулярным разложением — Singular Values Decomposition, SVD_.

Элементы, лежащие на главной диагонали матрицы $D$, называются _сингулярными числами_ матрицы $A$. Столбцы матриц $U$ и $V$ называются _левыми и правыми сингулярными векторами_ матрицы $A$ соответственно.

__Геометрический смысл SVD__

Пусть матрица $A$ размера $m\times n$ описывает линейный оператор, обозначаемый $\textbf{A}$. Сингулярное разложение матрицы $A=UDV^{T}$ тогда можно будет переформулировать в геометрическом контексте: линейный оператор, характеризующий сложное отображение элементов пространства $\mathbb{R}^{m}$ в элементы пространства $\mathbb{R}^{n}$, можно будет представить в виде последовательно выполняемых простых линейных операций вращения (ортогональный оператор $U$), растяжения (диагональный оператор $D$) и снова вращения (ортогональный оператор $V^{T}$).

Поэтому компоненты сингулярного разложения показывают геометрические изменения при отображении линейным оператором $\textbf{A}$ векторов из одного линейного пространства в другое.

Число ненулевых элементов на диагонали матрицы $D$ будет характеризовать фактическую размерность собственного пространства матрицы $A$ — набора векторов $b$, при котором уравнение $Ax=b$ будет иметь ненулевое решение.

### Примеры применения SVD

__Пример 1__

Рассмотрим матрицу $A$, представляющую линейное преобразование $Ax=y$ из одного $n$-мерного пространства, $X$, в другое, $Y$. Предполагаем, что в $X$ и $Y$ заданы ортогональные системы координат. Рассмотрим ортогональное преобразование системы координат в пространстве $X$, в результате которого вектор $x$ получит новое представление $x'$, где $x=Vx'$. Таким же образом, применяя другое ортогональное преобразование координат в $Y$, мы получим новые координаты для $y$, где $y=Uy'$.

В результате изменения базисов $X$ и $Y$ преобразование, первоначально представленное матрицей $A$, будет представляться матрицей $D$:

$$y'=U^{T}y=U^{T}Ax=U^{T}A(Vx')=(U^{T}AV)x'=Dx'.$$

В новой ортогональной системе координат преобразование имеет очень простое представление:

$$\begin{cases}
y'_{1}=\mu_{1}x'_{1},\\ 
y'_{2}=\mu_{2}x'_{2},\\ 
... \\ 
y'_{r}=\mu_{r}x'_{r}, \\ 
y'_{r+1}=0, \\ 
... \\ 
y'_{n}=0.
\end{cases}$$

Оно теперь отображает координатные оси пространства $X$ с $1$-й до $r$-й в соответствующие координатные оси пространства $Y$, причём $\mu_{i}>0$ выступают коэффициентами растяжения. Последующие координатные оси от $(r+1)$ до $n$ отображаются в нулевой вектор пространства $Y$.

Таким образом, в этом случае применение SVD значительно упростило работу с линейным преобразованием из одного векторного пространства в другое.

__Пример 2. Вычисление определителей и нахождение вырожденных матриц__

Пусть $A$ — некоторая квадратная матрица. Тогда, имея её сингулярное разложение, получим:

$$detA=detU\cdot detD\cdot detV^{T}.$$

Определитель ортогональной матрицы равен $\pm1$, а определитель диагональной матрицы есть произведение её диагональных элементов. Таким образом,

$$detA=\pm \mu_{1}\cdot\mu_{2}\cdot...\cdot\mu_{r}.$$

Этот метод бывает полезен, когда есть матрица $A(z)$, зависящая, возможно, сложным образом, от некоторого параметра $z$, и надо найти значения $z$, при которых $detA=0$.

SVD-разложение считается удобным методом работы с матрицами и имеет множество практических применений, в том числе в алгоритмах машинного обучения и анализе данных. Оно демонстрирует геометрическую структуру матрицы и позволяет наглядно показать данные, имеющиеся в ней. Сингулярное разложение используется при решении самых разнообразных задач — от приближения и вычисления ранга матриц до распознавания изображений и построения рекомендательных систем. 

Есть также так называемое сжатое представление сингулярного разложения в случае рассмотрения матрицы размера $m\times n$. 

При разложении вида:

$$A_{(m\times n)}=U_{(m\times m)}D_{(m\times n)}V^{T}_{(n\times n)}$$

в случае $m>n$ матрица $D$ будет иметь пустые строки, а в случае $m<n$ — пустые столбцы. Поэтому разложение можно представить как:

$$A_{(m\times n)}=U_{(m\times r)}D_{(r\times r)}V^{T}_{(r\times n)},$$

в котором $r=\text{min}(m,n)$.

### SVD и собственные значения матрицы

Сингулярное разложение обладает свойством, связывающим задачу нахождения сингулярного разложения матрицы и задачу нахождения её собственных векторов.

Так как матрицы $U$ и $V$ ортогональные, из чего следует, что $U^{T}U=VV^{T}=E$, где $E$ — единичная матрица порядка $r$ , то:

$$AA^{T}=UDV^{T}VDU^{T}=UD^{2}U^{T},$$

$$A^{T}A=VDU^{T}UDV^{T}=VD^{2}V^{T}.$$

Умножив выражения справа на $U$ и $V$ соответственно, получим:

$$AA^{T}U=UD^{2},$$

$$A^{T}AV=VD^{2}.$$

Вспоминая определение собственных векторов и собственных значений, можно заключить, что левые сингулярные векторы матрицы $A$ (столбцы матрицы $U$) считаются собственными векторами матрицы $AA^{T}$, а квадраты сингулярных чисел, лежащих на главной диагонали матрицы $D$ — соответствующими собственными значениями этой матрицы.

Аналогично правые сингулярные векторы матрицы $A$ (столбцы матрицы $V$) считаются собственными векторами матрицы $A^{T}A$, а квадраты сингулярных чисел — её соответствующими собственными значениями.

Левый и правый сингулярные векторы $u$ и $v$, соответствующие одному и тому же сингулярному числу $\mu_{j}$, связаны соотношениями:

$$Av_{j}=\mu_{j}u_{j}, A^{T}u_{j}=\mu_{j}v_{j}.$$

Существует большое число алгоритмов нахождения сингулярного разложения различной производительности и точности, но в этом курсе их рассмотрение не предусмотрено. Подробнее о различных алгоритмах нахождения SVD — в книге «Матричные вычисления» (п. 2 списка литературы).

В Python сингулярное разложение производится по функции `numpy.linalg.svd(a)`, где `a` — матрица. На выходе она даёт три объекта — матрицу $U$, список, состоящий из сингулярных чисел, и матрицу $V^{T}$.


Найдём разложение для матрицы:

$$A=\begin{pmatrix}
0.96 & 1.72\\ 
2.28 & 0.96
\end{pmatrix}.$$

In [None]:
import numpy as np
np.set_printoptions(precision=2, suppress=True)

In [None]:
A = np.array([[0.96, 1.72],
              [2.28, 0.96]])
print(f'Матрица A:\n{A}')

Матрица A:
[[0.96 1.72]
 [2.28 0.96]]


In [None]:

U, s, W = np.linalg.svd(A)

# Транспонируем матрицу W
V = W.T

# s - список диагональных элементов, его нужно привести к виду диагональной матрицы для наглядности
D = np.zeros_like(A, dtype=float)
D[np.diag_indices(min(A.shape))] = s

In [None]:
print(f'Матрица D:\n{D}')

Матрица D:
[[3. 0.]
 [0. 1.]]


In [None]:
print(f'Матрица U:\n{U}')

Матрица U:
[[-0.6 -0.8]
 [-0.8  0.6]]


In [None]:
# Убедимся, что она действительно ортогональна
print(np.dot(U.T, U))

[[1. 0.]
 [0. 1.]]


In [None]:
print(f'Матрица V:\n{V}')

Матрица V:
[[-0.8  0.6]
 [-0.6 -0.8]]


In [None]:
# Убедимся, что она действительно ортогональна
print(np.dot(V.T, V))

[[ 1. -0.]
 [-0.  1.]]


In [None]:
# Проведем проверку
print(np.dot(np.dot(U, D), V.T))

[[0.96 1.72]
 [2.28 0.96]]


## SVD и нормирование матриц

При умножении ненулевого вектора $x$ на матрицу $A$ норма (длина) получающегося вектора $Ax$ изменяется, если только матрица $A$ не ортогональна, тогда длина вектора остаётся неизменной, и, посчитав соотношение $\frac{\left \| Ax \right \|}{\left \| x \right \|}$, можно узнать, во сколько раз. Это и будет _евклидова норма матрицы_ — максимальный коэффициент растяжения вектора, то есть она характеризует «значимость» матрицы.

$$\left \| A \right \|_{E}=\text{max}\left (\frac{\left \| Ax \right \|}{\left \| x \right \|}\right )$$

Как мы помним, евклидова норма вектора определена как:

$$\left\|x\right\|_{2} = \sqrt{\sum_{i}|x_{i}|^{2}},$$

что можно представить также с использованием скалярного произведения:

$$\left\|x\right\|_{2}^{2} = (x,x).$$

Осуществим сингулярное разложение матрицы $A=UDV^{T}$ и подставим его в выражение определения нормы, принимая во внимание, что ортогональные матрицы сохраняют скалярное произведение:

$$\left \| A \right \|_{E}^{2}=\text{max}\left (\frac{(Ax,Ax)}{(x,x)}\right )=\text{max}\left (\frac{(UDV^{T}x,UDV^{T}x)}{(V^{T}x,V^{T}x)}\right )=\text{max}\left (\frac{(Dz,Dz)}{(z,z)}\right ).$$

Таким образом, евклидова норма матрицы равна евклидовой норме диагональной матрицы из её сингулярных чисел $D$. Максимальное значение полученного отношения будет равно максимальному сингулярному числу $\mu_{max}$, и, принимая во внимание факт сортировки по убыванию сингулярных чисел, получим:

$$\left \| A \right \|_{E}=\mu_{1}.$$

Есть также _норма Фробениуса_, определяемая как:

$$\left \| A \right \|_{F}=\sqrt{\sum_{i=1}^{m}\sum_{j=1}^{n}a_{ij}^{2}}.$$

Когда известно сингулярное разложение матрицы, её норма Фробениуса вычисляется как:

$$\left \| A \right \|_{F}=\sqrt{\sum_{k=1}^{r}\mu_{k}^{2}}.$$

## Сингулярное разложение в применении к приближению матрицей меньшего ранга

### Идея приближения матрицей меньшего ранга

На практике данные для обработки в большинстве случаев поступают с определённым уровнем шума, в связи с чем не вся информация, содержащаяся в матрице, представляет для анализатора ценность. Таким образом, имеет место задача о нахождении лучшей аппроксимации исходной матрицы $X$ размера $m\times n$ и ранга $r$ некоторой матрицей, ранг которой не превышает заданное число $k$.

Матрица может быть представлена как произведение двух матриц, обозначим его как $UV^{T}$, где $U$ имеет размер $m\times k$, $V$ — $n\times k$.

В случае задачи приближения всё сводится к тому, чтобы найти такие матрицы $U$ и $V$, где бы исходная матрица $X$ и матрица $UV^{T}$ отличались незначительно. Для оценки степени «близости» матриц обычно используется норма Фробениуса, и задача поиска оптимального разложения сводится к нахождению комбинации $U$ и $V$, дающей минимальную норму разности $\left \| X - UV^{T} \right \|$.

Другими словами, задача сводится к нахождению матриц $U$ и $V$, удовлетворяющих условию:

$$\sum_{ij}(x_{ij}-u_{i}v_{j}^{T})^{2}\rightarrow\text{min}.$$

Если исходная матрица $X$ была матрицей признаков объектов, то после такого преобразования матрица $U$ может быть интерпретирована как матрица новых признаков для тех же объектов, при этом происходит уменьшение размерности пространства признаков с минимальными потерями полезной информации.

### Использование SVD

Пусть для исходной матрицы $X$ требуется найти такую матрицу $\tilde{X}$ с рангом, не превышающим заданное число $k$, которая наилучшим образом приблизит исходную, то есть норма их разности $\left \| X - \tilde{X} \right \|$ будет минимальной.

Сингулярное разложение для исходной матрицы примет вид:

$$X=UDV^{T}.$$

Искомую матрицу $\tilde{X}$ также запишем в виде разложения:

$$\tilde{X}=U\tilde{D}V^{T},$$

где $U$ и $V$ — те же, что и в сингулярном разложении матрицы $X$, а матрица $\tilde{D}$ произвольная, удовлетворяющая условию тождественности преобразования (не обязательно диагональная).

Тогда задача примет вид нахождения минимума нормы разности матриц $\left \| D - \tilde{D} \right \|$ рангом не выше $k$.

Поскольку все недиагональные элементы в матрице $D$ равны нулю, условие минимума разности приводит к тому, что недиагональные элементы в матрице $\tilde{D}$ также должны быть равными нулю. Если она диагональная, то, по условию не превышения ранга матрицы $\tilde{X}$ числа $k$, в ней должно быть максимум $k$ ненулевых элементов. Оптимальным в плане минимизации $\left \| D - \tilde{D} \right \|$ будет выбор $\tilde{D}$, равного матрице $D$, в которой все элементы, кроме $k$ наибольших по модулю, заменены нулями.

Таким образом, лучшим приближением матрицы $X$ будет матрица:

$$\tilde{X}=U\tilde{D}V^{T},$$

где матрица $\tilde{D}$ — это матрица $D$, в которой все элементы, кроме $k$ наибольших по модулю, заменены нулями.

Таким образом, задавая явно число $k$, можно регулировать точность приближения исходной матрицы новой матрицей пониженной размерности.

## Практическое задание

1. Найдите посредством NumPy SVD для матрицы:

$$\begin{pmatrix}
1 & 2 & 0\\ 
0 & 0 & 5\\ 
3 & -4 & 2\\ 
1 & 6 & 5\\ 
0 & 1 & 0
\end{pmatrix}.$$


2. Для матрицы из предыдущего задания найдите:

    а) евклидову норму;
    
    б) норму Фробениуса.

## Литература

 1. Форсайт Дж., Молер К. Численное решение систем линейных алгебраических
уравнений. М.: Мир, 1969.
 2. Форсайт Дж., Малькольм М., Моулер К. Машинные методы математических
вычислений. М.: Мир, 1980.
 3. Голуб Дж., Ван-Лоун Ч. Матричные вычисления. М.: Мир, 1999.
 4. Логинов Н. В. Сингулярное разложение матриц. М.: Мир, 1996.
 5. Хорн Р., Джонсон Ч. Матричный анализ. М.: Мир, 1989.
 6. [SVD в NumPy](https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.linalg.svd.html).