Давайте теперь познакомимся с **сингулярным разложением** (Singular Value Decomposition, SVD).

Этот метод используется в большом количестве приложений, и мы нередко будем с ним сталкиваться, например при изучении рекомендательных систем. 

На самом деле сингулярное разложение — это одна из теорем линейной алгебры с большим количеством полезных свойств. 

**ТЕОРЕМА**

Любую прямоугольную матрицу A размера (n, m) можно представить в виде произведения трёх матриц:

$$A_{n\times m}=U_{n \times n} \cdot D_{n \times m} \cdot V^{T}_{m \times m}$$

* $U$ — матрица размера (n, n). Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются **ортогональными.**
* $D$ — матрица размера (n, m). На её главной диагонали стоят числа, называемые **сингулярными** числами, а вне главной диагонали стоят нули.
* $V$ — матрица размера (m, m). Она тоже **ортогональная.**


### **<center>КАК ПОЛУЧАЮТСЯ ЭТИ МАТРИЦЫ?**

Столбцы матрицы $U$ — нормированные собственные векторы $u_j$ матрицы Грама $AA^T$. При этом $UU^{T}=E$.

Столбцы матрицы $V$ — нормированные собственные векторы $v_j$ матрицы Грама $A^{T}A$. При этом $VV^{T}=E$.

Диагональные элементы матрицы $D$ — это корни из собственных чисел $diag(\sqrt{\lambda_1},\sqrt{\lambda_2},...,\sqrt{\lambda_n})$  матриц $A^{T}A$ и $AA^T$ (они будут одинаковы). Диагональные элементы $\sqrt{\lambda_j}$ — сингулярные числа.

✍️ Итак, давайте рассмотрим пример разложения произвольной прямоугольной матрицы.

**ПРИМЕР**

Сингулярно разложить матрицу A, если:

![dst-math-ml-3-20.png](attachment:dst-math-ml-3-20.png)

**Решение:**

Для начала найдём компоненты правой матрицы $V^T$. Для этого составляем матрицу Грама $A^{T}A$:

![dst-math-ml-3-21.png](attachment:dst-math-ml-3-21.png)

Следующим шагом находим собственные числа и собственные векторы матрицы $A^{T}A$. Для этого составляем характеристическое уравнение для этой матрицы:

$$det(A^{T}A-\lambda E)=\lambda^{2}-90\lambda+1296=0$$

Корнями этого квадратного уравнения являются $\lambda_{1}=72$ и $\lambda_{2}=18$. Заметим сразу, что $\lambda_{1}>\lambda_{2}$. 

Подставив $\lambda_{1}$ и $\lambda_{2}$ в однородную систему $(A-\lambda E)v=0$ и решив её дважды, найдём собственные векторы $\vec{v_1}$ и $\vec{v_2}$ (процедуру опустим в целях экономии времени):

$$\vec{v_1}=(-1, -1)^T$$
$$\vec{v_2} =(-1, 1)^T$$

Нормируем наши собственные векторы:

$$\vec{v_{j}}=\frac{\vec{v_j}}{\left \| \vec{v_{j}} \right \|}$$

![dst-math-ml-3-22.png](attachment:dst-math-ml-3-22.png)

Теперь у нас есть всё для того, чтобы составить матрицу $V^T$. Для этого полученные собственные векторы располагаем в столбцах матрицы $V^T$ в порядке убывания их собственных чисел!

![dst-math-ml-3-23.png](attachment:dst-math-ml-3-23.png)

>Векторы $\vec{v_1}$ и $\vec{v_2}$ называются **правыми сингулярными векторами** матрицы A.

Теперь найдём компоненты матрицы $U$. Для этого составляем матрицу Грама $AA^T$:

![dst-math-ml-3-24.png](attachment:dst-math-ml-3-24.png)

Составляем характеристическое уравнение для матрицы $AA^T$, чтобы найти ее собственные значения и собственные числа. Спойлер: ненулевые собственные числа для матриц $AA^T$ и $A^TA$ всегда будут совпадать:

$$det(AA^T-\lambda E)=\lambda^{3}-90 \lambda^{2}+1256 \lambda =\lambda(\lambda^{2}-90 \lambda+1256)=0$$

Откуда получаем, что корнями данного уравнения являются $\lambda_{1}=72$, $\lambda_{2}=18$  и $\lambda_{3}=0$. Заметим сразу, что $\lambda_{1}>\lambda_{2}>\lambda_{3}$.

Подставив $\lambda_{1}$ и $\lambda_{2}$ в однородную систему $(AA^{T}-\lambda E)v=0$ и решив её трижды, найдем собственные векторы $\vec{u_1}$, $\vec{u_2}$ и  $\vec{u_3}$ (процедуру опустим в целях экономии времени):

$$\vec{u_1}=(-2, -2, 1)^T$$
$$\vec{u_2}=(2,-1, 2)^T$$
$$\vec{u_3}=(-1,2, 2)^T$$

Осталось только нормировать полученные собственные векторы:

$$\vec{u_{j}}=\frac{\vec{u_j}}{\left \| \vec{u_{j}} \right \|}$$
![dst-math-ml-3-26.png](attachment:dst-math-ml-3-26.png)

Составляем матрицу $U$ из нормированных векторов $\vec{u_1}$, $\vec{u_2}$ и  $\vec{u_3}$, расположив их в столбцах в порядке убывания собственных чисел, соответствующих собственным векторам:

![dst-math-ml-3-27.png](attachment:dst-math-ml-3-27.png)

Векторы $\vec{u_1}$, $\vec{u_2}$ и  $\vec{u_3}$ называются **левыми сингулярными векторами** матрицы A.

Для составления сингулярного разложения нам с вами осталось найти матрицу $D$. На её диагонали будут располагаться сингулярные числа, которые вычисляются как квадратные корни из ненулевых собственных чисел:

$$\sigma_{i}=\sqrt{\lambda_{i}}$$
$$\sigma_{1}=\sqrt{\lambda_{1}}=\sqrt{72}=6\sqrt{2}$$
$$\sigma_{2}=\sqrt{\lambda_{2}}=\sqrt{18}=3\sqrt{2}$$

Полученные сингулярные числа располагаются в матрице $D$ на главной диагонали, оставшиеся строки матрицы заполняются нулями.

![dst-math-ml-3-28.png](attachment:dst-math-ml-3-28.png)

Теперь у нас есть все компоненты, чтобы составить сингулярное разложение! 

Вспоминаем формулу:

![dst-math-ml-3-29.png](attachment:dst-math-ml-3-29.png)

✍️ Если мы перемножим все полученные матрицы между собой, мы получим изначальную матрицу A! Проверьте это самостоятельно. Проверьте также, что $U^{T}U=UU^{T}=E$ и $V^{T}V=VV^{T}=E$.

В библиотеке numpy сингулярное разложение реализовано в функции **[np.linalg.svd()](https://numpy.org/doc/stable/reference/generated/numpy.linalg.svd.html)**:


In [2]:
import numpy as np
# составляем матрицу А 
A = np.array([
    [2, 5, -4],
    [6, 3, 0],
]).T
# применяем сингулярное разложение
np.linalg.svd(A)

(array([[-0.66666667,  0.66666667, -0.33333333],
        [-0.66666667, -0.33333333,  0.66666667],
        [ 0.33333333,  0.66666667,  0.66666667]]),
 array([8.48528137, 4.24264069]),
 array([[-0.70710678, -0.70710678],
        [-0.70710678,  0.70710678]]))

Функция возвращает кортеж из трёх массивов:

* Левая матрица сингулярного разложения $U$, состоящая из собственных векторов матрицы $AA^T$.
* Сингулярные числа, стоящие на главной диагонали матрицы $D$.
* Правая матрица сингулярного разложения $V^T$, состоящая из собственных векторов матрицы $A^{T}A$.

Кстати, заметьте, что наш результат полностью совпал с результатом сингулярного разложения, вычисленным вручную.


Примечание
Вы спросите: а в чём бонусы сингулярного разложения? Была одна матрица, а стало три — зачем такие сложности? 

В действительности бонусов довольно много и каждый из них находит своё применение. Более подробно вы можете ознакомиться с ними в дополнительных материалах **[здесь](http://www.machinelearning.ru/wiki/index.php?title=%D0%A1%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5)** и **[здесь.](https://kpfu.ru/portal/docs/F984109526/SVD.pdf)** 

Мы коснёмся основных преимуществ, которые имеют значение именно для нас.

## **<center>БОНУС №1. УСЕЧЁННОЕ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ**

Усечённое сингулярное разложение — это когда из всех $lambda_i$ выбираются только $d$ первых, самых больших собственных чисел, а остальные кладутся равными нулю. Таким образом, мы отбрасываем незначительную информацию, оставляя только наиболее отличные от 0 собственные числа и собственные вектора.

Такой приём очень активно используется, например, в задачах понижения размерности, а также в **[рекомендательных системах.](https://habr.com/ru/company/surfingbird/blog/139863/)** 

Предположим, что $A$ — матрица стандартизированных признаков, тогда в строках матрицы $V^T$ расположены нужные нам собственные векторы корреляционной матрицы, а на главной диагонали $D$ — корни из собственных чисел корреляционной матрицы.

Если мы научимся быстро считать сингулярное разложение, это решит задачу поиска главных компонент.

Для этого, во-первых, договоримся в матрице $D$ все диагональные элементы писать так, чтобы левый верхний был самый большой, а правый нижний — самый маленький. Тогда все «большие» сингулярные числа сосредоточатся в левом верхнем углу. И нам будет достаточно вычислить и хранить только его, а остальное заменить нулями.

То же касается и матриц $U$ и $V^T$. Если $A$ плохо обусловлена, то «хорошие» собственные векторы корреляционной матрицы будут расположены в верхней части матрицы $V^T$, а остальные будут незначимы и мы сможем заменить их на нули. У матрицы $U$ значимые столбцы будут слева, а справа — незначимые, которые тоже можем обрезать нулевыми.

**ПРИМЕР**

Пусть у нас есть 10 000 наблюдений по 5 000 признаков.

Если данные очень плохо обусловлены и «больших» (не совсем нулевых) собственных чисел всего 10, то мы сможем хранить только небольшие кусочки от всего здорового разложения.

10 признаков по 10 000 наблюдений из матрицы $U$, угол 10 на 10 из матрицы $D$ и первые 10 строк из матрицы $V^T$. 

 

## **БОНУС №2. РЕШЕНИЕ МНК ЧЕРЕЗ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ**

Благодаря сингулярному разложению мы можем получить защиту от работы с вырожденными матрицами.

Пусть мы решаем задачу регрессии и в качестве модели используем линейную регрессию:

$$y=w_{0}+w_{1}x_{1}+w_{2}x_{2}+…+w_{k}x_{k}$$

или  

$$y=(\vec{w},\vec{x})$$

Здесь $\vec{w}=(w_{0},w_{1},…,w_{k})^T$ — веса (коэффициенты уравнения линейной регрессии), а $\vec{x}=(1,x_{1}, x_{2},…, x_{k})^T$.

У нас есть $N$ наблюдений – это наша обучающая выборка или датасет, представленный в виде таблицы. В столбцах таблицы располагаются векторы признаков $\vec{x_i}$.

![dst-math-ml-3-31.png](attachment:dst-math-ml-3-31.png)

Чтобы получить решение, мы составляем матрицу наблюдений $A$, записав в её столбцы все наши регрессоры, включая регрессор-константу:

![dst-math-ml-3-32.png](attachment:dst-math-ml-3-32.png)

Тогда согласно МНК оценка вектора весов $\hat{\vec{w}}$ вычисляется по формуле:

$$\hat{\vec{w}}=(A^{T}A)^{-1}A^{T}\vec{y}$$

Но как мы уже с вами знаем, матрица $A^{T}A$ может быть плохо обусловлена или даже вырождена, что приводит к неустойчивым решениям, либо вовсе невозможности получить решение.

**Идея.** Давайте представим матрицу наблюдений $A$ в виде сингулярного разложения и посмотрим, что получится.

$$A=UDV^T$$

$A=UDV^T$=[по правилу транспонирования произведения] =$VDU^T$

Тогда подставим в формулу МНК вместо матрицы $A$ её сингулярное разложение:

$$\hat{\vec{w}}=(VDU^{T}UDV^{T})^{-1}VDU^{T}\vec{y}$$

Формула стала сложной и страшной. Однако, если немного поколдовать над ней, то можно ее значительно упростить.

* Вспомним, что U^{T}U=E, тогда:

$$\hat{\vec{w}}=(VDEDV^{T})^{-1}VDU^{T}\vec{y}=(VD^{2}V^{T})^{-1}VDU^{T}\vec{y}$$

* Можно доказать, что $(VD^{2}V^{T})^{-1}=VD^{-2}V^T$, тогда:

$$\hat{\vec{w}}=(VD^{2}V^{T})^{-1}VDU^{T}\vec{y}=VD^{-2}V^{T}VDU^{T}\vec{y}$$

* Вспомним, что $V^{T}V=E$, тогда:

$$\hat{\vec{w}}=VD^{-2}EDU^{T}\vec{y}=VD^{-2}DU^{T}\vec{y}=VD^{-1}U^{T}\vec{y}$$

* Вот он, наш финальный результат — формула вычисления МНК-оценки через сингулярное разложение матрицы $A$:

$$\hat{\vec{w}}=VD^{-1}U^{T}\vec{y}$$

А в чём бонус? Давайте присмотримся внимательно. 

Если в классической формуле нужно было вычислять обратную матрицу $(A^{T}A)^{-1}$, которая может быть вырожденной, то в новой формуле мы вычисляем обратную матрицу от диагональной матрицы $D^{-1}$. Диагональная матрица никогда не может быть вырожденной, у неё всегда есть обратная. То есть решение будет существовать всегда, даже при линейно зависимых строках и столбцах!

Примечание

Строго говоря, матрица $D$ не является диагональной, так как в общем случае она прямоугольная. У нее $N$ строк и $k$ столбцов. Однако только $k$ из них являются ненулевыми, остальные заполнены нулями. Поэтому обратная вычисляется от квадратной диагональной матрицы с ненулевыми строками.

### **<center>КАК СЧИТАЕТСЯ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ?**

В реализациях в Python для вычисления сингулярного разложения используются разные итеративные алгоритмы, которые не считают все разложение целиком, а вычисляют постепенно. Подробнее о них вы можете почитать **[здесь.](http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D1%81%D1%82%D0%BE%D0%B9_%D0%B8%D1%82%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BB%D0%B3%D0%BE%D1%80%D0%B8%D1%82%D0%BC_%D1%81%D0%B8%D0%BD%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B3%D0%BE_%D1%80%D0%B0%D0%B7%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F)** 

### **ГДЕ ИСПОЛЬЗУЕТСЯ?**

SVD-разложение зашито внутри очень многих алгоритмов в Python.

* Например, функция **numpy.linalg.rank** использует его, когда считает ранг матрицы. А **numpy.linalg.det** и **numpy.linalg.in**v не используют, поэтому у них получаются неадекватные результаты для плохо обусловленных матриц, а ранг всегда вычисляется верно.
* Функция **numpy.linalg.lstsq** вычисляет оценку решения переопределенной системы с помощью МНК. Она тоже работает на SVD и устойчива к плохо обусловленным матрицам.
* В sklearn сингулярное разложение зашито внутри класса **LinearRegression**, реализующего модель линейной регрессии по МНК.

In [39]:
A = np.array([
    [2, 5, -4],
    [6, 3, 0],
]).T
# применяем сингулярное разложение
np.linalg.svd(A)

SVDResult(U=array([[-0.66666667,  0.66666667, -0.33333333],
       [-0.66666667, -0.33333333,  0.66666667],
       [ 0.33333333,  0.66666667,  0.66666667]]), S=array([8.48528137, 4.24264069]), Vh=array([[-0.70710678, -0.70710678],
       [-0.70710678,  0.70710678]]))

In [41]:
numbers = [10, 20, 30, 40, 50]
numbers.pop()
print(numbers)

numbers.pop(2)
print(numbers)

[10, 20, 30, 40]
[10, 20, 40]


In [44]:
letters = ['a', 'b', 'c', 'd']
#new_letters = copy(letters)
#print(letterd == new_letters)
new_letters = list(letters)
print(letters == new_letters)
new_letters = letters.copy()
print(letters == new_letters)
new_letters = letters[:]
print(letters == new_letters)
new_letters = new_letters.copy(letters)
print(letters == new_letters)

True
True
True


TypeError: list.copy() takes no arguments (1 given)