# **Сингулярное разложение**

Давайте теперь познакомимся с сингулярным разложением (Singular Value Decomposition, SVD).

Этот метод используется в большом количестве приложений, и мы нередко будем с ним сталкиваться, например при изучении рекомендательных систем. 

На самом деле **сингулярное разложение** — это одна из теорем линейной алгебры с большим количеством полезных свойств. 
***
                                                ТЕОРЕМА

Любую прямоугольную матрицу A размера (n, m) можно представить в виде произведения трёх матриц:

![](data/17.PNG)

* U — матрица размера (n, n). Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются **ортогональными**.
* D — матрица размера (n, m). На её главной диагонали стоят числа, называемые **сингулярными числами**, а вне главной диагонали стоят нули.
* V — матрица размера (m, m). Она тоже **ортогональная**.
***

## **КАК ПОЛУЧАЮТСЯ ЭТИ МАТРИЦЫ?**

![](data/18.PNG)

✍️ Итак, давайте рассмотрим пример разложения произвольной прямоугольной матрицы.

ПРИМЕР

Сингулярно разложить матрицу A, если:

![](https://lms.skillfactory.ru/assets/courseware/v1/ac4f0f1977c60cbccd6ce480ba22b84f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-20.png)

Решение:

Для начала найдём компоненты правой матрицы VT. Для этого составляем матрицу Грама A.T@A:

![](https://lms.skillfactory.ru/assets/courseware/v1/3d7dac9aaa3ab3568dfc4e38bf98cc11/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-21.png)

Следующим шагом находим собственные числа и собственные векторы матрицы A.T@A. Для этого составляем характеристическое уравнение для этой матрицы:

![](data/19.PNG)

![](https://lms.skillfactory.ru/assets/courseware/v1/539a567834c41fdd720410e20b498683/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-22.png)

Теперь у нас есть всё для того, чтобы составить матрицу VT. Для этого полученные собственные векторы располагаем в столбцах матрицы VT в порядке возрастания их собственных чисел!

![](https://lms.skillfactory.ru/assets/courseware/v1/c118ef90fa3ea7aaf921f390cbba453f/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-23.png)

* Векторы v1 и v2 называются **правыми сингулярными векторами** матрицы A.

Теперь найдём компоненты матрицы U. Для этого составляем матрицу Грама AAT:

![](https://lms.skillfactory.ru/assets/courseware/v1/17b41dc7c2df6d1f44e3ca88fa4a0681/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-24.png)

Составляем характеристическое уравнение для матрицы AAT, чтобы найти ее собственные значения и собственные числа. Спойлер: ненулевые собственные числа для матриц AAT и ATA всегда будут совпадать:

![](data/20.PNG)

![](https://lms.skillfactory.ru/assets/courseware/v1/e7d803b7a37dd3e8f7f1445df9666013/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-26.png)

Составляем матрицу U из нормированных векторов u1, u2 и u3, расположив их в столбцах в порядке убывания собственных чисел, соответствующих собственным векторам:

![](https://lms.skillfactory.ru/assets/courseware/v1/3cb6248a0e961bdb805115335065da48/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-27.png)

* Векторы u1, u2 и u3 называются **левыми сингулярными векторами** матрицы A.

Для составления сингулярного разложения нам с вами осталось найти матрицу D. На её диагонали будут располагаться сингулярные числа, которые вычисляются как квадратные корни из ненулевых собственных чисел:

![](data/21.PNG)

Полученные сингулярные числа располагаются в матрице D на главной диагонали, оставшиеся строки матрицы заполняются нулями.

![](https://lms.skillfactory.ru/assets/courseware/v1/800777b672d3eee75cd5dd9b6e7e300c/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-28.png)

Теперь у нас есть все компоненты, чтобы составить сингулярное разложение! 

Вспоминаем формулу:

![](https://lms.skillfactory.ru/assets/courseware/v1/d56affc2714d87ca794ea9b6e0a5bbd0/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-29.png)

✍️ Если мы перемножим все полученные матрицы между собой, мы получим изначальную матрицу A! Проверьте это самостоятельно. Проверьте также, что UTU = UUT = E и VTV = VVT = E.

В библиотеке numpy сингулярное разложение реализовано в функции **np.linalg.svd()**:

In [1]:
import numpy as np
# составляем матрицу А 
A = np.array([
    [2, 5, -4],
    [6, 3, 0],
]).T
# применяем сингулярное разложение
np.linalg.svd(A)

(array([[-0.66666667,  0.66666667, -0.33333333],
        [-0.66666667, -0.33333333,  0.66666667],
        [ 0.33333333,  0.66666667,  0.66666667]]),
 array([8.48528137, 4.24264069]),
 array([[-0.70710678, -0.70710678],
        [-0.70710678,  0.70710678]]))

Функция возвращает кортеж из трёх массивов:

* Левая матрица сингулярного разложения U, состоящая из собственных векторов матрицы AAT.
* Сингулярные числа, стоящие на главной диагонали матрицы D.
* Правая матрица сингулярного разложения VT, состоящая из собственных векторов матрицы ATA.

Кстати, заметьте, что наш результат полностью совпал с результатом сингулярного разложения, вычисленным вручную.

Вы спросите: а в чём бонусы сингулярного разложения? Была одна матрица, а стало три — зачем такие сложности? 

Мы коснёмся основных преимуществ, которые имеют значение именно для нас.

### **БОНУС №1. УСЕЧЁННОЕ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ**

**Усечённое сингулярное разложение** — это когда из всех λ выбираются только d первых, самых больших собственных чисел, а остальные кладутся равными нулю. Таким образом, мы отбрасываем незначительную информацию, оставляя только наиболее отличные от 0 собственные числа и собственные вектора.

Такой приём очень активно используется, например, в задачах понижения размерности, а также в рекомендательных системах. 

Предположим, что A — матрица стандартизированных признаков, тогда в строках матрицы VT расположены нужные нам собственные векторы корреляционной матрицы, а на главной диагонали D — корни из собственных чисел корреляционной матрицы.

Если мы научимся быстро считать сингулярное разложение, это решит задачу поиска главных компонент.

Для этого, во-первых, договоримся в матрице D все диагональные элементы писать так, чтобы левый верхний был самый большой, а правый нижний — самый маленький. Тогда все «большие» сингулярные числа сосредоточатся в левом верхнем углу. И нам будет достаточно вычислить и хранить только его, а остальное заменить нулями.

То же касается и матриц U и VT. Если A плохо обусловлена, то «хорошие» собственные векторы корреляционной матрицы будут расположены в верхней части матрицы VT, а остальные будут незначимы и мы сможем заменить их на нули. У матрицы U значимые столбцы будут слева, а справа — незначимые, которые тоже можем обрезать нулевыми.

**ПРИМЕР**

Пусть у нас есть 10 000 наблюдений по 5 000 признаков.

Если данные очень плохо обусловлены и «больших» (не совсем нулевых) собственных чисел всего 10, то мы сможем хранить только небольшие кусочки от всего здорового разложения.

10 признаков по 10 000 наблюдений из матрицы U, угол 10 на 10 из матрицы D и первые 10 строк из матрицы VT. 

### **БОНУС №2. РЕШЕНИЕ МНК ЧЕРЕЗ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ**

Благодаря сингулярному разложению мы можем получить защиту от работы с вырожденными матрицами.

Пусть мы решаем задачу регрессии и в качестве модели используем линейную регрессию:

![](data/22.PNG)

![](https://lms.skillfactory.ru/assets/courseware/v1/3901472afa9fa1670d81d6c983d26454/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-31.png)

Чтобы получить решение, мы составляем матрицу наблюдений A, записав в её столбцы все наши регрессоры, включая регрессор-константу:

![](https://lms.skillfactory.ru/assets/courseware/v1/2a1541aa5a6285c1c9f8b914476ac969/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/dst-math-ml-3-32.png)

Тогда согласно МНК оценка вектора весов w вычисляется по формуле:

![](data/23.PNG)

Но как мы уже с вами знаем, матрица ATA может быть плохо обусловлена или даже вырождена, что приводит к неустойчивым решениям, либо вовсе невозможности получить решение.

* Идея. Давайте представим матрицу наблюдений A в виде сингулярного разложения и посмотрим, что получится.

![](data/24.PNG)

                формула вычисления МНК-оценки через сингулярное разложение матрицы A
***
А в чём бонус? Давайте присмотримся внимательно. 

Если в классической формуле нужно было вычислять обратную матрицу (A.T@A)^-1, которая может быть вырожденной, то в новой формуле мы вычисляем обратную матрицу от диагональной матрицы D^-1. **Диагональная матрица никогда не может быть вырожденной**, у неё **всегда есть обратная**. То есть решение будет существовать всегда, даже при линейно зависимых строках и столбцах!

Строго говоря, матрица D не является диагональной, так как в общем случае она прямоугольная. У нее N строк и k столбцов. Однако только k из них являются ненулевыми, остальные заполнены нулями. Поэтому обратная вычисляется от квадратной диагональной матрицы с ненулевыми строками.

## **КАК СЧИТАЕТСЯ СИНГУЛЯРНОЕ РАЗЛОЖЕНИЕ?**

В реализациях в Python для вычисления сингулярного разложения используются разные итеративные алгоритмы, которые не считают все разложение целиком, а вычисляют постепенно. Подробнее о них вы можете почитать [**здесь**](http://www.machinelearning.ru/wiki/index.php?title=Простой_итерационный_алгоритм_сингулярного_разложения). 

**ГДЕ ИСПОЛЬЗУЕТСЯ?**

SVD-разложение зашито внутри очень многих алгоритмов в Python.

* Например, функция **numpy.linalg.rank** использует его, когда считает ранг матрицы. А **numpy.linalg.det** и **numpy.linalg.inv** не используют, поэтому у них получаются неадекватные результаты для плохо обусловленных матриц, а ранг всегда вычисляется верно.
* Функция **numpy.linalg.lstsq** вычисляет оценку решения переопределенной системы с помощью МНК. Она тоже работает на SVD и устойчива к плохо обусловленным матрицам.
* В sklearn сингулярное разложение зашито внутри класса **LinearRegression**, реализующего модель линейной регрессии по МНК.