# Алгоритмы SVD и ALS

## SINGULAR VALUE DECOMPOSITION (SVD)

В теореме о сингулярном разложении утверждается, что у любой матрицы размера × существует разложение в произведение трех матриц  $U,\ \Sigma,\ V^{T}$:
$$\underset{n\times m}{A} = \underset{n\times n}{U}\times \underset{n\times m}{\Sigma }\times \underset{m\times m}{V^{T}}$$

Матрицы $U$ и $V$ ортогональные, а $\Sigma$ — диагональная.
$$\begin{equation}\begin{array}{c} \boldsymbol{U} \boldsymbol{U}^{T}=\boldsymbol{I}_{n}, \quad \boldsymbol{V} \boldsymbol{V}^{T}=\boldsymbol{I}_{m} \\ \boldsymbol{\Sigma}=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{\min (n, m)}\right), \quad \lambda_{1} \geqslant \ldots \geqslant \lambda_{\min (n, m)} \geqslant 0 \end{array}\end{equation}$$

Усеченное разложение — из лямбд остаются только первые чисел, остальные равны нулю.
$$\begin{equation}\lambda_{d+1}, \ldots, \lambda_{\min }(n, m):=0\end{equation}$$

Это равносильно тому, что у матриц $U$ и $V$ мы оставляем только первые $d$ столбцов, а матрицу $\Sigma$ обрезаем до квадратной $d \times d$.
$$\begin{equation}\underset{n \times m}{\boldsymbol{A}^{\prime}}=\underset{n \times d}{\boldsymbol{U}^{\prime}} \times \underset{d \times d}{\boldsymbol{\Sigma}^{\prime}} \times\underset{d \times m}{ \boldsymbol{V}^{\prime T}}\end{equation}$$

Это было сингулярное разложение для матриц, теперь будем использовать его для наших рекомендаций.

У нас была матрица, мы разложили её в произведение трёх (двух) матриц, причем разложили приблизительно. 

Теперь, чтобы предсказать оценку пользователя для фильма, нам нужно:
- взять некоторый вектор (набор параметров) для данного пользователя; 
- взять вектор для данного фильма. 

Их скалярное произведение и будет нужным нам предсказанием:
$$\begin{equation}\hat{r}_{u i}=\left\langle\boldsymbol{p}_{u}, \boldsymbol{q}_{i}\right\rangle\end{equation}$$


<img src="../images/ml9_7.png" alt="Binary-cross-entropy" width="600" align="center">

То есть, чтобы предсказать оценку пользователю для фильма, мы берём вектор некоторых параметров для пользователя, потом берём вектор некоторых параметров для фильма и наше предсказание — это их скалярное произведение. 

Алгоритм достаточно простой, но даёт удивительно хорошие результаты.

**Почему сразу не сделать SVD?**

- матрица оценок нам полностью не известна;
- SVD-разложение не единственное.


У нас есть оценки пользователей, при помощи которых мы можем найти такие оптимальные параметры, при которых модель предсказывала бы эти оценки как можно лучше:
$$\begin{equation}\mathbf{E}_{(u, i)}\left(\hat{r}_{u i}(\Theta)-r_{u i}\right)^{2} \rightarrow \min _{\Theta}\end{equation}$$

Мы хотим найти такие параметры θ, чтобы квадрат ошибки был как можно меньше. 

→ Парадокс: мы хотим меньше ошибаться в будущем, но мы не знаем, какие оценки у нас будут спрашивать. И оптимизировать это мы не можем. 

Но нам известны уже проставленные пользователями оценки. Попробуем подобрать параметры так, чтобы на тех оценках, которые у нас уже есть, ошибка была как можно меньше:
$$\begin{equation}\underbrace{\sum_{(u, i) \in \mathcal{D}}\left(\hat{r}_{u i}(\Theta)-r_{u i}\right)^{2}}_{\text {качество на обучающей выборке }}+\underbrace{\lambda \sum_{\theta \in \Theta} \theta^{2}}_{\text {регуляризация }} \rightarrow \min _{\Theta}\end{equation}$$


## ALTERNATING LEAST SQUARES (ALS)

ALS — итеративный алгоритм разложения матрицы предпочтений на произведение двух матриц: 

- факторов пользователей (U);
- факторов товаров (I).

Работает по принципу минимизации среднеквадратичной ошибки на проставленных рейтингах. 

<img src="../images/ml9_9_1.png" alt="Binary-cross-entropy" width="700" align="center">

Оптимизация происходит поочерёдно:

- сначала по факторам пользователей;
- затем по факторам товаров.

Для обхода переобучения, к ошибке добавляются регуляризационные коэффициенты.

**А ЕСЛИ ПРЕДПОЧТЕНИЯ МЕНЯЮТСЯ?**

- Матрица предпочтений отражает предпочтения «в плоскости».
- Матрица предпочтений не отражает изменения предпочтений во времени.
- Матрица предпочтений не учитывает близость продуктов по  составу/цели/назначению.

## ЗАДАНИЕ

В следующем задании вам необходимо будет написать свою имплементацию SVD-разложения. Но сначала разберём по шагам, как это сделать.

### Шаг 1. 
Создадим матрицу 'пользователь-фильм', на которой будем практиковаться с SVD-разложением.

In [9]:
import numpy as np
from scipy import linalg

In [4]:
user_movie_matrix = np.array(((1,5,0,5,4), (5,4,4,3,2), (0,4,0,0,5), (4,4,1,4,0), (0,4,3,5,0), (2,4,3,5,3)))

### Шаг 2. 
Сингулярное разложение матрицы — это некое новое представление исходной матрицы, которое отображено в сингулярных числах и сингулярных векторах. Так выглядит формула сингулярного разложения:
$$M \Sigma U$$

где $M$ — исходная матрица 'пользователь-фильм'; $\Sigma$ — матрица, на диагонали которой лежат сингулярные числа, а вне диагонали нули; $U$ — матрица-представление пользователей; $V$ — матрица-представление фильмов. 

### Шаг 3. 
Нам важно понимать, что в лице матриц $U$ и $V$ мы получаем новое представление пользователей и фильмов соответственно. Мы не будем заставлять вас с нуля рассчитывать сингулярные числа и сингулярные векторы, воспользуемся встроенной функцией библиотеки scipy: 

U, s, V = scipy.linalg.svd(M) 

Задание 9.7.1

При помощи библиотеки scipy проведите SVD-разложение матрицы user_movie_matrix. Введите в ответ вторую координату полученного вектора  (без округления).

In [12]:
U, s, V = linalg.svd(user_movie_matrix) 

In [13]:
s

array([16.46644354,  6.21001334,  4.39908461,  2.90336429,  1.58445634])

In [17]:
display(user_movie_matrix.shape)
display(U.shape)
display(s.shape)
display(V.shape)

(6, 5)

(6, 6)

(5,)

(5, 5)

На этом этапе мы получили новое матричное представление пользователей и фильмов. Заметим, что размерность нашего разложения совпадает с размерностью исходной матрицы. 

На практике обычно используют сокращенное представление, так как SVD-алгоритм обладает свойством уменьшения размерности без значительной потери информации. На больших матрицах 1 000 000 x 1 000 000 это особенно ощутимо. 

Чтобы сократить размерность, например до двух компонент, необходимо взять по две первых строки из каждой матрицы-представления. 

Извлеките из матричных представлений первые две строки и сохраните их. Все дальнейшие действия будут производиться с ними.

In [20]:
U_new = U[:2, :]
V_new = V[:2, :]

SVD-разложение на две компоненты произведено. Теперь посмотрим, какой фильм наше новое представление порекомендует в первую очередь для существующего пользователя.

Из исходной матрицы выберем вторую строчку (пользователь №2) — user_2.

Важно! Имеется в виду именно индекс (то есть это третья строчка, если считать первую строку первой, а не нулевой).



Чтобы перевести пользователя в новое представление сниженной размерности, необходимо его исходный вектор умножить на транспонированную матрицу-представление фильмов.
$$lowdim = user\_2 V^{T}$$

Задание 9.7.2

Введите вторую координату полученного вектора $lowdim$.

In [30]:
user_2 = user_movie_matrix[2, :]

lowdim = np.dot(user_2, V_new.T)
lowdim

array([-4.09679486,  4.68635611])

### Финальный шаг. 
Необходимо произвести обратную трансформацию вектора в вектор оценок фильмов (т. е. в исходное представление фильмов). Для этого необходимо представление пользователя сниженной размерности умножить на матрицу-представление фильмов: $inversed\_transformation=lowdim V$

In [32]:
inversed_transformation = np.dot(lowdim, V_new)
inversed_transformation

array([-0.6096677 ,  3.54684982, -0.57140075,  1.15887633,  4.9116525 ])

In [34]:
user_2

array([0, 4, 0, 0, 5])

Задание 9.7.3

1. Произведите обратную трансформацию вектора сниженной размерности в исходное пространство оценок. Теперь мы получили новый вектор оценок для пользователя №2 (обратите внимание на незначительное изменение оценок фильмов, которые этот пользователь действительно посмотрел). Укажите индекс непросмотренного пользователем №2 фильма, который имеет наибольшую оценку.

2. Найдите модуль разности настоящей оценки для фильма с индексом 4 и предсказания. В ответе укажите результат, округлённый до трёх знаков после точки-разделителя.

In [38]:
i = 4
round(np.abs(user_2 - inversed_transformation)[i], 3)

0.088

3. А теперь давайте проверим наше SVD-разложение на новом пользователе. Выведите индекс непросмотренного новым пользователем фильма, который имеет наибольшую оценку. При этом новый пользователь что-то успел посмотреть:

In [39]:
new_user = np.array((0, 0, 3, 4, 0))

In [40]:
new_lowdim = np.dot(new_user, V_new.T)
new_inversed_transformation = np.dot(new_lowdim, V_new)
new_inversed_transformation

array([ 1.88933495,  1.46416086,  1.72840648,  2.3739358 , -0.58706807])