# Рекомендательные системы на основе SVD алгоритма

**Collaborative Filtering** - подход, основанный на отношениях между пользователями и товаром, при этом нет никакой информации о пользователях или товарах. 

* Пример явного взаимодействия: рейтинг между пользователям и товарами.
* Неявного: клик, просмотр или покупка не очевидны с точки зрения рейтинга.

**User-item matrix** (матрица пользователь-товар) - это таблица, в которой каждая строка представляет собой пользователя, каждый столбец - товар, а каждая ячейка содержит информацию о взаимодействии между пользователем и товаром. Например, в ячейке может быть указано количество раз, которое пользователь купил товар, или оценка, которую пользователь поставил товару. User-item matrix используется в рекомендательных системах для определения предпочтений пользователей и предложения им наиболее подходящих товаров.

Далее, $R$ - user-item matrix.

**Singular Value Decomposition (SVD)** 

Можно применить [матричную факторизацию](https://translated.turbopages.org/proxy_u/en-ru.ru.0832cecd-64b5506e-d08cf623-74722d776562/https/en.wikipedia.org/wiki/Matrix_factorization_(recommender_systems)). Часто, матричная факторизация применяется в области уменьшения размерности, где мы пытаемся уменьшить количество элементов, сохраняя при этом соответсующую информацию. Так дело обстоит с [основным компонентным анализом (PCA)](https://ru.wikipedia.org/wiki/Метод_главных_компонент) и очень похожим [разложение по сингулярному значению (SVD)](https://ru.wikipedia.org/wiki/Сингулярное_разложение).

$$R_{m \times n} = U_{m \times m} \Sigma_{m \times n} V^{T}_{n \times n} $$

где $\Sigma$  — диагональная матрица с неотрицательными сингулярными числами, $U$ и $V$ - ортогональные матрицы и $U^T U = I$.

При этом, матрица $R$ - очень большая и разряженная. 

**Метод главных компонент ([principal component analysis (PSA)](https://ru.wikipedia.org/wiki/Метод_главных_компонент))** — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. 
Вычисление главных компонент может быть сведено к вычислению SVD разложения матрицы данных или к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. 

Математическое содержание метода главных компонент — это SVD разложение ковариационной матрицы $R$, то есть представление пространства данных в виде суммы взаимно ортогональных собственных подпространств $R$, а самой матрицы $R$ — в виде линейной комбинации ортогональных проекторов на эти подпространства с коэффициентами $\lambda_i$. 

Оставив $d$-первых (главных) компонент ($\lambda_i$) в SVD разложении, получим наиболее точное приближение к $R$ по норме Фробениуса.  
 
$ R_{m \times n} = P_{m \times n} Q_{n \times n} $

$ P = S_{m \times m} V_{m \times n} $ 

$ Q = D^{T}_{n \times n} $

$P$ и $Q$ - взаимно ортогональные собственные подпространства $R$.

Тогда $i$-aя строка $U$ - это представление $i$-го пльзователя, а $j$-ый столбец $V$ - представленте $j$-го товара. Их отношение (рейтинг) выражается с помощью скалярного произведения:

$$R[i][j] = \langle U[i, :], V[:, j] \rangle $$

Матрицы $U$ и $Q$ найдем с помощью градиентного спуска. 

В качестве $Loss$ возьмем $RMSE$:

$$ 
    RMSE = \frac{1}{\lvert D \rvert} \sum_{(i,j) \in D} (\hat{R}_{i, j} - R_{i, j})^2 = 
    \frac{1}{\lvert D \rvert} \sum_{(i, j) \in D} (P_{i} \cdot Q_{j} - R_{i, j})^2
$$

Посчитав градиенты по $P$ и по $Q$, получим формулы обновления весов:

<!-- $\nabla RMSE_p = \frac{d}{dp}RMSE = \frac{1}{\lvert D \rvert} \cdot 2 \cdot \sum_{(u,m) \in D} (\hat{r}_{u,m} - r_{u,m}) \cdot q $

$ \nabla RMSE_q = \frac{d}{dq}RMSE = \frac{1}{\lvert D \rvert} \cdot 2 \cdot \sum_{(u,m) \in D} (\hat{r}_{u,m} - r_{u,m}) \cdot p $ -->

$\begin{cases}
    P[i][k] = P[i][k] - \frac{2}{\lvert D \rvert} \cdot \sum_{(i,j) \in D} (\hat{R}_{i,j} - R_{i,j}) \cdot Q[k][i]
    \\
    Q[k][i] = Q[k][i] - \frac{2}{\lvert D \rvert} \cdot \sum_{(i,j) \in D} (\hat{R}_{i,j} - R_{i,j}) \cdot P[i][k]
\end{cases}
\text{   ,   } k \in {1, d} $

In [1]:
import numpy as np
import pandas as pd
%matplotlib inline

In [2]:
k = 10 # максимальная оценка

movies = ['Фантазия', 'ВАЛЛ-И', 'Пиноккио', 'Бемби' , 'Шрэк', 'Дамбо', 'Спасатели', 'Геркулес', 'Кунг-фу Панда', 'Карлсон']
m_movies = len(movies)

users = ['Андрей', 'Аня', 'Алиса', 'Ваня', 'Леша', 'Оксана', 'Саша', 'Паша', 'Сеня', 'Гриша']        
n_users = len(users)

RANDOMSEED = 42
np.random.seed(42)

N = np.random.randint(15, 40)
ind_movies = [np.random.randint(0, m_movies) for _ in range(N)]
ind_users = [np.random.randint(0, n_users) for _ in range(N)]
rating = [np.random.randint(1, k) for _ in range(N)]

In [3]:
ind_movies

[3, 7, 4, 6, 9, 2, 6, 7, 4, 3, 7, 7, 2, 5, 4, 1, 7, 5, 1, 4, 0]

In [4]:
ind_users

[9, 5, 8, 0, 9, 2, 6, 3, 8, 2, 4, 2, 6, 4, 8, 6, 1, 3, 8, 1, 9]

In [5]:
rating

[9, 5, 2, 4, 7, 8, 3, 1, 4, 2, 8, 4, 2, 6, 6, 4, 6, 2, 2, 4, 8]

In [6]:
def get_user_item_matrix(n_users, m_movies, ind_users, ind_movies, rating):
    R = [[0] * m_movies for _ in range(n_users)]
    N = len(ind_users)
    for i in range(N):
        R[ind_users[i]][ind_movies[i]] = rating[i]
    R = np.array(R)
    return R

R = get_user_item_matrix(n_users, m_movies, ind_users, ind_movies, rating)

pd.DataFrame(R, movies, users)

Unnamed: 0,Андрей,Аня,Алиса,Ваня,Леша,Оксана,Саша,Паша,Сеня,Гриша
Фантазия,0,0,0,0,0,0,4,0,0,0
ВАЛЛ-И,0,0,0,0,4,0,0,6,0,0
Пиноккио,0,0,8,2,0,0,0,4,0,0
Бемби,0,0,0,0,0,2,0,1,0,0
Шрэк,0,0,0,0,0,6,0,8,0,0
Дамбо,0,0,0,0,0,0,0,5,0,0
Спасатели,0,4,2,0,0,0,3,0,0,0
Геркулес,0,0,0,0,0,0,0,0,0,0
Кунг-фу Панда,0,2,0,0,6,0,0,0,0,0
Карлсон,8,0,0,9,0,0,0,0,0,7


In [7]:
def MSE(R, U, V):
    mse = 0
    for ind in range(N):
        i = ind_users[ind]
        j = ind_movies[ind]
        mse += ( R[i][j] - np.dot(U[i,:], V[:,j]) )**2 / N
    return mse

In [8]:
def SVD(ind_users, ind_movies, R, d, step, n_iters):
    
    # инициализация матриц разложения
    U = np.random.rand(R.shape[0], d)
    V = np.random.rand(d, R.shape[1])

    start_mse = MSE(R, U, V)
    
    for n in range(n_iters):
        ind = np.random.randint(0, N)
        i = ind_users[ind]
        j = ind_movies[ind]
        
        for k in range(0, d):
            U[i, k] = U[i, k] + step * (R[i][j] - np.dot(U[i, :], V[:, j])) * V[k, j] 
            V[k, j] = V[k, j] + step * (R[i][j] - np.dot(U[i, :], V[:, j])) * U[i, k] 

        mse = MSE(R, U, V)
    return U, V, start_mse, mse

In [9]:
U, V, start_mse, mse = SVD(ind_users, ind_movies, R, 3, 0.1, 3000) 

In [10]:
U

array([[ 1.14925335,  0.88815964,  1.28628278],
       [ 0.57882653,  1.94198177,  0.69771869],
       [ 2.53474404,  0.56804522, -0.93485506],
       [ 0.3704904 , -0.16867209,  1.05388538],
       [ 1.55206751,  2.16957811,  0.85723033],
       [ 1.33365791,  1.18894038,  0.42200087],
       [-0.97242016,  0.72281182,  2.01041876],
       [ 0.92630088,  0.65107703,  0.91495968],
       [ 2.15831628,  0.66739268,  0.06101079],
       [ 3.4193753 ,  1.93082125,  2.14906612]])

In [11]:
V

array([[ 1.13902333,  0.49589526,  3.13577084,  1.51022004,  2.43299874,
         1.61478736,  0.90118881,  1.35917061,  0.25606832,  0.58638664],
       [ 1.20469557,  1.22963668,  2.65392918, -0.11313503,  1.04946214,
         1.02028505,  1.13741072,  2.37850328,  0.13933145,  1.34705423],
       [ 0.82791748,  1.78740018,  1.55738422,  1.88647772,  0.7935608 ,
         1.49336078,  1.5191865 ,  0.85172746,  0.10549426,  1.11397325]])

In [12]:
R[1][2]

0

In [13]:
np.dot(U[1,:], V[:,2])

8.055565517055356

In [14]:
start_mse, mse

(21.37688033760675, 4.97897320664505e-09)

In [15]:
cap_R = np.zeros((R.shape[0], R.shape[1]))

for i in range(n_users):
    for j in range(m_movies):
        cap_R[i][j] = round(np.dot(U[i,:], V[:,j]), 1)
cap_R

array([[ 3.4,  4. ,  8. ,  4.1,  4.7,  4.7,  4. ,  4.8,  0.6,  3.3],
       [ 3.6,  3.9,  8.1,  2. ,  4. ,  4. ,  3.8,  6. ,  0.5,  3.7],
       [ 2.8,  0.3,  8. ,  2. ,  6. ,  3.3,  1.5,  4. ,  0.6,  1.2],
       [ 1.1,  1.9,  2.4,  2.6,  1.6,  2. ,  1.7,  1. ,  0.2,  1.2],
       [ 5.1,  5. , 12. ,  3.7,  6.7,  6. ,  5.2,  8. ,  0.8,  4.8],
       [ 3.3,  2.9,  8. ,  2.7,  4.8,  4. ,  3.2,  5. ,  0.6,  2.9],
       [ 1.4,  4. ,  2. ,  2.2, -0. ,  2.2,  3. ,  2.1,  0.1,  2.6],
       [ 2.6,  2.9,  6.1,  3.1,  3.7,  3.5,  3. ,  3.6,  0.4,  2.4],
       [ 3.3,  2. ,  8.6,  3.3,  6. ,  4.3,  2.8,  4.6,  0.7,  2.2],
       [ 8. ,  7.9, 19.2,  9. , 12.1, 10.7,  8.5, 11.1,  1.4,  7. ]])

In [16]:
pd.DataFrame(cap_R, movies, users)

Unnamed: 0,Андрей,Аня,Алиса,Ваня,Леша,Оксана,Саша,Паша,Сеня,Гриша
Фантазия,3.4,4.0,8.0,4.1,4.7,4.7,4.0,4.8,0.6,3.3
ВАЛЛ-И,3.6,3.9,8.1,2.0,4.0,4.0,3.8,6.0,0.5,3.7
Пиноккио,2.8,0.3,8.0,2.0,6.0,3.3,1.5,4.0,0.6,1.2
Бемби,1.1,1.9,2.4,2.6,1.6,2.0,1.7,1.0,0.2,1.2
Шрэк,5.1,5.0,12.0,3.7,6.7,6.0,5.2,8.0,0.8,4.8
Дамбо,3.3,2.9,8.0,2.7,4.8,4.0,3.2,5.0,0.6,2.9
Спасатели,1.4,4.0,2.0,2.2,-0.0,2.2,3.0,2.1,0.1,2.6
Геркулес,2.6,2.9,6.1,3.1,3.7,3.5,3.0,3.6,0.4,2.4
Кунг-фу Панда,3.3,2.0,8.6,3.3,6.0,4.3,2.8,4.6,0.7,2.2
Карлсон,8.0,7.9,19.2,9.0,12.1,10.7,8.5,11.1,1.4,7.0
