### Матричные факторизации

В данной работе вам предстоит познакомиться с практической стороной матричных разложений.
Работа поделена на 4 задания:
1. Вам необходимо реализовать SVD разложения используя SGD на explicit данных
2. Вам необходимо реализовать матричное разложения используя ALS на implicit данных
3. Вам необходимо реализовать матричное разложения используя BPR(pair-wise loss) на implicit данных
4. Вам необходимо реализовать матричное разложения используя WARP(list-wise loss) на implicit данных


In [11]:
import implicit
import pandas as pd
import numpy as np
import scipy.sparse as sp

from lightfm.datasets import fetch_movielens

В данной работе мы будем работать с explicit датасетом movieLens, в котором представленны пары user_id movie_id и rating выставленный пользователем фильму

Скачать датасет можно по ссылке https://grouplens.org/datasets/movielens/1m/

In [12]:
ratings = pd.read_csv('ratings.dat', delimiter='::', header=None, 
        names=['user_id', 'movie_id', 'rating', 'timestamp'], 
        usecols=['user_id', 'movie_id', 'rating'], engine='python')

In [13]:
movie_info = pd.read_csv('movies.dat', delimiter='::', header=None, 
        names=['movie_id', 'name', 'category'], engine='python')

Explicit данные

In [14]:
ratings.head(10)

Unnamed: 0,user_id,movie_id,rating
0,1,1193,5
1,1,661,3
2,1,914,3
3,1,3408,4
4,1,2355,5
5,1,1197,3
6,1,1287,5
7,1,2804,5
8,1,594,4
9,1,919,4


Для того, чтобы преобразовать текущий датасет в Implicit, давайте считать что позитивная оценка это оценка >=4

In [68]:
implicit_ratings = ratings.loc[(ratings['rating'] >= 4)]

In [16]:
implicit_ratings.head(10)

Unnamed: 0,user_id,movie_id,rating
0,1,1193,5
3,1,3408,4
4,1,2355,5
6,1,1287,5
7,1,2804,5
8,1,594,4
9,1,919,4
10,1,595,5
11,1,938,4
12,1,2398,4


Удобнее работать с sparse матричками, давайте преобразуем DataFrame в CSR матрицы

In [17]:
users = implicit_ratings["user_id"]
movies = implicit_ratings["movie_id"]
user_item = sp.coo_matrix((np.ones_like(users), (users, movies)))
user_item_t_csr = user_item.T.tocsr()
user_item_csr = user_item.tocsr()

В качестве примера воспользуемся ALS разложением из библиотеки implicit

Зададим размерность латентного пространства равным 64, это же определяет размер user/item эмбедингов

In [18]:
model = implicit.als.AlternatingLeastSquares(factors=64, iterations=100, calculate_training_loss=True)



В качестве loss здесь всеми любимый RMSE

In [19]:
model.fit(user_item_t_csr)

ImportError: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.html

Построим похожие фильмы по 1 movie_id = Истории игрушек

In [20]:
movie_info.head(5)

Unnamed: 0,movie_id,name,category
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [21]:
get_similars = lambda item_id, model : [movie_info[movie_info["movie_id"] == x[0]]["name"].to_string() 
                                        for x in model.similar_items(item_id)]

Как мы видим, симилары действительно оказались симиларами.

Качество симиларов часто является хорошим способом проверить качество алгоритмов.

P.S. Если хочется поглубже разобраться в том как разные алгоритмы формируют разные латентные пространства, рекомендую загружать полученные вектора в tensorBoard и смотреть на сформированное пространство

In [22]:
get_similars(1, model)

['0    Toy Story (1995)',
 '16    Sense and Sensibility (1995)',
 '486    Malice (1993)',
 '863    Killer: A Journal of Murder (1995)',
 '2051    Needful Things (1993)',
 '3411    Lucas (1986)',
 '1988    Incredible Journey, The (1963)',
 '487    Man Without a Face, The (1993)',
 '3405    Retroactive (1997)',
 '952    Angel and the Badman (1947)']

Давайте теперь построим рекомендации для юзеров

Как мы видим юзеру нравится фантастика, значит и в рекомендациях ожидаем увидеть фантастику

In [23]:
get_user_history = lambda user_id, implicit_ratings : [movie_info[movie_info["movie_id"] == x]["name"].to_string() 
                                            for x in implicit_ratings[implicit_ratings["user_id"] == user_id]["movie_id"]]

In [24]:
get_user_history(4, implicit_ratings)

['3399    Hustler, The (1961)',
 '2882    Fistful of Dollars, A (1964)',
 '1196    Alien (1979)',
 '1023    Die Hard (1988)',
 '257    Star Wars: Episode IV - A New Hope (1977)',
 '1959    Saving Private Ryan (1998)',
 '476    Jurassic Park (1993)',
 '1180    Raiders of the Lost Ark (1981)',
 '1885    Rocky (1976)',
 '1081    E.T. the Extra-Terrestrial (1982)',
 '3349    Thelma & Louise (1991)',
 '3633    Mad Max (1979)',
 '2297    King Kong (1933)',
 '1366    Jaws (1975)',
 '1183    Good, The Bad and The Ugly, The (1966)',
 '2623    Run Lola Run (Lola rennt) (1998)',
 '2878    Goldfinger (1964)',
 '1220    Terminator, The (1984)']

Получилось! 

Мы действительно порекомендовали пользователю фантастику и боевики, более того встречаются продолжения тех фильмов, которые он высоко оценил

In [25]:
get_recommendations = lambda user_id, model : [movie_info[movie_info["movie_id"] == x[0]]["name"].to_string() 
                                               for x in model.recommend(user_id, user_item_csr)]

In [26]:
get_recommendations(4, model)

['3458    Predator (1987)',
 '1079    Glengarry Glen Ross (1992)',
 '60    Eye for an Eye (1996)',
 '2054    All Dogs Go to Heaven (1989)',
 '2020    Rescuers Down Under, The (1990)',
 '515    Robocop 3 (1993)',
 '1672    Titanic (1997)',
 '1829    Land Girls, The (1998)',
 "3268    I'll Never Forget What's 'is Name (1967)",
 '1462    Sixth Man, The (1997)']

Теперь ваша очередь реализовать самые популярные алгоритмы матричных разложений

Что будет оцениваться:
1. Корректность алгоритма
2. Качество получившихся симиларов
3. Качество итоговых рекомендаций для юзера

### Задание 1. Не использую готовые решения, реализовать SVD разложение используя SGD на explicit данных

In [114]:
from tqdm import tqdm
from sklearn import metrics
from sklearn.metrics.pairwise import cosine_similarity
import math

def rmse(u, m):
    pred = (u @ m)[ratings["user_id"], ratings["movie_id"]]
    return metrics.mean_squared_error(ratings["rating"], pred, squared=True)

def rmse_ALS(u, m):
    pred = (u @ m)[implicit_ratings["user_id"], implicit_ratings["movie_id"]]
    real = user_item_csr.T[implicit_ratings["user_id"], implicit_ratings["movie_id"]]
    real = np.squeeze(np.asarray(real))
    return metrics.mean_squared_error(real, pred, squared=True)

def get_simil1(m, m_id):
    print("Similarity for film ", m_id)
    simil = np.dot(m[:,m_id], m) / np.sqrt((m * m).sum(axis=0)) / np.sqrt((m[:,m_id] ** 2).sum())
    simil = np.argsort(simil)[::-1]
    for i in simil[:10]:
        print(movie_info[movie_info['movie_id'] == i][['name', 'category']].values)
    return

def get_simil2(m, m_id):
    print("Similarity for film ", m_id)
    movies = m.T
    matr1 = movies[m_id]
    simil = cosine_similarity(np.expand_dims(matr1, axis=0), movies)[0]
    simil = np.argsort(simil)[::-1]
    for i in simil[:10]:
        print(movie_info[movie_info['movie_id'] == i][['name', 'category']].values)
    return

In [88]:
import random
import math
from tqdm import tqdm
from sklearn import metrics

users = ratings["user_id"]
movies = ratings["movie_id"]
movie_ratings = ratings["rating"]

explicit = sp.coo_matrix((movie_ratings, (users, movies))).tocsr()
u_amount = explicit.shape[0]
m_amount = explicit.shape[1]
k = 64

u = np.random.uniform(0, 1 / math.sqrt(k), (u_amount, k))
m = np.random.uniform(0, 1 / math.sqrt(k), (k, m_amount))
u_bias = np.random.uniform(0, 1 / math.sqrt(k), (u_amount, 1))
m_bias = np.random.uniform(0, 1 / math.sqrt(k), (1, m_amount))

epochs = 25000000
l = 0.01
r = 0.001

size = ratings.shape[0]
indeces = list()
for i in range(size):
  indeces.append(i)
losses = list()

for epoch in range(epochs):
    ind = indeces[epoch % len(ratings)]
    i = ratings.loc[ind, "user_id"]
    j = ratings.loc[ind, "movie_id"]
    rat = ratings.loc[ind, 'rating']
    prevW = u[i, :]
    diff = np.dot(u[i, :],m[:, j]) - explicit[i, j] # + u_bias[i, :] + m_bias[:, j]
    u[i, :] -= l * diff * m[:, j].T
    m[:, j] -= l * diff * prevW.T
    u_bias[i, :] -= l * (diff + r * u_bias[i, :])
    m_bias[:, j] -= l * (diff + r * m_bias[:, j])
    if (ind % 100000 == 99999):
        print(rmse(u, m))

8.430050270805815
7.574216307763594
7.134507463559384
7.054892279546618
7.21589757502219
7.419406017216758
7.61599625617271
7.2712886906910255
7.501583345752957
7.816725452555913
2.5563534115188564
1.6273990264723264
1.2666650515169682
1.1050885208413628
1.0481871572249277
1.0197859859467375
0.9994442940821474
0.9593518678896029
0.9212338306191381
0.9011568438958819
0.8742672685513135
0.8659756023499476
0.858097996271169
0.8533823700158338
0.8437162954151336
0.8417155670909233
0.8356416884201563
0.8269723167735819
0.8214714362874256
0.8177683950260055
0.809026271508446
0.8041984724906914
0.7999677059594786
0.7946115550454089
0.7876168158708698
0.784235923209155
0.7791177590144662
0.7725366078417489
0.7673051198418203
0.7630690933309419
0.7551666903051314
0.7497253483149802
0.7460152543661425
0.7399693704472596
0.73254264465594
0.7283187092041856
0.7233252577624198
0.7165844166919513
0.7107849364983724
0.7055233999417779
0.6980628634268514
0.6921662094235598
0.6878053520560613
0.6821803

In [93]:
get_simil1(m, 1) 
get_simil2(m, 10)

Similarity for film  1
[['Toy Story (1995)' "Animation|Children's|Comedy"]]
[['Toy Story 2 (1999)' "Animation|Children's|Comedy"]]
[["Bug's Life, A (1998)" "Animation|Children's|Comedy"]]
[['McCullochs, The (1975)' 'Drama']]
[['East Palace West Palace (Dong gong xi gong) (1997)' 'Drama']]
[['Trouble in Paradise (1932)' 'Comedy|Romance']]
[['Torso (Corpi Presentano Tracce di Violenza Carnale) (1973)' 'Horror']]
[['Parallel Sons (1995)' 'Drama|Romance']]
[['Shiloh (1997)' "Children's|Drama"]]
[['Beauty and the Beast (1991)' "Animation|Children's|Musical"]]
Similarity for film  10
[['GoldenEye (1995)' 'Action|Adventure|Thriller']]
[['Tomorrow Never Dies (1997)' 'Action|Romance|Thriller']]
[['World Is Not Enough, The (1999)' 'Action|Thriller']]
[['Man with the Golden Gun, The (1974)' 'Action']]
[['Live and Let Die (1973)' 'Action']]
[['Somewhere in the City (1997)' 'Drama']]
[['For Your Eyes Only (1981)' 'Action']]
[['Spy Who Loved Me, The (1977)' 'Action']]
[['Love Walked In (1998)' 'Dram

### Задание 2. Не использую готовые решения, реализовать матричное разложение используя ALS на implicit данных

In [127]:
import random
import math
from tqdm import tqdm, trange

users = ratings["user_id"]
movies = ratings["movie_id"]
movie_ratings = ratings["rating"]

explicit = sp.coo_matrix((movie_ratings, (users, movies))).tocsr()
n = explicit.shape[0]
m = explicit.shape[1]
k = 64

u = np.random.uniform(0, 1 / math.sqrt(k), (n, k))
m = np.random.uniform(0, 1 / math.sqrt(k), (k, m)) 
coeffs = user_item_csr.T.toarray() * 0.01 + 1

epochs = 10
l = 0.02

m = m.T
print(rmse_ALS(u, m.T))
for epoch in range(epochs):
    if (epoch % 2 == 0):   
        newM = np.zeros((len(coeffs.T), k))
        for i in trange(len(coeffs.T), position=0):
            b = np.linalg.inv(u.T @ np.diag(coeffs.T[i]) @ u + l * np.eye(u.shape[1]))
            b = b @ u.T @ np.diag(coeffs.T[i])
            newM[i] = (b @ user_item_csr[i].T).T
        m = newM
    else:
        newU = np.zeros((len(coeffs), k))
        for i in trange(len(coeffs), position=0):
            b = np.linalg.inv(m.T @ np.diag(coeffs[i]) @ m + l * np.eye(m.shape[1]))
            b = b @ m.T @ np.diag(coeffs[i])
            newU[i] = (b @ user_item_csr.T[i].T).T
        u = newU
    print(rmse_ALS(u, m.T))

  0%|                                                                                         | 0/3953 [00:00<?, ?it/s]

0.5626990661250493


100%|██████████████████████████████████████████████████████████████████████████████| 3953/3953 [14:59<00:00,  4.39it/s]
  0%|                                                                                         | 0/6041 [00:00<?, ?it/s]

0.7850692837448429


100%|██████████████████████████████████████████████████████████████████████████████| 6041/6041 [10:45<00:00,  9.36it/s]
  0%|                                                                                         | 0/3953 [00:00<?, ?it/s]

0.529982532326618


100%|██████████████████████████████████████████████████████████████████████████████| 3953/3953 [14:59<00:00,  4.39it/s]
  0%|                                                                                 | 1/6041 [00:00<10:10,  9.90it/s]

0.45011396003015497


100%|██████████████████████████████████████████████████████████████████████████████| 6041/6041 [10:54<00:00,  9.23it/s]
  0%|                                                                                         | 0/3953 [00:00<?, ?it/s]

0.42770016520456267


100%|██████████████████████████████████████████████████████████████████████████████| 3953/3953 [14:51<00:00,  4.44it/s]
  0%|                                                                                         | 0/6041 [00:00<?, ?it/s]

0.4194364236057743


100%|██████████████████████████████████████████████████████████████████████████████| 6041/6041 [11:04<00:00,  9.09it/s]
  0%|                                                                                         | 0/3953 [00:00<?, ?it/s]

0.41462696857865006


100%|██████████████████████████████████████████████████████████████████████████████| 3953/3953 [16:02<00:00,  4.11it/s]
  0%|                                                                                 | 1/6041 [00:00<11:58,  8.40it/s]

0.4121412354887366


100%|██████████████████████████████████████████████████████████████████████████████| 6041/6041 [11:17<00:00,  8.92it/s]
  0%|                                                                                         | 0/3953 [00:00<?, ?it/s]

0.41049711102964154


100%|██████████████████████████████████████████████████████████████████████████████| 3953/3953 [15:02<00:00,  4.38it/s]
  0%|                                                                                 | 1/6041 [00:00<11:34,  8.70it/s]

0.4093781811192819


100%|██████████████████████████████████████████████████████████████████████████████| 6041/6041 [11:04<00:00,  9.09it/s]


0.4086862497066015


In [128]:
get_simil1(m, 1) 
get_simil2(m, 10)

Similarity for film  1
[['Toy Story (1995)' "Animation|Children's|Comedy"]]
[['Seven (Se7en) (1995)' 'Crime|Thriller']]
[['Babe (1995)' "Children's|Comedy|Drama"]]
[['When Night Is Falling (1995)' 'Drama|Romance']]
[["Don't Be a Menace to South Central While Drinking Your Juice in the Hood (1996)"
  'Comedy']]
[['Assassins (1995)' 'Thriller']]
[['Ace Ventura: When Nature Calls (1995)' 'Comedy']]
[['Mortal Kombat (1995)' 'Action|Adventure']]
[['Kids of the Round Table (1995)' "Adventure|Children's|Fantasy"]]
[['Indian in the Cupboard, The (1995)' "Adventure|Children's|Fantasy"]]
Similarity for film  10
[['GoldenEye (1995)' 'Action|Adventure|Thriller']]
[['Guardian Angel (1994)' 'Action|Drama|Thriller']]
[['Lamerica (1994)' 'Drama']]
[['Balto (1995)' "Animation|Children's"]]
[['Father of the Bride Part II (1995)' 'Comedy']]
[['Georgia (1995)' 'Drama']]
[['Sabrina (1995)' 'Comedy|Romance']]
[['Cutthroat Island (1995)' 'Action|Adventure|Romance']]
[['Restoration (1995)' 'Drama']]
[['Heat (

### Задание 3. Не использую готовые решения, реализовать матричное разложение BPR на implicit данных

### Задание 4. Не использую готовые решения, реализовать матричное разложение WARP на implicit данных