### Матричные факторизации

В данной работе вам предстоит познакомиться с практической стороной матричных разложений.
Работа поделена на 4 задания:
1. Вам необходимо реализовать SVD разложения используя SGD на explicit данных
2. Вам необходимо реализовать матричное разложения используя ALS на implicit данных
3. Вам необходимо реализовать матричное разложения используя BPR на implicit данных
4. Вам необходимо реализовать матричное разложения используя WARP на implicit данных

Мягкий дедлайн 13 Октября (пишутся замечания, выставляется оценка, есть возможность исправить до жесткого дедлайна)

Жесткий дедлайн 20 Октября (Итоговая проверка)

In [99]:
import implicit
import pandas as pd
import numpy as np
import scipy.sparse as sp
from sklearn.metrics.pairwise import cosine_similarity

from tqdm.auto import tqdm, trange

from lightfm.datasets import fetch_movielens

def mse(U, I, ratings):
    y_pred = (U @ I.T)[ratings.nonzero()]
    y_true = ratings.data
    return np.mean((y_true - y_pred)**2)

В данной работе мы будем работать с explicit датасетом movieLens, в котором представленны пары user_id movie_id и rating выставленный пользователем фильму

Скачать датасет можно по ссылке https://grouplens.org/datasets/movielens/1m/

In [2]:
ratings = pd.read_csv("data/ratings.dat", delimiter="::", header=None, 
        names=['user_id', 'movie_id', 'rating', "timestamp"], 
        usecols=['user_id', 'movie_id', 'rating'], engine="python")

In [3]:
movie_info = pd.read_csv("data/movies.dat", delimiter="::", header=None, 
        names=['movie_id', 'name', 'category'], engine="python", encoding="latin1")

Explicit данные

In [4]:
ratings.head()

Unnamed: 0,user_id,movie_id,rating
0,1,1193,5
1,1,661,3
2,1,914,3
3,1,3408,4
4,1,2355,5


In [5]:
ratings["user_id"].drop_duplicates().shape

(6040,)

Для того, чтобы преобразовать текущий датасет в Implicit, давайте считать что позитивная оценка это оценка >=4

In [6]:
implicit_ratings = ratings.loc[(ratings['rating'] >= 4)]

In [7]:
implicit_ratings.head()

Unnamed: 0,user_id,movie_id,rating
0,1,1193,5
3,1,3408,4
4,1,2355,5
6,1,1287,5
7,1,2804,5


Удобнее работать с sparse матричками, давайте преобразуем DataFrame в CSR матрицы

In [8]:
users = implicit_ratings["user_id"]
movies = implicit_ratings["movie_id"]

user_item = sp.coo_matrix((np.ones_like(users), (users, movies)))
user_item_t_csr = user_item.T.tocsr()
user_item_csr = user_item.tocsr()

В качестве примера воспользуемся ALS разложением из библиотеки implicit

Зададим размерность латентного пространства равным 64, это же определяет размер user/item эмбедингов

In [9]:
model = implicit.als.AlternatingLeastSquares(factors=64, iterations=100, calculate_training_loss=True)

В качестве loss здесь всеми любимый RMSE

In [10]:
model.fit(user_item_t_csr)

  0%|          | 0/100 [00:00<?, ?it/s]

Построим похожие фильмы по 1 movie_id = Истории игрушек

In [11]:
movie_info.head(5)

Unnamed: 0,movie_id,name,category
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy


In [12]:
get_similars = lambda item_id, model : [movie_info[movie_info["movie_id"] == x[0]]["name"].to_string() 
                                        for x in model.similar_items(item_id)]

Как мы видим, симилары действительно оказались симиларами.

Качество симиларов часто является хорошим способом проверить качество алгоритмов.

P.S. Если хочется поглубже разобраться в том как разные алгоритмы формируют разные латентные пространства, рекомендую загружать полученные вектора в tensorBoard и смотреть на сформированное пространство

In [13]:
get_similars(1, model)

['0    Toy Story (1995)',
 '3045    Toy Story 2 (1999)',
 "2286    Bug's Life, A (1998)",
 '33    Babe (1995)',
 '2315    Babe: Pig in the City (1998)',
 '584    Aladdin (1992)',
 '1526    Hercules (1997)',
 '3817    Went to Coney Island on a Mission From God... ...',
 '2692    Iron Giant, The (1999)',
 '360    Lion King, The (1994)']

Давайте теперь построим рекомендации для юзеров

Как мы видим юзеру нравится фантастика, значит и в рекомендациях ожидаем увидеть фантастику

In [14]:
get_user_history = lambda user_id, implicit_ratings : [movie_info[movie_info["movie_id"] == x]["name"].to_string() 
                                            for x in implicit_ratings[implicit_ratings["user_id"] == user_id]["movie_id"]]

In [15]:
get_user_history(4, implicit_ratings)

['3399    Hustler, The (1961)',
 '2882    Fistful of Dollars, A (1964)',
 '1196    Alien (1979)',
 '1023    Die Hard (1988)',
 '257    Star Wars: Episode IV - A New Hope (1977)',
 '1959    Saving Private Ryan (1998)',
 '476    Jurassic Park (1993)',
 '1180    Raiders of the Lost Ark (1981)',
 '1885    Rocky (1976)',
 '1081    E.T. the Extra-Terrestrial (1982)',
 '3349    Thelma & Louise (1991)',
 '3633    Mad Max (1979)',
 '2297    King Kong (1933)',
 '1366    Jaws (1975)',
 '1183    Good, The Bad and The Ugly, The (1966)',
 '2623    Run Lola Run (Lola rennt) (1998)',
 '2878    Goldfinger (1964)',
 '1220    Terminator, The (1984)']

Получилось! 

Мы действительно порекомендовали пользователю фантастику и боевики, более того встречаются продолжения тех фильмов, которые он высоко оценил

In [16]:
get_recommendations = lambda user_id, model : [movie_info[movie_info["movie_id"] == x[0]]["name"].to_string() 
                                               for x in model.recommend(user_id, user_item_csr)]

In [17]:
get_recommendations(4, model)

['585    Terminator 2: Judgment Day (1991)',
 '1178    Star Wars: Episode V - The Empire Strikes Back...',
 '1284    Butch Cassidy and the Sundance Kid (1969)',
 '1271    Indiana Jones and the Last Crusade (1989)',
 '2502    Matrix, The (1999)',
 '1182    Aliens (1986)',
 '1884    French Connection, The (1971)',
 '3402    Close Encounters of the Third Kind (1977)',
 '2460    Planet of the Apes (1968)',
 '3458    Predator (1987)']

Теперь ваша очередь реализовать самые популярные алгоритмы матричных разложений

Что будет оцениваться:
1. Корректность алгоритма
2. Качество получившихся симиларов
3. Качество итоговых рекомендаций для юзера

### Задание 1. Не использую готовые решения, реализовать SVD разложение используя SGD на explicit данных

In [107]:
class SGDSVD:
    def __init__(self, epochs=100, lr=1e-4, factors=32, lambd=1e-5, random_state=None):        
        self.U, self.I = None, None
        self.bu, self.bi = None, None
        self.mu = None
        
        self.lr = lr
        self.lambd = lambd
        self.factors = factors
        self.epochs = epochs
        self.random_state = random_state
        self.init_high = np.sqrt(1 / self.factors)
    
    def fit(self, user_items):        
        np.random.seed(self.random_state)
        
        rate_idxs = list(zip(*user_items.nonzero()))
        num_users, num_items = user_items.shape

        self.U = np.random.uniform(0, self.init_high, size=(num_users, self.factors))
        self.bu = np.zeros(num_users)
        self.mu = user_items.mean()
        self.I = np.random.uniform(0, self.init_high, size=(num_items, self.factors))
        self.bi = np.zeros(num_items)
        
        
        for _ in trange(1, self.epochs + 1):
            total_loss = 0
            permutation = np.random.permutation(len(rate_idxs))
            
            for sample_idx in permutation:
                i, j = rate_idxs[sample_idx]
                error = (np.dot(self.U[i], self.I[j]) + self.bu[i] + self.bi[j] + self.mu) - user_items[i, j] 

                self.U[i] -= self.lr * (error * self.I[j] + self.lambd * self.U[i])
                self.I[j] -= self.lr * (error * self.U[i] + self.lambd * self.I[j])

                self.bu[i] -= self.lr * (error + self.lambd * self.bu[i]) 
                self.bi[j] -= self.lr * (error + self.lambd * self.bi[j])
                
                total_loss += error**2
            print("Loss: ", total_loss / len(rate_idxs))

        return self
    
    def predict(self, user_ids):
        assert self.U is not None and self.I is not None

        similarity = self.U[user_ids] @ self.I.T + self.mu 
        similarity += self.bu.reshape(-1, 1)[user_ids] + self.bi.reshape(1, -1)
        
        return np.argsort(-similarity, axis=-1) 
    
    def similar_items(self, item_ids, num_neighs=10):
        similarity = cosine_similarity(self.I[item_ids], self.I)
        return np.argsort(-similarity)[:, :num_neighs]
    
    def similar_users(self, user_ids, num_neighs=10):
        similarity = cosine_similarity(self.U[user_ids], self.U)
        return np.argsort(-similarity)[:, :num_neighs]

In [108]:
explicit_user_item = sp.coo_matrix((ratings["rating"], (ratings["user_id"], ratings["movie_id"]))).tocsr()

svd = SGDSVD(epochs=10, lr=1e-2, lambd=1e-2, factors=64, random_state=10)
svd.fit(explicit_user_item)

  0%|          | 0/10 [00:00<?, ?it/s]

Loss:  1.4298301369126782
Loss:  0.8602377523180169
Loss:  0.8318171862471377
Loss:  0.8074738898120912
Loss:  0.7699012771418975
Loss:  0.7264659881129444
Loss:  0.6822052833023382
Loss:  0.6390438172696749
Loss:  0.5980620300159315
Loss:  0.5605563765308215


<__main__.SGDSVD at 0x7fcc2a3edc10>

In [132]:
print("Рекомендации для пользователя 4: ")
movie_info[movie_info["movie_id"].isin(svd.predict([4])[0, :10])]

Рекомендации для пользователя 4: 


Unnamed: 0,movie_id,name,category
523,527,Schindler's List (1993),Drama|War
663,669,Aparajito (1956),Drama
1242,1262,"Great Escape, The (1963)",Adventure|War
1950,2019,Seven Samurai (The Magnificent Seven) (Shichin...,Action|Drama
2735,2804,"Christmas Story, A (1983)",Comedy|Drama
2836,2905,Sanjuro (1962),Action|Adventure
2953,3022,"General, The (1927)",Comedy
2961,3030,Yojimbo (1961),Comedy|Drama|Western
3269,3338,For All Mankind (1989),Documentary
3400,3469,Inherit the Wind (1960),Drama


In [121]:
print("Фильмы похожие на Toy Story: ")
movie_info[movie_info["movie_id"].isin(svd.similar_items([1]).flatten())]

Фильмы похожие на Toy Story: 


Unnamed: 0,movie_id,name,category
0,1,Toy Story (1995),Animation|Children's|Comedy
584,588,Aladdin (1992),Animation|Children's|Comedy|Musical
700,709,Oliver & Company (1988),Animation|Children's
1526,1566,Hercules (1997),Adventure|Animation|Children's|Comedy|Musical
1636,1682,"Truman Show, The (1998)",Drama
2009,2078,"Jungle Book, The (1967)",Animation|Children's|Comedy|Musical
2286,2355,"Bug's Life, A (1998)",Animation|Children's|Comedy
3045,3114,Toy Story 2 (1999),Animation|Children's|Comedy
3090,3159,Fantasia 2000 (1999),Animation|Children's|Musical
3448,3517,"Bells, The (1926)",Crime|Drama


### Задание 2. Не использую готовые решения, реализовать матричное разложение используя ALS на implicit данных

In [122]:
class ALS:
    def __init__(self, epochs=10, factors=64, lr=1e-4, lambd=1e-5, random_state=None):
        self.U, self.I = None, None
        
        self.epochs = epochs
        self.factors = factors
        self.lr = lr
        self.lambd = np.eye(factors) * lambd
        self.random_state = random_state
        self.init_high = np.sqrt(1 / self.factors)
            
    def fit(self, user_items):
        np.random.seed(self.random_state)
        num_users, num_items = user_items.shape
        
        self.U = np.random.uniform(0, self.init_high, size=(num_users, self.factors))
        self.I = np.random.uniform(0, self.init_high, size=(num_items, self.factors))
                
        for t in trange(self.epochs):
            for u in range(num_users):
                rating = user_items.getrow(u).todense()
                self.U[u] = rating @ self.I @ np.linalg.inv(self.I.T @ self.I + self.lambd)
                
            for i in range(num_items):
                rating = user_items.getcol(i).todense().T # will be slow in csr
                self.I[i] = rating @ self.U @ np.linalg.inv(self.U.T @ self.U + self.lambd)
    
            print("Loss:", mse(self.U, self.I, user_items))
    
        return self
    
    def predict(self, user_ids):
        similarity = self.U[user_ids] @ self.I.T
        return np.argsort(-similarity, axis=-1)
    
    def similar_items(self, item_ids, num_neighs=10):
        similarity = cosine_similarity(self.I[item_ids], self.I)
        return np.argsort(-similarity)[:, :num_neighs]
    
    def similar_users(self, user_ids, num_neighs=10):
        similarity = cosine_similarity(self.U[user_ids], self.U)
        return np.argsort(-similarity)[:, :num_neighs]

In [134]:
als = ALS(epochs=25, lr=1e-2, lambd=1e-3, random_state=10)

als.fit(user_item_csr)

  0%|          | 0/25 [00:00<?, ?it/s]

Loss: 0.5329136243879153
Loss: 0.42848174804292893
Loss: 0.4155323493542765
Loss: 0.41152916449109617
Loss: 0.40984420763765417
Loss: 0.4089938211747854
Loss: 0.4085050496139599
Loss: 0.40819785003703885
Loss: 0.40799285853608536
Loss: 0.4078499917564914
Loss: 0.4077467727972777
Loss: 0.4076697051176687
Loss: 0.40761032797931224
Loss: 0.4075631798973442
Loss: 0.40752465568996127
Loss: 0.40749233124053713
Loss: 0.407464551207344
Loss: 0.40744017106102287
Loss: 0.4074183922270358
Loss: 0.40739865447566515
Loss: 0.4073805639994519
Loss: 0.4073638440196936
Loss: 0.4073482998917562
Loss: 0.4073337938792494
Loss: 0.40732022673639584


<__main__.ALS at 0x7fcc29f5dc40>

In [135]:
print("Рекомендации для пользователя 4: ")
movie_info[movie_info["movie_id"].isin(als.predict([4])[0, :10])]

Рекомендации для пользователя 4: 


Unnamed: 0,movie_id,name,category
257,260,Star Wars: Episode IV - A New Hope (1977),Action|Adventure|Fantasy|Sci-Fi
1023,1036,Die Hard (1988),Action|Thriller
1081,1097,E.T. the Extra-Terrestrial (1982),Children's|Drama|Fantasy|Sci-Fi
1180,1198,Raiders of the Lost Ark (1981),Action|Adventure
1196,1214,Alien (1979),Action|Horror|Sci-Fi|Thriller
1220,1240,"Terminator, The (1984)",Action|Sci-Fi|Thriller
1366,1387,Jaws (1975),Action|Horror
1885,1954,Rocky (1976),Action|Drama
1959,2028,Saving Private Ryan (1998),Action|Drama|War
2878,2947,Goldfinger (1964),Action


In [136]:
print("Фильмы похожие на Toy Story: ")
movie_info[movie_info["movie_id"].isin(als.similar_items([1]).flatten())]

Фильмы похожие на Toy Story: 


Unnamed: 0,movie_id,name,category
0,1,Toy Story (1995),Animation|Children's|Comedy
33,34,Babe (1995),Children's|Comedy|Drama
360,364,"Lion King, The (1994)",Animation|Children's|Musical
584,588,Aladdin (1992),Animation|Children's|Comedy|Musical
591,595,Beauty and the Beast (1991),Animation|Children's|Musical
1526,1566,Hercules (1997),Adventure|Animation|Children's|Comedy|Musical
1838,1907,Mulan (1998),Animation|Children's
2286,2355,"Bug's Life, A (1998)",Animation|Children's|Comedy
2618,2687,Tarzan (1999),Animation|Children's
3045,3114,Toy Story 2 (1999),Animation|Children's|Comedy


### Задание 3. Не использую готовые решения, реализовать матричное разложение BPR на implicit данных

### Задание 4. Не использую готовые решения, реализовать матричное разложение WARP на implicit данных