### Матричные факторизации

В данной работе вам предстоит познакомиться с практической стороной матричных разложений.

Работа поделена на 4 задания:
1. Вам необходимо реализовать SVD разложения используя SGD на explicit данных
2. Вам необходимо реализовать матричное разложения используя ALS на implicit данных
3. Вам необходимо реализовать матричное разложения используя BPR(pair-wise loss) на implicit данных
4. Вам необходимо реализовать матричное разложения используя WARP(list-wise loss) на implicit данных

Мягкий дедлайн 28 Февраля (пишутся замечания, выставляется оценка, есть возможность исправить до жесткого дедлайна)

Жесткий дедлайн 7 Марта (Итоговая проверка)

In [679]:
import implicit
import numpy as np
import pandas as pd
import scipy.sparse as sp

В данной работе мы будем работать с explicit датасетом movieLens, в котором представленны пары user_id movie_id и rating выставленный пользователем фильму

Скачать датасет можно по ссылке https://grouplens.org/datasets/movielens/1m/

### Считываем данные для юзеров и фильмов

In [680]:
ratings = pd.read_csv('data/ratings.dat', 
                      delimiter='::', 
                      header=None,
                      names=['user_id', 'movie_id', 'rating', 'timestamp'], 
                      usecols=['user_id', 'movie_id', 'rating'], 
                      engine='python')

movie_info = pd.read_csv('data/movies.dat', 
                         delimiter='::', 
                         header=None,
                         names=['movie_id', 'name', 'category'], 
                         engine='python')

In [681]:
ratings.head(10)
print(ratings)

         user_id  movie_id  rating
0              1      1193       5
1              1       661       3
2              1       914       3
3              1      3408       4
4              1      2355       5
...          ...       ...     ...
1000204     6040      1091       1
1000205     6040      1094       5
1000206     6040       562       5
1000207     6040      1096       4
1000208     6040      1097       4

[1000209 rows x 3 columns]


In [682]:
movie_info.head(10)

Unnamed: 0,movie_id,name,category
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
5,6,Heat (1995),Action|Crime|Thriller
6,7,Sabrina (1995),Comedy|Romance
7,8,Tom and Huck (1995),Adventure|Children's
8,9,Sudden Death (1995),Action
9,10,GoldenEye (1995),Action|Adventure|Thriller


### Explicit данные

Для того, чтобы преобразовать текущий датасет в Implicit, давайте считать что позитивная оценка это оценка **>=4**

In [683]:
implicit_ratings = ratings[ratings.rating >= 4]

In [684]:
implicit_ratings.head(10)

Unnamed: 0,user_id,movie_id,rating
0,1,1193,5
3,1,3408,4
4,1,2355,5
6,1,1287,5
7,1,2804,5
8,1,594,4
9,1,919,4
10,1,595,5
11,1,938,4
12,1,2398,4


Удобнее работать с sparse матричками, давайте преобразуем DataFrame в CSR матрицы

In [685]:
users = implicit_ratings["user_id"]
movies = implicit_ratings["movie_id"]
user_item = sp.coo_matrix((np.ones_like(users), (users, movies)))
user_item_t_csr = user_item.T.tocsr()
user_item_csr = user_item.tocsr()

user_item_csr

<6041x3953 sparse matrix of type '<class 'numpy.int64'>'
	with 575281 stored elements in Compressed Sparse Row format>

В качестве примера воспользуемся ALS разложением из библиотеки implicit

Зададим размерность латентного пространства равным 64, это же определяет размер user/item эмбедингов

In [686]:
model = implicit.als.AlternatingLeastSquares(factors=64, iterations=100, calculate_training_loss=True)

В качестве loss здесь всеми любимый RMSE

In [687]:
model.fit(user_item_t_csr)

HBox(children=(HTML(value=''), FloatProgress(value=0.0), HTML(value='')))




Построим похожие фильмы по 1 movie_id = Истории игрушек

In [688]:
movie_info.loc[0]

movie_id                              1
name                   Toy Story (1995)
category    Animation|Children's|Comedy
Name: 0, dtype: object

In [689]:
def get_similar_films(item_id, model):
    similar = model.similar_items(item_id)           # [(id, score)]
    ids      = [film_id for (film_id, _) in similar]
    masks    = [movie_info['movie_id'] == x for x in ids]
    return [movie_info[mask]['name'].to_string() for mask in masks]

Как мы видим, симилары действительно оказались симиларами.

Качество симиларов часто является хорошим способом проверить качество алгоритмов.

P.S. Если хочется поглубже разобраться в том как разные алгоритмы формируют разные латентные пространства, рекомендую загружать полученные вектора в tensorBoard и смотреть на сформированное пространство

In [690]:
TOY_STORY_ID = 1
get_similar_films(TOY_STORY_ID, model)

['0    Toy Story (1995)',
 '3045    Toy Story 2 (1999)',
 "2286    Bug's Life, A (1998)",
 '33    Babe (1995)',
 '2315    Babe: Pig in the City (1998)',
 '584    Aladdin (1992)',
 '1526    Hercules (1997)',
 '2692    Iron Giant, The (1999)',
 '2252    Pleasantville (1998)',
 '1838    Mulan (1998)']

Давайте теперь построим рекомендации для юзеров

Как мы видим юзеру нравится **фантастика**, значит и в рекомендациях ожидаем увидеть **фантастику**

In [691]:
def get_user_history(user_id, implicit_ratings):
    user_mask   = implicit_ratings['user_id'] == user_id
    film_ids    = implicit_ratings[user_mask]['movie_id']
    movie_masks = [movie_info['movie_id'] == film_id for film_id in film_ids]
    return [movie_info[mask]['name'].to_string() for mask in movie_masks]

In [692]:
get_user_history(4, implicit_ratings)

['3399    Hustler, The (1961)',
 '2882    Fistful of Dollars, A (1964)',
 '1196    Alien (1979)',
 '1023    Die Hard (1988)',
 '257    Star Wars: Episode IV - A New Hope (1977)',
 '1959    Saving Private Ryan (1998)',
 '476    Jurassic Park (1993)',
 '1180    Raiders of the Lost Ark (1981)',
 '1885    Rocky (1976)',
 '1081    E.T. the Extra-Terrestrial (1982)',
 '3349    Thelma & Louise (1991)',
 '3633    Mad Max (1979)',
 '2297    King Kong (1933)',
 '1366    Jaws (1975)',
 '1183    Good, The Bad and The Ugly, The (1966)',
 '2623    Run Lola Run (Lola rennt) (1998)',
 '2878    Goldfinger (1964)',
 '1220    Terminator, The (1984)']

### Получилось! 

Мы действительно порекомендовали пользователю **фантастику и боевики**, более того встречаются **продолжения** тех фильмов, которые он высоко оценил

In [693]:
get_recommendations = lambda user_id, model : [movie_info[movie_info["movie_id"] == x[0]]["name"].to_string() 
                                               for x in model.recommend(user_id, user_item_csr)]

In [694]:
get_recommendations(4, model)

['585    Terminator 2: Judgment Day (1991)',
 '1271    Indiana Jones and the Last Crusade (1989)',
 '1284    Butch Cassidy and the Sundance Kid (1969)',
 '1182    Aliens (1986)',
 '1178    Star Wars: Episode V - The Empire Strikes Back...',
 '2502    Matrix, The (1999)',
 '1179    Princess Bride, The (1987)',
 '1884    French Connection, The (1971)',
 '1892    Rain Man (1988)',
 '3458    Predator (1987)']

Теперь ваша очередь реализовать самые популярные алгоритмы **матричных разложений**

### Что будет оцениваться:
 - Корректность алгоритма
 - Качество получившихся симиларов
 - Качество итоговых рекомендаций для юзера


#### Предобработка данных

In [708]:
from tqdm import trange

## Сделаем сжатую матрицу user-to-item
ratings_user_item = sp.coo_matrix((ratings.rating, (ratings.user_id, ratings.movie_id)))
ratings_user_item_csr = ratings_user_item.tocsr()
ratings_item_user_csr = ratings_user_item.T.tocsr()

## Функция для получения фильмов
def get_movies(idxs):
    return movie_info.set_index('movie_id').loc[[i for i in idxs if i in set(movie_info.movie_id)]]


### Для уменьшения boilerplate'а кода напишем Core общий для всех классов


In [840]:
class CoreMF:
    """
    iterations: int
      Amount of algorithm iterations\n
      default = 1_000_000

    factors: int
      Dimension of latent space\n
      default = 64

    learning_rate: float
      Used only in gradient descent bases algorithms\n
      default = 1e-2

    alpha: float
      (L2 - Ridge regularization)\n
      Regularization value for user-factors / item-factors matrices weights\n
      default = 1e-2

    beta: float
      (L1 - Lasso regularization)\n
      Regularization value for user / item biases\n
      default = 1e-2
    """
    def __init__(self, iterations: float = 1e6,
                 factors: int = 64,
                 learning_rate: float = 1e-2,
                 alpha: float = 1e-2,
                 beta:float = 1e-2,
                 calculate_loss = True):
        self.iterations = int(iterations)
        self.factors = factors
        self.learning_rate = learning_rate
        self.alpha = alpha
        self.beta = beta
        self.calculate_loss = calculate_loss
        
        ## -- Will be computed in fit function
        self.user_to_item = None
        self.user_factorization = None
        self.item_factorization = None
        self.user_bias = None
        self.item_bias = None
        self.bias = None
        self.nonzero = None
        self.nonzero_count = None

    def __random_nonzero_indices__(self) -> (int, int):
        """
        :return: coordinates of random nonzero element (x, y) ~ (row, column)
        """
        rows, columns = self.nonzero
        index = np.random.randint(low=0, high=self.nonzero_count)
        return rows[index], columns[index]

    def __fit_preparation__(self, user_to_item: sp.csr_matrix, init_biases=True):
        """
        Initializes user-factorization and item-factorization matrices with values in range
        ( 0; 1 / sqrt(factors) )

        Also stores non zero elements in self.nonzero field

        :param user_to_item: User-to-Item sparse matrix with ratings (scipy.sparse.csr_matrix)
        :param init_biases: Responsible for initial biases (initializes them as mean)
        :return: None
        """
        n_users, n_items = user_to_item.shape
        k = self.factors

        self.user_factorization = np.random.rand(n_users, k) / np.sqrt(k)
        self.item_factorization = np.random.rand(n_items, k) / np.sqrt(k)

        self.nonzero = user_to_item.nonzero()
        self.nonzero_count = user_to_item.count_nonzero()

        if init_biases:
            self.bias = user_to_item.mean()
            self.user_bias = np.array(user_to_item.mean(axis=1)).reshape(-1)
            self.item_bias = np.array(user_to_item.mean(axis=0)).reshape(-1)


    def predict(self, i, j):
        return self.user_factorization[i] @ self.item_factorization[j] \
             + self.user_bias[i] + self.item_bias[j] + self.bias

    def similar_items(self, item_id, top_k=10) -> (np.array, np.array):
        """
        Calculates similarity by Spearse

        :param item_id: zero indexed item id which corresponds to index of given user-to-item matrix for fit.
        :param top_k: number of returned similar items
        :return: (item_ids_sorted_by_score, scores)
        """
        scores = np.linalg.norm(self.item_factorization - self.item_factorization[item_id], axis=1)
        indices = np.argsort(scores)
        return indices[:top_k], np.sort(scores)[:top_k]

    def rmse(self, user_to_item: sp.csr_matrix, tqdm_range=None, n_elements=250, use_all=False):
        rows, columns = self.nonzero

        if use_all:
            indices = range(self.nonzero_count)
        else:
            indices = np.random.randint(low=0, high=self.nonzero_count, size=n_elements)

        def get_error(idx):
            i, j = rows[idx], columns[idx]
            actual = user_to_item[i, j]
            return (self.predict(i, j) - actual) ** 2

        loss = np.fromiter(map(get_error , indices), dtype=np.float64)

        rmse_loss = np.sqrt(np.mean(loss))
        

        if tqdm_range is not None:
            tqdm_range.set_postfix_str("RMSE loss: {}".format(rmse_loss))

        return rmse_loss

### Задание 1. Не использую готовые решения, реализовать SVD разложение используя SGD на explicit данных


In [841]:
class StochasticGradientDescentSVD(CoreMF):
    def fit(self, user_to_item: sp.csr_matrix):
        self.__fit_preparation__(user_to_item)

        tqdm_range = trange(self.iterations)

        for it in tqdm_range:
            i, j = self.__random_nonzero_indices__()
            error = self.predict(i, j) - user_to_item[i, j]
            
            self.user_bias[i] -= self.learning_rate \
                * (error + self.beta * self.user_bias[i])
            
            self.item_bias[j] -= self.learning_rate \
                * (error + self.beta * self.item_bias[j])

            self.user_factorization[i] -= self.learning_rate \
                * (self.alpha * self.user_factorization[i] + error * self.item_factorization[j])

            self.item_factorization[j] -= self.learning_rate \
                * (self.alpha * self.item_factorization[j] + error * self.user_factorization[i])

            if it % 10_001 == 0 and self.calculate_loss:
                self.rmse(user_to_item, tqdm_range=tqdm_range)

In [None]:
np.random.seed(404) # Fix seed
svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=1e-5, beta=2e-6)
svd_model.fit(ratings_user_item_csr)
# svd_model.rmse(ratings_user_item_csr, use_all=True)
# fitting model takes plenty of time... (6 hours)

# svd_model.user_factorization = np.load("svd_user_factorization.npy")
# svd_model.item_factorization = np.load("svd_item_factorization.npy")

 85%|████████▌ | 8507178/10000000 [13:57<01:58, 12638.14it/s, RMSE loss: 0.6827881937419646]

In [None]:
ids, scores = svd_model.similar_items(item_id=TOY_STORY_ID)

get_movies(ids)

### Задание 2. Не использую готовые решения, реализовать матричное разложение используя ALS на implicit данных

In [897]:
class ALS(CoreMF):
    def predict(self, i, j):
        return self.user_factorization[i] @ self.item_factorization[j]
    
    def fit(self, user_to_item: sp.csr_matrix):
        self.__fit_preparation__(user_to_item)
        
        rows, columns = self.nonzero
        predictions = self.user_factorization @ self.item_factorization.T
        errors      = predictions[row, columns] - user_to_item[rows, columns]
        
        

# 9 / 10 animations
# np.random.seed(0)  
# model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=1e-5, beta=1e-6)



# np.random.seed(29) # Fix seed
# svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=2e-2, beta=1e-6)


# np.random.seed(13) # Fix seed
# svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=1e-4, beta=1e-3)

# BEST
# np.random.seed(40) # Fix seed
# svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=32, learning_rate=1e-2, alpha=1e-4, beta=1e-3)
# rmse = 0.7501841972166866

# 8 / 10 animations
# np.random.seed(42) # Fix seed
# svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=5e-5, beta=5e-6)
# rmse = 0.68

# Best so far...
# np.random.seed(404) # Fix seed
# svd_model = StochasticGradientDescentSVD(iterations=1e7, factors=64, learning_rate=1e-2, alpha=1e-5, beta=2e-6)
# svd_model.fit(ratings_user_item_csr)

Unnamed: 0_level_0,name,category
movie_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Toy Story (1995),Animation|Children's|Comedy
1907,Mulan (1998),Animation|Children's
3114,Toy Story 2 (1999),Animation|Children's|Comedy
1566,Hercules (1997),Adventure|Animation|Children's|Comedy|Musical
2090,"Rescuers, The (1977)",Animation|Children's
2355,"Bug's Life, A (1998)",Animation|Children's|Comedy
2089,"Rescuers Down Under, The (1990)",Animation|Children's
2761,"Iron Giant, The (1999)",Animation|Children's
1592,Air Bud (1997),Children's|Comedy
1226,"Quiet Man, The (1952)",Comedy|Romance


In [None]:
als_model = ALS()
als_model.fir(user_item_csr)

### Задание 3. Не использую готовые решения, реализовать матричное разложение BPR на implicit данных

In [898]:
# np.save("svd_user_factorization", svd_model.user_factorization)
# np.save("svd_item_factorization", svd_model.item_factorization)
svd_model.rmse(ratings_user_item_csr, use_all=True)

KeyboardInterrupt: 

### Задание 4. Не использую готовые решения, реализовать матричное разложение WARP на implicit данных