# Введение в рекомендательные системы

## Коллаборативная фильтрация

В этом задании мы закончим имплементацию коллаборативной фильтрации.

Для этого - выполним действия, необходимые для создания матрицы рейтингов

In [78]:
import warnings
warnings.filterwarnings('ignore')

In [79]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm_notebook

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12, 6)

In [80]:
filepath = './data/user_ratedmovies.dat'
df_rates = pd.read_csv(filepath, sep='\t')

In [81]:
filepath = './data/movies.dat'
df_movies = pd.read_csv(filepath, sep='\t', encoding='iso-8859-1')

# Перекодируем ID фильмов и пользователей

In [82]:
from sklearn.preprocessing import LabelEncoder

In [83]:
enc_user = LabelEncoder()
enc_mov = LabelEncoder()

In [84]:
enc_user = enc_user.fit(df_rates.userID.values)
enc_mov = enc_mov.fit(df_rates.movieID.values)

In [85]:
idx = df_movies.loc[:, 'id'].isin(df_rates.movieID)
df_movies = df_movies.loc[idx]

In [86]:
df_rates.loc[:, 'userID'] = enc_user.transform(df_rates.loc[:, 'userID'].values)
df_rates.loc[:, 'movieID'] = enc_mov.transform(df_rates.loc[:, 'movieID'].values)
df_movies.loc[:, 'id'] = enc_mov.transform(df_movies.loc[:, 'id'].values)

## Матрица рейтингов

In [87]:
from scipy.sparse import coo_matrix, csr_matrix

In [88]:
R = coo_matrix((df_rates.rating.values, (df_rates.userID.values, df_rates.movieID.values)))

## Похожесть между пользователями

В дальнейшем нам будет удобнее работать с форматом `Compressed Sparse Row matrix`. К счастью переформатировать полученную нами матрицу можно одной командой:

In [90]:
R = R.tocsr()

In [91]:
R

<2113x10109 sparse matrix of type '<class 'numpy.float64'>'
	with 855598 stored elements in Compressed Sparse Row format>

Теперь, например, рейтинги для первого пользователя можно достать так:

In [92]:
user_1 = R[0]
user_1

<1x10109 sparse matrix of type '<class 'numpy.float64'>'
	with 55 stored elements in Compressed Sparse Row format>

Так как вы возможно не работали с разреженным форматом матриц, устроим небольшой ликбез.

Первым делом, надо понадобится вектор для другого пользователя:

In [93]:
user_2 = R[1]
user_2

<1x10109 sparse matrix of type '<class 'numpy.float64'>'
	with 468 stored elements in Compressed Sparse Row format>

Мы можем сравнивать элементы с 0

In [94]:
user_1_rated = (user_1 != 0)
user_1_rated

<1x10109 sparse matrix of type '<class 'numpy.bool_'>'
	with 55 stored elements in Compressed Sparse Row format>

Можем их "индексировать"

In [95]:
user_1[user_1_rated]

matrix([[1. , 4.5, 4. , 2. , 4. , 4.5, 3.5, 5. , 3.5, 2. , 4. , 3. , 4.5,
         0.5, 4.5, 4. , 3.5, 4.5, 4. , 2.5, 4. , 4. , 4. , 4.5, 2.5, 2. ,
         1.5, 4. , 4. , 4.5, 3. , 3. , 4.5, 3.5, 4.5, 1.5, 3. , 3. , 3.5,
         3.5, 3. , 2.5, 3.5, 4. , 0.5, 4. , 3.5, 4.5, 3.5, 4.5, 5. , 3.5,
         3.5, 3.5, 4.5]])

Можем считать количество ненулевых элементов

In [96]:
user_1.nnz

55

Можем умножать 2 разреженных вектора поэлементно:

In [97]:
(user_1).multiply(user_2)

<1x10109 sparse matrix of type '<class 'numpy.float64'>'
	with 14 stored elements in Compressed Sparse Row format>

и скалярно

In [98]:
user_1.dot(user_2.T)[0, 0]

216.75

И превращать разреженную матрицу (вектор) в плотную

In [99]:
user_1_dense = user_1.toarray()
user_1_dense

array([[0., 0., 1., ..., 0., 0., 0.]])

Этого ликбеза вам будет должно быть достаточно, чтобы реализовать функцию расчета похожести между парой пользователей $u$ и $v$:

$$ s_{uv} = \frac{\sum\limits_{i \in I_u\cap I_v} R_{ui} R_{vi}}{\sqrt{{\sum\limits_{i \in I_u\cap I_v}R_{ui}^2}}\sqrt{{\sum\limits_{i \in I_u\cap I_v}R_{vi}^2}}}$$

Давайте будем считать, что если количество фильмов которые пользователь $u$ и $v$ посмотрели вместе $<= 2$, то их косинусная мера равна 0.0


### _Решение_

In [252]:
# from scipy.spatial import distance

def cosine_similarity_pair_users(u, v):
    ## Your code here
    if u.multiply(v).nnz <= 2:
        return 0.0
    idx = np.logical_and(u.toarray(), v.toarray())
    u = u[idx]
    v = v[idx]
    numerator = u.dot(v.T)[0,0]
    denominator = np.sqrt(np.power(u, 2).sum())*np.sqrt(np.power(v, 2).sum())
    sim = numerator/denominator
    return sim


#     return idx
#     sim = distance.cosine(u[idx], v[idx])
#     return 1-sim
    
#     idx = (u != 0) & (v != 0)
#     if np.any(idx):
#         sim = -cosine(u[idx], v[idx]) + 1
#         return sim
#     numerator = u.multiply(v).sum()
#     denominator = np.sqrt(u.power(2).sum())*np.sqrt(v.power(2).sum())


In [253]:
answer1 = round(cosine_similarity_pair_users(R[146], R[239]),3)

Введите значение answer1 на странице https://www.coursera.org/learn/python-for-data-science/exam/fSPxW/sozdaniie-riekomiendatiel-noi-sistiemy

## Функция нахождения пользователей, схожих с данным. 

Реализуйте функцию <font color = "blue">similar_users</font>(u, R, n_neigbours) которая принимает на входе
* Индекс пользователя
* Матрицу рейтингов
* Количество ближайших соседей 
и возвращает отсортированный массив пользователей (сортировка по неубыванию), максимально похожих на данного. Для сортировки используйте np.argsort без параметров. (https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html) (Сам пользователь будет в этом списке на первом месте). Эту функцию вы сможете использовать далее. 

In [254]:
from scipy.sparse.linalg import svds
from sklearn.neighbors import NearestNeighbors

def similar_users(u, R, n_neigbours):
    ## Your code here
    
    distance = []
    for i in range(R.shape[0]):
        distance.append(cosine_similarity_pair_users(R[u], R[i]))
    distance = np.flip(np.argsort(distance))
    return distance[:n_neigbours]




#     print(distance)
#     u_, s, vt = svds(R)
#     nn = NearestNeighbors(n_neighbors=n_neigbours)
    
#     v = vt.T
#     nn.fit(v)
    
#     _, ind = nn.kneighbors(v, n_neighbors=n_neigbours)
#     neighbors = ind[ind[:, 0]==u][0]
#     print(neighbors)
#     print(neighbors[0])
#     print(neighbors[1:])
#     print(np.argsort(neighbors[1:]))
#     result = np.append([neighbors[0]], np.argsort(neighbors[1:]))
#     return result
#     return np.argsort(ind[ind[:, 0]==u])
# print(similar_users(42, R, 10))
    

In [255]:
answer2 = np.array2string(similar_users(42, R, 10)).replace(' ','').replace('[','').replace(']','')

Введите значение answer2 без кавычек  на странице https://www.coursera.org/learn/python-for-data-science/exam/fSPxW/sozdaniie-riekomiendatiel-noi-sistiemy. Это будет строка из 29 символов, которая начинается на 42.

## Функция прогнозирования рейтинга

Реализуйте функцию <font color = "blue">rate_items_user</font>(u, R, n_neigbours), которая принимает на входе:
* Индекс пользователя
* Матрицу рейтингов
* Количество ближайших соседей <font color = "red">(Теперь обратите внимание, несмотря на то, что каждый пользователь - ближайший сосед самому себе, в расчетах он использоваться не должен)</font>

и возвращает вектор с предсказанными рейтингами по всем фильмам для этого пользователя

Для того, чтобы считать прогноз по рейтингу мы воспользуемся упрощенной формулой из лекции:

$$ \hat{R}_{ui} = \frac{\sum_{v \in N(u)} s_{uv}R_{vi}}{\sum_{v \in N(u)} \left| s_{uv}\right|} $$


### _Решение_

In [256]:
def rate_items_user(u, R, n_neigbours):
    
    predictions = csr_matrix((1, R.shape[1]))
    
    neighbors = similar_users(u, R, n_neigbours+1)
    neighbors = neighbors[1:]
    
    similarities = []
    for neighbor in neighbors:
        similarities.append(cosine_similarity_pair_users(R[u], R[neighbor]))
    similarities = csr_matrix(similarities)

    R_v = R[neighbors]
        
    predictions = similarities.dot(R_v)/similarities.sum()



# Best
#     distances = []
#     for i in range(R.shape[0]):
#         distances.append(cosine_similarity_pair_users(R[u], R[i]))
#     distances.sort(reverse=True)
#     similarities = distances[1:31]
#     similarities = csr_matrix(similarities)    
#     neighbors = similar_users(u, R, n_neigbours+1)
#     neighbors = neighbors[1:]
#     R_v = R[neighbors]

#     predictions = similarities.dot(R_v)/similarities.sum()


    
    return predictions

In [257]:
rate_items_user(20, R, n_neigbours=30)

<1x10109 sparse matrix of type '<class 'numpy.float64'>'
	with 1449 stored elements in Compressed Sparse Row format>

В качестве ответа к этому заданию верните 5 идентификаторов фильмов с наивысшим предсказанным рейтингом для пользователя с id 19 (20-я строчка в матрице рейтингов).

* Для усреднения используйте 30 ближайших соседей
* Среди этих 5-и фильмов не должно быть ранее просмотренных фильмов

Т.е. предсказанные рейтинги можно получить так:
R_hat = <font color = "blue">rate_items_user</font>(20, R, n_neigbours=30). При сортировке фильмов по рейтингу используйте функцию <font color = "blue">argsort </font> без параметров.

### _Решение_

In [258]:
R_hat = rate_items_user(20, R, n_neigbours=30)
rated_items = (R[20] == 0)
unseen_ratings = R_hat.multiply(rated_items)
unseen_ratings = unseen_ratings.toarray()[0]

idx = unseen_ratings.argsort()[::-1]
top5 = idx[:5]

In [259]:
# R_hat = rate_items_user(20, R, n_neigbours=30)
# seen = R[20].nonzero()[1]
# top = list(np.flip(np.argsort(R_hat.toarray()))[0, :10])
# for movie in seen:
#     if movie in top:
#         top.remove(movie)
# top5 = top[:5]
# top5


## Генерация ответа

In [260]:
answer3 = ', '.join(str(i) for i in top5)

In [266]:
print(f'answer1= {answer1}\n'
      f'answer2= {answer2}\n' 
      f'answer3= {answer3}')

answer1= 0.923
answer2= 42281633724815262065016921506
answer3= 2614, 306, 343, 5573, 6720


Полученную строку введите на странице https://www.coursera.org/learn/python-for-data-science/exam/fSPxW/sozdaniie-riekomiendatiel-noi-sistiemy Формат ответа - строка вида "X, X, X, X, X", где X - идентификаторы. Вводить ответ следует без кавычек.