In [1]:
import numpy as np
import pandas as pd

from sklearn.metrics.pairwise import cosine_distances
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
np.random.seed(4)
films_rating = pd.DataFrame(
    np.random.randint(0, 6, (6, 7)),
    index=['user_1', 'user_2', 'user_3', 'user_4', 'user_5', 'user_6'],
    columns=['Мстители', 'Матрица', 'Девчата', 
             'Начало', 'Пираты карибского моря', 'Звёздные войны', '1+1']).replace(0, np.nan)
films_rating

Unnamed: 0,Мстители,Матрица,Девчата,Начало,Пираты карибского моря,Звёздные войны,1+1
user_1,2,5.0,1.0,,,2.0,1
user_2,2,4.0,5.0,1.0,,4.0,2
user_3,4,2.0,4.0,3.0,,5.0,5
user_4,1,5.0,,2.0,5.0,,1
user_5,2,2.0,,,3.0,2.0,5
user_6,1,,5.0,4.0,3.0,2.0,3


In [4]:
def cluster_rec_sys(films_rating: pd.DataFrame, 
                    user_id: str, 
                    calculating_method: str) -> pd.core.frame.DataFrame:
    if (calculating_method == 'euclid'):
        distances = pd.DataFrame(
            euclidean_distances(films_rating.fillna(0).values),
            index=['user_1', 'user_2', 'user_3', 'user_4', 'user_5', 'user_6'],
            columns=['user_1', 'user_2', 'user_3', 'user_4', 'user_5', 'user_6'])
    elif (calculating_method == 'cos'):
        distances = pd.DataFrame(
            cosine_distances(films_rating.fillna(0).values),
            index=['user_1', 'user_2', 'user_3', 'user_4', 'user_5', 'user_6'],
            columns=['user_1', 'user_2', 'user_3', 'user_4', 'user_5', 'user_6'])
    else:
        return None
    cluster_1, cluster_2 = distances.sort_values(user_id).iloc[:distances.shape[0] // 2, :], distances.sort_values(user_id).iloc[distances.shape[0] // 2:, :]
    films_cluster_1 = films_rating.T[list(cluster_1.index)].T
    films_cluster_2 = films_rating.T[list(cluster_2.index)].T
    if (user_id in films_cluster_1.index):
        mean_rating = films_cluster_1.drop(user_id).mean(skipna=False)
        films_cluster_1_T = films_cluster_1.T
        films_cluster_1_T['mean_rating'] = mean_rating
        return films_cluster_1_T.T
    if (user_id in films_cluster_2.index):
        mean_rating = films_cluster_2.drop(user_id).mean(skipna=False)
        films_cluster_2_T = films_cluster_2.T
        films_cluster_2_T['mean_rating'] = mean_rating        
        return films_cluster_2_T.T
    return None

In [5]:
print(cluster_rec_sys(films_rating,'user_4','cos'))
cluster_rec_sys(films_rating,'user_4','euclid')

             Мстители  Матрица  Девчата  Начало  Пираты карибского моря  \
user_4            1.0      5.0      NaN     2.0                     5.0   
user_1            2.0      5.0      1.0     NaN                     NaN   
user_5            2.0      2.0      NaN     NaN                     3.0   
mean_rating       2.0      3.5      NaN     NaN                     NaN   

             Звёздные войны  1+1  
user_4                  NaN  1.0  
user_1                  2.0  1.0  
user_5                  2.0  5.0  
mean_rating             2.0  3.0  


Unnamed: 0,Мстители,Матрица,Девчата,Начало,Пираты карибского моря,Звёздные войны,1+1
user_4,1.0,5.0,,2.0,5.0,,1.0
user_1,2.0,5.0,1.0,,,2.0,1.0
user_5,2.0,2.0,,,3.0,2.0,5.0
mean_rating,2.0,3.5,,,,2.0,3.0


In [None]:
#задание 2

In [6]:
np.random.seed(4)
data = np.random.randint(0, 5, (10, 15))
products_ratings = pd.DataFrame(data, 
                       columns=['Смартфон', 'Ноутбук', 'Наушники', 'Компьютерная мышь', 'Веб-камера', 
                                'Чехол для смартфона', 'Чехол для ноутбука', 'Портативная зарядка', 
                                'Флеш накопитель', 'Защитное стекло', 'Защитная плёнка', 'Зарядное устройство', 
                                'Монитор', 'Аудио система', 'Умная колонка'],
                       index=[f'user_{i}' for i in range(10)]).replace(0, np.nan)
products_ratings

Unnamed: 0,Смартфон,Ноутбук,Наушники,Компьютерная мышь,Веб-камера,Чехол для смартфона,Чехол для ноутбука,Портативная зарядка,Флеш накопитель,Защитное стекло,Защитная плёнка,Зарядное устройство,Монитор,Аудио система,Умная колонка
user_0,2.0,1.0,,,2.0,1.0,2,4.0,1.0,,4.0,2.0,4.0,2.0,4.0
user_1,3.0,,1.0,,2.0,,1,2.0,2.0,,,3.0,2.0,1.0,
user_2,4.0,3.0,2.0,3.0,2.0,1.0,2,1.0,,1.0,1.0,1.0,3.0,,4.0
user_3,2.0,3.0,3.0,,2.0,2.0,1,2.0,3.0,,4.0,3.0,3.0,3.0,3.0
user_4,,1.0,,3.0,2.0,,4,3.0,,4.0,,1.0,1.0,4.0,2.0
user_5,3.0,3.0,4.0,,4.0,,3,3.0,4.0,2.0,1.0,3.0,1.0,4.0,3.0
user_6,,2.0,,,3.0,4.0,4,,2.0,1.0,2.0,,,1.0,4.0
user_7,3.0,1.0,3.0,2.0,4.0,,3,2.0,1.0,1.0,3.0,2.0,2.0,1.0,4.0
user_8,4.0,3.0,3.0,,,1.0,1,2.0,,2.0,4.0,2.0,3.0,,3.0
user_9,4.0,1.0,4.0,,3.0,4.0,4,3.0,4.0,,2.0,3.0,3.0,3.0,1.0


In [7]:

tr = products_ratings.loc['user_0'].isnull()

In [19]:
def user_based_rec_sys(products_ratings: pd.DataFrame,
                       calculating_method: str,
                       user_id: str) -> pd.core.frame.DataFrame:
    """
    Функция реализующая рекомендательную систему на базе пользователь
    ориентированного подхода.
    """
    if (calculating_method == 'euclid'):
        users_sim = euclidean_distances(products_ratings.fillna(0))
        users_sim_df = pd.DataFrame(
            users_sim,
            columns=products_ratings.index,
            index=products_ratings.index)
        users_sim_df['sum_dist'] = np.sum(users_sim, axis=1) - 1
    if (calculating_method == 'cos'):
        users_sim = cosine_similarity(products_ratings.fillna(0))
        users_sim_df = pd.DataFrame(
            users_sim,
            columns=products_ratings.index,
            index=products_ratings.index)
        users_sim_df['sum_dist'] = np.sum(users_sim, axis=1) - 1
    rr = (products_ratings.isnull().loc[user_id] == True)
    new_item = []
    for i in range(0, len(rr)):
        if rr[i] == True:
            new_item.append(rr.index[i])
    reformed_scores_user = products_ratings[new_item].fillna(0).T * users_sim_df.iloc[0, :-1]
    reformed_scores_user['sum_score'] = reformed_scores_user.sum(axis=1)
    reformed_scores_user.T.drop(user_id)
    recomendation_user = reformed_scores_user.copy()
    recomendation_user['result'] = reformed_scores_user['sum_score'] / users_sim_df.sum_dist[0]
    recomendation_user.T.drop(user_id)
    
    top_items = recomendation_user.result.sort_values(ascending=False)
    print('Рекомендуем Вам купить ', list(top_items.index[:3]))
    return top_items

user_based_rec_sys(products_ratings, 'cos', 'user_7')

Рекомендуем Вам купить  ['Чехол для смартфона']


Чехол для смартфона    1.4848
Name: result, dtype: float64

In [None]:
#task3

In [12]:
films_rating

Unnamed: 0,Мстители,Матрица,Девчата,Начало,Пираты карибского моря,Звёздные войны,1+1
user_1,2,5.0,1.0,,,2.0,1
user_2,2,4.0,5.0,1.0,,4.0,2
user_3,4,2.0,4.0,3.0,,5.0,5
user_4,1,5.0,,2.0,5.0,,1
user_5,2,2.0,,,3.0,2.0,5
user_6,1,,5.0,4.0,3.0,2.0,3


In [None]:
import tensorflow as tf

U, s, V = np.linalg.svd(
    tf.convert_to_tensor(films_rating.replace('', np.nan).values, np.int32), 
    full_matrices=False,
    compute_uv=True)

u_df = pd.DataFrame(U @ np.diag(s), 
                    index=[
                           'user_1', 'user_2', 'user_3', 
                           'user_4', 'user_5', 'user_6'],
                    columns=['', '', '', '', '', ''])
v_df = pd.DataFrame(V, 
                    columns=[
                             'Мстители', 'Матрица', 'Девчата', 'Начало', 
                             'Пираты карибского моря', 'Звёздные войны', '1+1'],
                    index=['', '', '', '', '', ''])
restored_ratings = pd.DataFrame(np.dot(u_df, v_df), 
             columns=[
                      'Мстители', 'Матрица', 'Девчата', 'Начало', 
                      'Пираты карибского моря', 'Звёздные войны', '1+1'],
             index=[
                    'user_1', 'user_2', 'user_3', 
                    'user_4', 'user_5', 'user_6'])

In [None]:
from implicit.evaluation import train_test_split

train_explicit_ratings, test_explicit_ratings = train_test_split(ratings, 0.9)

train_ratings = train_explicit_ratings.copy()
test_ratings = test_explicit_ratings.copy()

train_ratings.data = np.ones_like(train_ratings.data)
test_ratings.data = np.ones_like(test_ratings.data)

In [20]:
!pip install implicit

[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m[33m
[33mDEPRECATION: Configuring installation scheme with distutils config files is deprecated and will no longer work in the near future. If you are using a Homebrew or Linuxbrew Python, please see discussion at https://github.com/Homebrew/homebrew-core/issues/76621[0m[33m
[0m

In [21]:
from implicit.recommender_base import RecommenderBase
from scipy.sparse.linalg import svds
from operator import itemgetter
import scipy
import numpy

In [22]:
from implicit.datasets.movielens import get_movielens

titles, ratings = get_movielens('1m')

0.00B [00:00, ?B/s]

In [63]:
from implicit.evaluation import train_test_split

train_explicit_ratings, test_explicit_ratings = train_test_split(ratings, 0.9)

train_ratings = train_explicit_ratings.copy()
test_ratings = test_explicit_ratings.copy()

train_ratings.data = np.ones_like(train_ratings.data)
test_ratings.data = np.ones_like(test_ratings.data)

In [24]:
ig0, ig1 = itemgetter(0), itemgetter(1)

class SparseSVD(RecommenderBase):
    """
    Класс для проведения сингулярного разложения матрицы взаимодействий
    и создание рекомендаций на базе латентного представления.
    """
    def __init__(self, factors=32) -> None:
        self.factors = factors

    def fit(self, item_users: scipy.sparse.csr.csr_matrix):
        """
        Метод обучения модели.
        """
        sparse_user_item = item_users.T.tocsr()
        self.U, self.s, self.V = svds(sparse_user_item, k=self.factors)

        self.s_V = np.diag(self.s) @ self.V

    def _get_all_predictions(self, user_id: int) -> numpy.ndarray:
        """
        Метод проведения прогноза для одного пользователя.
        """
        preds = self.U[user_id] @ self.s_V
        return preds

    def rank_items(self, user_id: int, user_items: scipy.sparse.csr.csr_matrix, selected_items):
        """
        Метод ранжирования прогнозов.
        """
        selected_items = list(selected_items)
        preds = self._get_all_predictions(user_id)
        items_preds = zip(selected_items, preds[selected_items])
        ranked_items = sorted(items_preds, key=ig1, reverse=True)
        return ranked_items

    def recommend(self, user_id: int, user_items: int, N=10, 
                  filter_already_liked_items: bool =True, filter_items=None):
        """
        Метод проведения рекомендаций, с возможностью исключения из прогноза 
        объектов, с которыми уже было взаимодействие.
        """
        n_items = self.V.shape[1]
        selected_items = set(range(n_items))
        
        if filter_already_liked_items:
            already_liked_items = set(user_items[user_id].tocoo().col)
            selected_items = selected_items - already_liked_items

        if filter_items is not None:
            selected_items = selected_items - set(filter_items)

        ranked_items = self.rank_items(user_id, user_items, selected_items)
        top_n_items = ranked_items[:N]

        return top_n_items

  def fit(self, item_users: scipy.sparse.csr.csr_matrix):
  def rank_items(self, user_id: int, user_items: scipy.sparse.csr.csr_matrix, selected_items):


In [66]:
sparse_svd = SparseSVD(factors=32)
sparse_svd.fit(train_ratings)

sparse_svd.rank_items(1, test_ratings, [1, 2])

[(1, 0.5825576), (2, 0.057912983)]

In [67]:
predictions = sparse_svd.recommend(10, test_ratings)
for pred in predictions:
    print(titles[pred[0]])

Star Wars: Episode IV - A New Hope (1977)
Princess Bride, The (1987)
Star Wars: Episode I - The Phantom Menace (1999)
Willy Wonka and the Chocolate Factory (1971)
Back to the Future (1985)
Wizard of Oz, The (1939)
Monty Python and the Holy Grail (1974)
Star Wars: Episode V - The Empire Strikes Back (1980)
Jurassic Park (1993)
E.T. the Extra-Terrestrial (1982)


In [27]:
from tensorflow.keras.metrics import Recall
from tensorflow.keras.metrics import Precision

In [50]:
import numpy as np

In [98]:
class SparseSVD_modern(SparseSVD):
    """
    Обновлённый класс рекомендательной системы на базе матричного разложения
    с методами поиска похожих пользователей и объектов контента.
    """
    def similar_items(self, item_id: int, N: int = 5) -> list:
        """
        Метод поиска N похожих объектов контента (фильмов).
        """
        print(U)
        users_sim = cosine_similarity(self.V)
        users_sim_df = pd.DataFrame(users_sim, index=self.index, columns=self.index)
        users_sim_df['sum_dist'] = np.sum(users_sim, axis=1) # Рассчитаем сумму весов
    # Умножим оценки пользователей на соответсвующие им косинусные меры, относительно пользователя,
    # для которого делается рекомендация.
        reformed_scores_user = self.fillna(0).T * users_sim_df.iloc[id, :-1]
    # Для каждого объекта рассчитаем сумму оценок 
        reformed_scores_user['sum_score'] = reformed_scores_user.sum(axis=1)

    # Сумму, полученную на предыдущем шаге разделить на сумму мер, полученную на
        recomendation_user = reformed_scores_user.copy()
        recomendation_user['result'] = reformed_scores_user['sum_score'] / users_sim_df.sum_dist[0]
        recomendation_user.T.drop(item_id)

        top_items = recomendation_user.result.sort_values(ascending=False)
        return list(top_items.index[0:N])

    def similar_users(self, user_id: int, N: int = 5) -> list:
        """
        Метод поиска похожих пользователей.
        """
        users_sim = cosine_similarity(self.U)
        print(type(self.U))
        print(len(self.U))
        distances = pd.DataFrame(users_sim, index=self.U.index, columns=self.U.index)
      # Разделим пользователей онлайн кинотеатра на 2 кластера относительно user_id
        cluster = distances.sort_values(user_id).iloc[distances.shape[0] // 2:, :]
      # Создадим транспонированную (столбцы поменять со строками) матрицу из исходной, используя только индексы строк, попавшие в кластер
        user_cluster = self.T[list(cluster.index)].T
      # Вычисляем средние оценки фильмов (исключая user_id). Если встречаем NaN, то , NaN
        mean_rating = user_cluster.drop(user_id).mean(skipna=False) # skipna=False -  не пропускать все NaN
        users_cluster_T = user_cluster.T
        users_cluster_T['mean_rating'] = mean_rating
        top_users = users_cluster_T.result.sort_values(ascending=False)
        return list(top_users.index[0:N])

    def precision_top_k(self, y_true, y_pred, k: int) -> float:
        """
        Метод для рассчёта метрики precision по К объектам.
        """
        p = Precision(k)
        p.update_state(self.predictions, self.is_interest)
        p.result().numpy()
        y_true = [list(self.is_interest.astype(float).values)]
        y_pred = [np.random.randint(0, 2, (len(y_true[0]),))]
        map_metric(y_true, y_pred).numpy()  
        
    def recall_top_k(self, y_true, y_pred, k: int) -> float:
        """
        Метод для рассчёта метрики recall по К объектам.
        """
        r = Recall(top_k=3)
        r.update_state(user_3.predictions, user_3.is_interest)
        r.result().numpy()
        y_true = [list(self.is_interest.astype(float).values)]
        y_pred = [np.random.randint(0, 2, (len(y_true[0]),))]
        map_metric(y_true, y_pred).numpy()  

In [32]:
np.random.seed(42)


In [99]:
sparse_svd_m = SparseSVD_modern(factors=32)
sparse_svd_m.fit(train_ratings)

In [85]:
sparse_svd_m.rank_items(1, test_ratings, [1, 2])

[(1, 0.58255696), (2, 0.057913177)]

In [100]:
predictions = sparse_svd_m.similar_users(1, 3)
print(predictions)

<class 'numpy.ndarray'>
6041


AttributeError: 'numpy.ndarray' object has no attribute 'index'