In [1]:
import pandas as pd
import numpy as np


In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# 1. Коллаборативная фильтрация 

### Загрузка и обрезка данных


In [3]:
path = "/content/drive/MyDrive/VK_test/rating.csv"
ratings = pd.read_csv(path)
ratings.head(200)

Unnamed: 0,userId,movieId,rating,timestamp
0,1,2,3.5,2005-04-02 23:53:47
1,1,29,3.5,2005-04-02 23:31:16
2,1,32,3.5,2005-04-02 23:33:39
3,1,47,3.5,2005-04-02 23:32:07
4,1,50,3.5,2005-04-02 23:29:40
...,...,...,...,...
195,2,1270,5.0,2000-11-21 15:36:54
196,2,1327,5.0,2000-11-21 15:34:06
197,2,1356,5.0,2000-11-21 15:29:58
198,2,1544,5.0,2000-11-21 15:35:43


В целом movieId достаточно, но любопытство берёт вверх, изучим что таится за числами

In [66]:
path = "/content/drive/MyDrive/VK_test/movie.csv"
films = pd.read_csv(path)
films.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [67]:
films = films.drop(columns=["genres"])

In [6]:
df = ratings.merge(films, on = "movieId")

In [7]:
df.head()

Unnamed: 0,userId,movieId,rating,timestamp,title
0,1,2,3.5,2005-04-02 23:53:47,Jumanji (1995)
1,5,2,3.0,1996-12-25 15:26:09,Jumanji (1995)
2,13,2,3.0,1996-11-27 08:19:02,Jumanji (1995)
3,29,2,3.0,1996-06-23 20:36:14,Jumanji (1995)
4,34,2,3.0,1996-10-28 13:29:44,Jumanji (1995)


In [8]:
df.shape

(20000263, 5)

20 миллионов это конечно круто, но пожалуй, чтобы не умереть от старости ограничемся одним миллионом.

Т.к в датасете гарантируется большое количество оценок для каждого юзера, чтобы это не сломать и не портить метрики околопустыми юзерами (которые могут получиться если случайно семплировать датасет) перед срезом датасета отсортируем его по юзерам.

In [9]:
df = df.sort_values(by="userId")
df = df[:1000000]

На всякий случай проверим не оставили ли мы почти без оценок последнего юзера: 

In [10]:
#id последнего юзера
lastId = df.iloc[-1]["userId"]

#кол-во его рейтингов
df[df["userId"] == lastId].shape[0]

204

## Придумайте и обоснуйте способ разбиения данных*

  Основная цель -- построение рекомендации и оценка его качества, то логично будет приблизить обучение модели к настоящей задаче: По истории пользователя предсказать что ему понравится. В реальности мы не обладаем знаниями из будущего, а вкусы могут меняться во времени.

  В таком случае, логично было бы использовать *глобальный срез во времени* -- выбрать точку и считать все до -- историей, а после -- тестовым набором на котором мы будем оценивать наши данные.

  Однако, изучение дат установок оценок показывает что типичное поведение пользователя -- зайти и порасставлять оценки за один день. В результате разбиение по глобальной дате практически не создаст пересечений между тестовой и тренировочной выборкой для конкретного пользователя.


In [11]:
df['timestamp'] = pd.to_datetime(df["timestamp"])

In [12]:
#пример пользователя 1 
print(df[df["userId"]==1].shape)
df[df["userId"]==1]["timestamp"].dt.date.unique()

(175, 5)


array([datetime.date(2005, 4, 2), datetime.date(2004, 9, 10)],
      dtype=object)

Можно увидеть что пользователь 1 поставил 175 оценок за 2 дня

Для решения этой проблемы придётся пойти на копромисс и сделать **локальный срез** для каждого пользователя -- отсортируем его оценки по времени и будем считать последние 20% оценок в качестве тестового множества.

Проблема данного подхода в том, что она не совсем реалестична -- т.к "таймлайн" у каждого пользователя может отличаться на *года* мы будем использовать данные из будущего (например что этому фильму user N поствил оценку "5" через пару лет), но в данном случае это не столь уж критично, гораздо лучше чем просто *случайная подвыборка* и решает проблему *глобального среза*.

In [13]:
from tqdm import tqdm

In [79]:
users = df['userId'].unique() #list of all users
movies = df['movieId'].unique() #list of all movies
test = pd.DataFrame(columns=df.columns)
train = pd.DataFrame(columns=df.columns)
test_ratio = 0.2 #fraction of data to be used as test set.
for u in tqdm(users):
    temp = df[df['userId'] == u]
    n = len(temp)
    test_size = int(test_ratio*n)
    temp = temp.sort_values('timestamp').reset_index()
    temp.drop('index', axis=1, inplace=True)

    dummy_test = temp.loc[n-1-test_size :]
    dummy_train = temp.loc[: n-2-test_size]

    test = pd.concat([test, dummy_test])
    train = pd.concat([train, dummy_train])

100%|██████████| 6743/6743 [03:53<00:00, 28.87it/s]


## Построение Модели

In [16]:
!pip3 install implicit

Collecting implicit
  Downloading implicit-0.5.2-cp37-cp37m-manylinux2014_x86_64.whl (18.5 MB)
[K     |████████████████████████████████| 18.5 MB 415 kB/s 
Installing collected packages: implicit
Successfully installed implicit-0.5.2


In [87]:
from implicit.als import AlternatingLeastSquares

  f"CUDA extension is built, but disabling GPU support because of '{e}'",


In [14]:
from scipy.sparse import csr_matrix, save_npz, load_npz, vstack, hstack, lil_matrix

User-Item таблица

In [84]:
user_item = train.pivot(index = 'userId', columns='movieId', values='rating').fillna(0)
user_item.head()

movieId,1,2,3,4,5,6,7,8,9,10,...,127166,127196,127212,128488,128510,128520,128594,128842,129030,129707
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,4.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,3.0,0.0,0.0,0.0,4.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
5,0.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [85]:
train_sparse = csr_matrix(user_item)

In [None]:
test_df = test.pivot(index = 'userId', columns='movieId', values='rating').fillna(0)
test_df.head()
test_df = csr_matrix(test_df)

In [57]:
movies = sorted(train["movieId"].unique())
users = sorted(train["userId"].unique())

In [88]:
model = AlternatingLeastSquares(factors = 64)

model.fit(train_sparse)

  "OpenBLAS detected. Its highly recommend to set the environment variable "


  0%|          | 0/15 [00:00<?, ?it/s]

### Оценка качества

In [None]:
!pip install ml_metrics

In [91]:
from ml_metrics import mapk, apk

In [89]:
users = [i for i in range(6743)]
recommendations, scores = model.recommend(users, train_sparse[users], 10)

In [92]:
def calculate_ap():
  ap = []
  for userId in tqdm(users):
    true = test[test["userId"]==userId+1]
    true_choice = true.sort_values("rating", ascending = False)["movieId"].values

    ap.append(apk(list(true_choice),list(recommendations[userId]),10))

  return ap

map = calculate_ap()

100%|██████████| 6743/6743 [01:45<00:00, 63.73it/s]


In [93]:
print(np.mean(map))
#0.0012958950082213251
#0.002029838364754511

0.002428434037227636


Что ж, метрика получилось ужасная в основном из-за того, что многие рекомендованные фильмы пользователи вовсе не смотрели. Так же, если вспомнить что пользователи ставили оценки за 1-2 дня, а мы брали данные из будущего, некоторые рекомендованные фильмы могли и вовсе не выйти на момент рекомендации 
=(

Возможно, стоило идти по более простому пути и предсказывать поставленный рейтинг и мерить отклонение, так хотя бы можно будет прикинуть точность построенной модели.

# 2. Контентный подход

In [16]:
!pip install lightfm



In [113]:
movieIds = [i for i in sorted(films["movieId"])]
userIds = [i for i in sorted(users)]

Загрузим мета-информацию

In [190]:
path = "/content/drive/MyDrive/VK_test/genome_scores.csv"
tags = pd.read_csv(path)
tags.head(200)

Unnamed: 0,movieId,tagId,relevance
0,1,1,0.02500
1,1,2,0.02500
2,1,3,0.05775
3,1,4,0.09675
4,1,5,0.14675
...,...,...,...
195,1,196,0.05600
196,1,197,0.01975
197,1,198,0.08150
198,1,199,0.06775


Идея состояла в том, чтобы использовать теги как основные фичи, так как они содержат в себе и жанр, и года выпуска. Чтобы упростить работу, закодировать тег как релеватный -- (выше какого-то порога) и как нерелеватный -- 0 и 1 соответственно.

Это позволит хранить эти данные в sparse-матрице и упростит работу

In [211]:
print("Фильмов с тегами = ", tags["movieId"].unique().shape)
print("Фильмов с упомянуто в рейтинге = ",ratings["movieId"].unique().shape)

Фильмов с тегами =  (10381,)
Фильмов с упомянуто в рейтинге =  (26744,)


Однако случилась проблема с несовпадением и крайне сильным количество помеченных тегами фильмов и фильмов упомянутых в рейтингах.

Таких тегов нет больше чем у половины (!!!) фильмов. 
Остаются только жанры

In [315]:
path = "/content/drive/MyDrive/VK_test/movie.csv"
films = pd.read_csv(path)
films.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [258]:
#Список возможныъ жанров
films["genres"].unique()

array(['Adventure', 'Comedy', 'Action', 'Drama', 'Crime', 'Children',
       'Mystery', 'Documentary', 'Animation', 'Thriller', 'Horror',
       'Fantasy', 'Western', 'Film-Noir', 'Romance', 'War', 'Sci-Fi',
       'Musical', 'IMAX', '(no genres listed)'], dtype=object)

In [None]:
#Создаём из строки список жанров

item_features = []
for ind,el in enumerate(films["movieId"]):
  genres = films[films["movieId"] == el]["genres"].values[0].split("|")
  films["genres"][ind] = genres[0]
  item_features.append((el, genres))


In [312]:
item_features[:5]

[(1, ['Adventure', 'Animation', 'Children', 'Comedy', 'Fantasy']),
 (2, ['Adventure', 'Children', 'Fantasy']),
 (3, ['Comedy', 'Romance']),
 (4, ['Comedy', 'Drama', 'Romance']),
 (5, ['Comedy'])]

In [264]:
movies = sorted(train["movieId"].unique())
users = sorted(train["userId"].unique())

In [317]:
#Добавим фичи в датасет

data = Dataset()
data.fit(users, # list from 0 to n_users 
         movieIds, # list from 0 to n_items
         item_features  = films["genres"]
        )
train_lfm, weights_matrix = data.build_interactions([tuple(i) for i in train.drop(columns=["timestamp","title"]).values])
test_lfm, weights_matrix = data.build_interactions([tuple(i) for i in test.drop(columns=["timestamp","title"]).values])


In [318]:
item_featur = data.build_item_features(item_features)

In [319]:
model = LightFM(learning_rate=0.05, loss='bpr')
model.fit(train_lfm, epochs=20, item_features = item_featur)

<lightfm.lightfm.LightFM at 0x7f213eef6f90>

In [320]:
train_precision = precision_at_k(model, train_lfm, k=10, item_features = item_featur).mean()
test_precision = precision_at_k(model, test_lfm, k=10,item_features = item_featur).mean()


print('Precision: train %.2f, test %.2f.' % (train_precision, test_precision))

Precision: train 0.42, test 0.03.


Результат улучшился по сравнению с ручным подсчётом, однако, в сравнении без исопльзования item_features вовсе результат практически не изменился, что может говорить о плохой работе с фичами.

Статистически результаты не сравниваю, т.к эта модель сработала аж в 10 раз лучше, что может говорить о каких-то ошибках в работе с ALS

К сожалению времени не хватило чтобы добавить интересных фич для пользователей (Их любимые жанры, как вариант) и доработать модель с контентом.