# Задание к занятию «Рекомендации на основе скрытых факторов»
Преподаватель: Борис Шминке
Описание задания:
Что делать
1. Установить implicit;
2. Взять датасет last.fm (урезанный или полный);
3. Разбить датасет на обучающую и тестовую выборки;
4. Построить на обучающей выборке хотя бы две модели из пакета implicit:
    - kNN по косинусной мере
    - ALS
5. Получить рекомендации на тестовой выборке для обученных моделей;
6. Сравнить метрики качества обученных моделей на тестовой выборке с помощью mrec (или иным способом).

Начнем с малого датасета, как минимум потому что на нем быстрее.

In [66]:
import pandas as pd
import numpy as np

col_names = ["user", "artist-mbid", "artist-name", "total-plays"]
data = pd.read_csv("lastfm_small.tsv",
    sep="\t",
    header=None,
    names=col_names
)
data.head()

Unnamed: 0,user,artist-mbid,artist-name,total-plays
0,00000c289a1829a808ac09c00daf10bc3c4e223b,3bd73256-3905-4f3a-97e2-8b341527f805,betty blowtorch,2137
1,00000c289a1829a808ac09c00daf10bc3c4e223b,f2fb0ff0-5679-42ec-a55c-15109ce6e320,die Ärzte,1099
2,00000c289a1829a808ac09c00daf10bc3c4e223b,b3ae82c2-e60b-4551-a76d-6620f1b456aa,melissa etheridge,897
3,00000c289a1829a808ac09c00daf10bc3c4e223b,3d6bbeb7-f90e-4d10-b440-e153c0d10b53,elvenking,717
4,00000c289a1829a808ac09c00daf10bc3c4e223b,bbd2ffd7-17f4-4506-8572-c1ea58c3f9a8,juliette & the licks,706


заполняем пустые значения и заменим строковые идентификаторы числовыми кодами

In [67]:
data.fillna("None", inplace=True)

data["user_id"] = data["user"].astype("category").cat.codes.copy() 
data["artist_id"] = data["artist-mbid"].astype("category").cat.codes.copy()
data["plays"] = data["total-plays"].astype(np.double)

убираем лишние колонки

In [68]:
data.drop(["artist-name", "artist-mbid", "user", "total-plays"], axis=1, inplace=True)
data.head(5)

Unnamed: 0,user_id,artist_id,plays
0,0,15530,2137.0
1,0,63468,1099.0
2,0,46857,897.0
3,0,15967,717.0
4,0,48968,706.0


In [69]:
data[data["artist_id"] == 0]

Unnamed: 0,user_id,artist_id,plays
393800,8053,0,36.0


Посмотрим на наши данные

In [70]:
data.describe()

Unnamed: 0,user_id,artist_id,plays
count,1000000.0,1000000.0,1000000.0
mean,10231.925996,33677.492236,216.60695
std,5912.022447,19230.330182,604.378024
min,0.0,0.0,1.0
25%,5117.0,17297.0,34.0
50%,10236.0,34543.0,94.0
75%,15346.0,49487.0,225.0
max,20464.0,66798.0,135392.0


разобьём наблюдения на тестовую и обучающую выборки

In [71]:
test_indices = np.random.choice(
    data.index.values,
    replace=False,
    size=int(len(data.index.values) * 0.2)
)
test_data = data.iloc[test_indices]
train_data = data.drop(test_indices)

In [72]:
test_user_set = set(test_data["user_id"].unique())
train_user_set = set(train_data["user_id"].unique())
print("нет в обучающей выборке, но есть в тестовой: {}".format(
    len(test_user_set - train_user_set)))
print("нет в тестовой выборке, но есть в обучающей: {}".format(
    len(train_user_set - test_user_set)))
print("всего пользователей: {}".format(len(data["user_id"].unique())))

нет в обучающей выборке, но есть в тестовой: 1
нет в тестовой выборке, но есть в обучающей: 19
всего пользователей: 20465


In [73]:
# исключим таких пользователей из тестовой и обучающей выборок
user_ids_to_exclude = (test_user_set - train_user_set).union(train_user_set - test_user_set)
bad_indices = test_data[test_data["user_id"].isin(user_ids_to_exclude).values].index
test_data.drop(bad_indices, inplace=True)
bad_indices = train_data[train_data["user_id"].isin(user_ids_to_exclude).values]
train_data.drop(bad_indices.index, inplace=True)


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [74]:
test_user_set = set(test_data["user_id"].unique())
train_user_set = set(train_data["user_id"].unique())
print("нет в обучающей выборке, но есть в тестовой: {}".format(
    len(test_user_set - train_user_set)))
print("нет в тестовой выборке, но есть в обучающей: {}".format(
    len(train_user_set - test_user_set)))
print("всего пользователей: {}".format(len(data["user_id"].unique())))

нет в обучающей выборке, но есть в тестовой: 0
нет в тестовой выборке, но есть в обучающей: 0
всего пользователей: 20465


In [75]:
import argparse
import logging
import time

import numpy
import pandas
from scipy.sparse import coo_matrix

from implicit.als import AlternatingLeastSquares
from implicit.approximate_als import (AnnoyAlternatingLeastSquares, FaissAlternatingLeastSquares,
                                      NMSLibAlternatingLeastSquares)
from implicit.nearest_neighbours import (BM25Recommender, CosineRecommender,
                                         TFIDFRecommender, bm25_weight)

## Найдем похожих артистов методом ALS

Создадим разреженную матрицу для обучения

In [12]:
plays = coo_matrix((train_data['plays'],
                   (train_data['artist_id'],
                    train_data['user_id'])))

user_plays = plays.tocsr()

Создадим модель ALS

In [13]:
model = AlternatingLeastSquares(factors=64, dtype=np.float32)
model_name = model.__class__
model.approximate_recommend = False

Обучим нашу модель (заполним данными матрицу)

In [14]:
model.fit(user_plays)

Выведем ближайших к какому то артисту (проходимся по всем в цикле) артистов (Ограничимся первым десятком, по 5 сравнений)

In [16]:
artists = dict(enumerate(train_data['artist_id']))

to_generate = train_data.groupby('artist_id').size().sort_values(ascending=False)
for artistid in to_generate[:10]:
    artist = artists[artistid]
#     print('')
#     for other, score in model.similar_items(artistid, N=5):
#         print("{}\t{}\t{}\n".format(artist, artists[other], score))

## Создадим методы с метриками

In [130]:
from sklearn.metrics import mean_squared_error, roc_auc_score
from math import sqrt
def rmse(predict, truth):   
    return sqrt(mean_squared_error(predict, truth))

In [148]:
def roc_auc(predict, truth, mean):
    predict = predict.apply(lambda x: 1 if x > mean else 0 )
    truth = truth.apply(lambda x: 1 if x > mean else 0 )
    return roc_auc_score(predict, truth)

## Предскажем артистов методом ALS

Создадим модель ALS

In [226]:
model = AlternatingLeastSquares(factors=128, dtype=np.float32)
model_name = model.__class__
model.approximate_similar_items = False

Обучим нашу модель (заполним данными матрицу)

In [229]:
model.fit(plays)

Выведем все предсказанные нами рекомендации артистов для пльзователей (на самом деле список длинный, поэтому строку print закоментил)

In [231]:
predict_artist = []
user_plays = plays.T.tocsr()        
for userid, username in enumerate(test_data['user_id'].unique()):
    for artistid, score in model.recommend(userid, user_plays):    
        predict_artist.append((userid,artistid, score))
#         print("score", score)
#         print("{}\t{}\t{}\n".format(username, artists[artistid], score))        

Приведем полученный результат к датафрейму

In [232]:
predict = pd.DataFrame(predict_artist, columns=["user_id","artist_id","plays"])
predict.head()

Unnamed: 0,user_id,artist_id,plays
0,0,4629,1.320925
1,0,63886,1.21043
2,0,56178,1.114449
3,0,17870,1.083276
4,0,31400,1.068863


In [233]:
predict["plays"].max()

2.1051039695739746

#### Для получения данных с метрик оставим только тех пользователей для которых у нас были данные по артистам и для которых были предсказанны данные по артистам. Что бы получить рейтинги и сравнить их

In [216]:
merged_data = pd.merge(test_data, predict, on=['user_id', 'artist_id'])

In [217]:
merged_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 623 entries, 0 to 622
Data columns (total 4 columns):
user_id      623 non-null int16
artist_id    623 non-null int32
plays_x      623 non-null float64
plays_y      623 non-null float64
dtypes: float64(2), int16(1), int32(1)
memory usage: 18.3 KB


In [218]:
print( 'RMSE: ' + str(rmse(merged_data["plays_y"], merged_data["plays_x"])))

RMSE: 1107.1465771363764


In [203]:
mean = merged_data["plays_y"].max()
mean

2.163398265838623

In [234]:
# print( 'ROC AUC: ' + str(roc_auc(merged_data["plays_y"], merged_data["plays_x"], mean)))

In [164]:
# predict = merged_data[merged_data["plays_y"].apply(lambda x: True if x > mean else False )]
predict = merged_data[merged_data["plays_y"].apply(lambda x: True if x > mean else False )]
predict.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 0 entries
Data columns (total 4 columns):
user_id      0 non-null int16
artist_id    0 non-null int32
plays_x      0 non-null float64
plays_y      0 non-null float64
dtypes: float64(2), int16(1), int32(1)
memory usage: 0.0 bytes


## Предскажем артистов методом kNN по косинусной мере

Создадим модель kNN по косинусной мере

In [204]:
model = CosineRecommender()
model_name = model.__class__
model.approximate_similar_items = False

Обучим нашу модель (заполним данными матрицу)

In [205]:
model.fit(plays)

Выведем все предсказанные нами рекомендации артистов для пльзователей (на самом деле список длинный, поэтому строку print закоментил)

In [206]:
predict_artist = []
user_plays = plays.T.tocsr()        
for userid, username in enumerate(test_data['user_id'].unique()):
    for artistid, score in model.recommend(userid, user_plays):        
        predict_artist.append((userid,artistid, score))

Приведем полученный результат к датафрейму

In [207]:
predict = pd.DataFrame(predict_artist, columns=["user_id","artist_id","plays"])
predict.head()

Unnamed: 0,user_id,artist_id,plays
0,0,51420,658.334366
1,0,66527,658.164407
2,0,4121,658.069934
3,0,28125,655.061519
4,0,9193,613.148988


In [208]:
test_data.head()

Unnamed: 0,user_id,artist_id,plays
832905,17055,27429,1.0
356883,7300,52694,468.0
179308,3663,42755,57.0
315283,6450,41171,3.0
179247,3663,46222,471.0


#### Для получения данных с метрик оставим только тех пользователей для которых у нас были данные по артистам и для которых были предсказанны данные по артистам. Что бы получить рейтинги и сравнить их

In [209]:
merged_data = pd.merge(test_data, predict, on=['user_id', 'artist_id'])

In [210]:
merged_data.head()

Unnamed: 0,user_id,artist_id,plays_x,plays_y
0,2307,21614,137.0,513.793384
1,9372,54269,35.0,795.994812
2,1866,7246,401.0,1064.246188
3,17677,55382,352.0,454.318131
4,19643,64924,242.0,2248.30538


In [211]:
print( 'RMSE: ' + str(rmse(merged_data["plays_y"], merged_data["plays_x"])))

RMSE: 1107.1465771363764


In [212]:
mean = merged_data["plays_y"].max()
mean

7191.9554738305651