# Домашняя работа. Рекомендации на основе содержания

- Использовать dataset MovieLens
- Построить рекомендации (регрессия, предсказываем оценку) на фичах:
 - TF-IDF на тегах и жанрах
 - Средние оценки (+ median, variance, etc.) пользователя и фильма
- Оценить RMSE на тестовой выборке

In [1]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer
from sklearn.neighbors import NearestNeighbors

%matplotlib inline

In [42]:
links = pd.read_csv('../lecture-1/ml-latest-small/links.csv')
movies = pd.read_csv('../lecture-1/ml-latest-small/movies.csv')
ratings = pd.read_csv('../lecture-1/ml-latest-small/ratings.csv')
tags = pd.read_csv('../lecture-1/ml-latest-small/tags.csv')

## Формирование обучающей выборки для рекоммендаций

TF (term frequency — частота слова) — отношение числа вхождений некоторого слова к общему числу слов документа. Таким образом, оценивается важность слова $ t_{i} $ в пределах отдельного документа.

$${\displaystyle \mathrm {tf} (t,d)={\frac {n_{t}}{\sum _{k}n_{k}}}},$$ где ${\displaystyle n_{t}}$ есть число вхождений слова ${\displaystyle t}$ в документ, а в знаменателе — общее число слов в данном документе.


IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Основоположником данной концепции является Карен Спарк Джонс. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

$${\mathrm {idf} (t,D)=\log {\frac {|D|}{|\{\,d_{i}\in D\mid t\in d_{i}\,\}|}}}$$ ,
где

|D| — число документов в коллекции;
${\displaystyle |\{\,d_{i}\in D\mid t\in d_{i}\,\}|}$ — число документов из коллекции  D, в которых встречается t (когда ${\displaystyle n_{t}\neq 0}$).

In [43]:
# Добавляем в датасет теги для обработки информации
movies = movies.join(tags.groupby('movieId').apply(lambda x: "|".join(x['tag'])).rename('tags'),
            on='movieId', how='left', sort=False)

In [44]:
# Средние оценки
df_ratings = ratings.groupby('movieId').agg({'userId': np.count_nonzero, 
                                'rating': [np.median, np.var, np.average]})
df_ratings.columns=['userid_count', 'rating_median', 'rating_var', 'rating_average']

movies = movies.join(df_ratings, on='movieId', how='left', sort=False)
movies = movies.fillna('')

In [47]:
genres = []
for i in movies.genres.str.split('|'):
    for j in i:
        genres.append(j)

dict_genres_idf = {i:np.log(len(movies)/genres.count(i)) for i in genres}

In [48]:
# Выберем только те тэги, которые встречаются больше 5 раз
tags = []
for i in movies[(movies.tags.isna()==False)].tags.str.split('|'):
    for j in i :
        tags.append(j)

dict_tags_idf = {i:tags.count(i) for i in tags if tags.count(i)>5 and i!=''}

In [49]:
len(sorted(dict_tags_idf.items(), key=lambda kv: kv[1]) )

125

In [50]:
for i in dict_genres_idf:
    movies['tf_idf_'+i] = movies.apply(lambda row: 
                                   (1/len(row['genres'].split('|')))*dict_genres_idf[i]
                                   if i in row['genres'] else 0, axis=1)

In [51]:
for i in dict_tags_idf:
    movies['tf_idf_'+i] = movies.apply(lambda row: 
                                   (1/len(row['tags'].split('|')))*dict_tags_idf[i]
                                   if i in row['tags'] else 0, axis=1)

## Линейная регрессия для предсказания оценки пользователя

Используем линейную регрессию, чтобы предсказать переменную - среднюю оценку пользователей (rating_average)