# Recommendation System

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.metrics.pairwise import linear_kernel

## Задание 1

Объедини общие данные о фильмах [tmdb_5000_movies](https://files.sberdisk.ru/s/te4QbzdxKgsFQXA) и каст фильмов
[tmdb_5000_credits](https://files.sberdisk.ru/s/H9oRuXQt5mFz3T9). Оставь в датасете только фильмы, которые вышли в "релиз".\
Выведи количество фильмов, оставшихся после фильтрации.

In [None]:
df_movies = pd.read_csv('/content/drive/MyDrive/School21/day 13/DS_13-1-develop/datasets/tmdb_5000_movies.csv')
df_credits = pd.read_csv('/content/drive/MyDrive/School21/day 13/DS_13-1-develop/datasets/tmdb_5000_credits.csv')
df_ratings = pd.read_csv('/content/drive/MyDrive/School21/day 13/DS_13-1-develop/datasets/ratings.csv')

In [None]:
# df_movies = pd.read_csv('../datasets/tmdb_5000_movies.csv')
# df_credits = pd.read_csv('../datasets/tmdb_5000_credits.csv')
# df_ratings = pd.read_csv('../datasets/ratings.csv')

In [None]:
df_union = pd.merge(df_movies, df_credits, left_on='id', right_on='movie_id')  # объединили два df по столбцам 'id' и 'movie_id'

df_union = df_union[df_union['status'] == 'Released'].copy()  # оставили в df фильмы вышедшие в "релиз"
df_union.rename(columns = {'title_x': 'title'}, inplace=True)  # в df два столбца одинаковых, 1ый переименовали, чтоб 2ой удалить
df_union.drop(['title_y', 'movie_id'], axis= 1 , inplace= True )  # удаляем повторяющиеся столбцы
#df_union.head(5)

print('Количество фильмов вышедших в "релиз":', df_union.shape[0])

Количество фильмов вышедших в "релиз": 4795


## Задание 2

Самый наивный подход к рекомендации фильмов - рекомендовать фильмы с лучшими оценками пользователей. Фильмы, которые пользуются большей популярностью и признанием критиков, с большей вероятностью понравятся среднему зрителю.

Для справедливой оценки фильмов возьмем текущую рейтинговую систему IMDB (weighted rating (WR)), которая рассчитывается по формуле:
$$WR = \frac{v}{v + m} ⋅ R + \frac{m}{v + m} ⋅ C$$
$v$ - количество голосов \
$m$ - количество голосов для включения в финальную таблицу \
$R$ - средняя оценка \
$C$ - средняя оценка всех фильмов

Имплементируй функцию `weighted_rating`. С её помощью расcчитай рейтинг для каждого фильма и сохрани его в колонку `simple_score`.\
Выведи топ-5 фильмов по получившемуся рейтингу.
> В качестве параметра $m$ выбери 95-й квантиль количества голосов.

In [None]:
#ф-ция расчёта оценки фильма по системе IMDB
def weighted_rating(x, m, c):
    v = x['vote_count']
    R = x['vote_average']
    return (v/(v+m) * R) + (m/(m+v) * c)


In [None]:
m_quantile = df_union['vote_count'].quantile(0.95)
c_mean = df_union['vote_average'].mean()

df_union['simple_score'] = df_union.apply(weighted_rating, args=(m_quantile, c_mean), axis=1) # считаем оценку для каж. фильма
                                                                                              # и записываем её в столбец 'simple_score'
#df_union.head(5)

df_top = df_union.sort_values(by = 'simple_score', ascending=False)

df_top[['title', 'simple_score']].head(5)

Unnamed: 0,title,simple_score
1881,The Shawshank Redemption,7.849025
65,The Dark Knight,7.77399
662,Fight Club,7.761012
96,Inception,7.736496
3232,Pulp Fiction,7.714726


## Задание 3

Такой подход к рекомендациям очень наивен, так как не учитывает информацию о самом фильме (жанр, режиссер, описание, актеры и т.п). \
**Content Based Filtering** (Фильтрация на основе содержания) - тип рекомендательной системы, которая предлагает пользователям похожие элементы на основе конкретного элемента. Общая идея этих рекомендательных систем заключается в том, что если человеку понравился определенный товар, то ему понравится и похожий на него товар.

<center><img src="../misc/images/content.png" alt= “” width="300" height="500">

Реализуем алгоритм рекомендации на основе описания фильма. Для это требуется провести предобработку текста:
* Замени NaN в описании фильма на пустой символ `''`
* Удали все английские стоп слова (используй параметр `stop_words` в `TfidfVectorizer`)
* Расcчитай [Tf-Idf](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) для описания фильма

Выведи размер получившейся матрицы Tf-Idf

> Для [TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html) используйте параметры по умолчанию

In [None]:
df_union['overview'].fillna('', inplace=True) # меняем NaN в описании фильма на пустой символ
vector = TfidfVectorizer(stop_words='english') # вектор для Tf-Idf

matrix_tfidf = vector.fit_transform(df_union['overview']) # создаём матрицу функций Tf-Idf

print("Размер матрицы Tf-Idf:", matrix_tfidf.shape)

Размер матрицы Tf-Idf: (4795, 20970)


## Задание 4

Теперь тебе необходимо вычислить показатель сходства между описаниями фильмов. Используем косинусное расстояние, оно рассчитывается по формуле:
$$cos(Θ) = \frac{A ⋅ B}{∥A∥ ∥B∥} = \frac{ Σ_{i=1}^{n} A_i ⋅ B_i } { \sqrt{Σ_{i=1}^{n}A_{i}^{2}} ⋅ {\sqrt{Σ_{i=1}^{n}B_{i}^{2}}}}$$
Но поскольку мы использовали векторизатор TF-IDF на предыдущем шаге, достаточно вычислить скалярное произведение, которое и даст оценку косинусного сходства. Рассчитать его можно через [linear_kernel](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.linear_kernel.html). Результат сохрани в переменную `cosine_sim`.

Выведи размер получившейся матрицы `cosine_sim`.

In [None]:
cosine_sim = linear_kernel(matrix_tfidf)

print("Размер матрицы`cosine_sim:", cosine_sim.shape)

Размер матрицы`cosine_sim: (4795, 4795)


## Задание 5

Напиши функцию `get_recommendations`. На вход она принимает:
* `movies_dataset` - датасет фильмов
* `title` - название фильма, для которого мы будем искать похожие
* `cosine_sim` - матрица расстояний между описаниями
* `top_k` - топ-k cхожих фильмов

Возвращает top_k названий фильмов, описание которых похоже на выбранный фильм.\
Выведи топ-5 фильмов для `title='Saving Private Ryan'`

In [None]:
def get_recommendations(movies_dataset, title, cosine_sim, top_k=10): # ф-ция поиска фильмов похожих на заданный по описанию
    ind = ind_tit[title] # индекс фильма переданного в ф-цию
    scores_sim = list(enumerate(cosine_sim[ind])) # столбец оц сходства заданного фильма с др фильмами
    scores_sim = sorted(scores_sim, key=lambda x: x[1], reverse=True) # сортируем фильмы по оц сходства
    top_ind = [i[0] for i in scores_sim[1:top_k+1]] # индексы лучших фильмов для рекомендации
    top_movie = movies_dataset['title'].iloc[top_ind] # названия лучших фильмов для рекомендации
    return top_movie


In [None]:
ind_tit = pd.Series(df_union.index, index=df_union['title']) # создаём Series из названий фильмов и индексов
#ind_tit

recommend = get_recommendations(movies_dataset=df_union, title='Saving Private Ryan', cosine_sim=cosine_sim, top_k=5)

print('ТОП-5 рекомендованных фильмов для Saving Private Ryan:\n', recommend.to_string(index=False))

ТОП-5 рекомендованных фильмов для Saving Private Ryan:
    The Great Raid
The Monuments Men
The Expendables 2
        Abandoned
        The Train


## Задание 6

Еще один подход к построению рекомендательной системы - подход на основе сходства между пользователями. Этот подход называется **Collaborative Filtering** (Коллаборативная фильтрация).
<center><img src="../misc/images/all.png" alt= “” width="600" height="700"></center>
Коллаборативная фильтрация - это тип рекомендательной системы, которая использует поведение и предпочтения похожих пользователей для рекомендации товаров или продуктов конкретному пользователю. Система собирает данные о прошлом поведении пользователей, такие как покупки, рейтинги и отзывы, и анализирует их для выявления закономерностей и сходства между пользователями. На основе этих закономерностей система рекомендует товары, которые понравились или были приобретены другими такими же пользователями в прошлом.

Для реализации Коллаборативной фильтрации нам потребуются оценки пользователей [ratings](../datasets/ratings.csv).

>userId - id пользователя \
movieId - id фильма \
rating - оценка фильма (от 0 до 5)\
timestamp - время оценки


Воспользуйся библиотекой [surprise](https://surpriselib.com/) для обучения модели оценки рейтинга фильма [SVD](https://surprise.readthedocs.io/en/stable/matrix_factorization.html#surprise.prediction_algorithms.matrix_factorization.SVD). Выведи средние значения 'RMSE', 'MAE' на кросс-валидации с параметрами `cv=5`.

In [None]:
pip install surprise

Collecting surprise
  Downloading surprise-0.1-py2.py3-none-any.whl (1.8 kB)
Collecting scikit-surprise (from surprise)
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m5.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=2811628 sha256=40e9cb3cff434122646a437fe9e7f43339374f1048f5d20da1ac83b410303533
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise, surprise
Successfully installed scikit-surprise-1.1.3 surprise-0.1


In [None]:
from surprise import SVD, Dataset, Reader
from surprise.model_selection import cross_validate

In [None]:
#df_ratings

In [None]:
df_ratings.columns = df_ratings.columns.str.replace('movieId', 'id')
df_ratings.head(3)

Unnamed: 0,userId,id,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182


In [None]:
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df_ratings[['id','userId','rating']], reader)

In [None]:
algo = SVD()

In [None]:
# 5-кратная проверка и вывод результата
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8921  0.9012  0.9024  0.9040  0.9024  0.9004  0.0042  
MAE (testset)     0.6900  0.6945  0.6943  0.6976  0.6952  0.6943  0.0025  
Fit time          1.43    1.48    1.46    2.20    1.69    1.65    0.29    
Test time         0.14    0.26    0.23    0.39    0.14    0.23    0.09    


{'test_rmse': array([0.89213137, 0.9011748 , 0.90240178, 0.90396442, 0.90239351]),
 'test_mae': array([0.68999337, 0.69447533, 0.69429167, 0.69756855, 0.69517541]),
 'fit_time': (1.4260821342468262,
  1.480858564376831,
  1.4624080657958984,
  2.203575611114502,
  1.6902470588684082),
 'test_time': (0.14466547966003418,
  0.2580289840698242,
  0.22706103324890137,
  0.3869812488555908,
  0.144989013671875)}