## Popularity-based model
Мы будем работать с набором данных Movie Lens. Он содержит идентификаторы для каждого фильма и пользователя, который его смотрел, а также оценку, которую пользователь поставил фильму. В датасете представлено 25 000 095 оценок фильмов от 162 541 пользователя со шкалой оценок от 0.5 до 5.0.

Из этого набора нам понадобится два файла:

* данные о фильмах (movies);
* данные о выставленных оценках (ratings).
Объединим их:

In [3]:
import pandas as pd
import numpy as np

In [2]:
ratings = pd.read_csv('data/dst-3.0_mathml_14_5_rating.csv')
movies = pd.read_csv('data/movie.zip')
df=pd.merge(ratings, movies, how='left', on='movieId')
df.head()


Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,2,3.5,2005-04-02 23:53:47,Jumanji (1995),Adventure|Children|Fantasy
1,1,29,3.5,2005-04-02 23:31:16,"City of Lost Children, The (Cité des enfants p...",Adventure|Drama|Fantasy|Mystery|Sci-Fi
2,1,32,3.5,2005-04-02 23:33:39,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
3,1,47,3.5,2005-04-02 23:32:07,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,3.5,2005-04-02 23:29:40,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


* userId — id пользователя;
* movieId — id фильма;
* rating — выставленный пользователем рейтинг для фильма;
* timestamp — время выставления рейтинга;
* title — название фильма;
* genres — жанры, к которым относится фильм.

In [3]:
df['title'].value_counts().head(5)

Pulp Fiction (1994)                 67310
Forrest Gump (1994)                 66172
Shawshank Redemption, The (1994)    63366
Silence of the Lambs, The (1991)    63299
Jurassic Park (1993)                59715
Name: title, dtype: int64

Отлично, мы нашли самые востребованные фильмы. Однако если фильм посмотрело много людей, это ещё не значит, что он им понравился. Чтобы понять, как зритель на самом деле относится к фильму, нужны более чёткие данные. К счастью, в наборе данных Movie Lens есть оценки каждого из зрителей.

* Найдите средний рейтинг для каждого из фильмов.
* Найдите фильмы с наивысшим средним рейтингом.
* Введите в качестве ответа фильм, занимающий последнее место среди фильмов с наивысшим рейтингом, если предварительно отсортировать их по алфавитному порядку.


In [9]:
mean_rating = df.groupby(by='title', as_index=False)['rating'].mean().sort_values(by=['rating', 'title'], ascending=[False, True])
mean_rating[mean_rating['rating'] == 5].tail()

Unnamed: 0,title,rating
25607,Welcome to Australia (1999),5.0
25751,When I Walk (2013),5.0
25918,Who Killed Vincent Chin? (1987),5.0
26430,Year Zero: The Silent Death of Cambodia (1979),5.0
26482,Yonkers Joe (2008),5.0


В двух предыдущих заданиях вы использовали два самых простых метода для создания неперсонализированных рекомендаций. Однако у них обоих есть свои недостатки: поиск наиболее часто просматриваемых фильмов не учитывает того, насколько фильм нравится аудитории, а поиск среднего рейтинга может вывести в рекомендуемые фильмы малоизвестные специфические картины с одной-двумя оценками.

Чтобы решить эти проблемы, объединим два подхода и будем искать средний рейтинг только для фильмов, которые были оценены более 50 раз.

In [15]:
rating_count_title = df.groupby(
    by='title', 
    as_index=False)[[
    'rating', 
    'movieId'
]].agg({
    'rating': 'mean', 
    'movieId': 'count'
}).rename(columns={
    'rating': 'mean_rating',
    'movieId': 'count'
})
rating_count_title = rating_count_title[rating_count_title['count'] > 50]
rating_count_title.shape[0]

10472

Постройте простейшую рекомендацию: возьмите фильмы, которые смотрели более 50 раз, и найдите среди них фильм с наивысшей средней оценкой.

In [17]:
top1_film = rating_count_title.sort_values(by='mean_rating', ascending=False).head(1)
top1_film

Unnamed: 0,title,mean_rating,count
20779,"Shawshank Redemption, The (1994)",4.44699,63366


***
В датасете содержится около 73 тысяч записей о взаимодействии пользователей с более чем тремя тысячами публичных статей, размещённых на платформе.

Информация в наборе данных:
* Оригинальный URL, название и текст статьи.
* Контекст посещений пользователей, например дата/время, клиент (мобильное приложение/браузер) и геолокация.
* Различные типы взаимодействия, что позволяет сделать вывод об уровне заинтересованности пользователя в статьях, например комментарии → лайки → просмотры.

Данные включают в себя два файла:

* `shared_articles.csv`;
* `users_interactions.csv`.

Начнём работать с файлом `shared_articles.csv`. Он содержит информацию о статьях, опубликованных на платформе *DeskDrop*.

Для каждой статьи есть:
* дата публикации (временная метка),
* исходный URL-адрес,
* заголовок,
* содержание в виде обычного текста,
* язык статьи (португальский — pt или английский — en),
* информация о пользователе, который поделился статьёй (автор).

Для временной метки существует два возможных типа событий:
* *CONTENT SHARED* — статья была опубликована на платформе и доступна для пользователей;
* *CONTENT REMOVED* — статья была удалена с платформы и недоступна для дальнейших рекомендаций.

Для простоты мы рассматриваем здесь только тип события *CONTENT SHARED*.

In [20]:
articles_data = pd.read_csv('data/shared_articles.csv')
articles_data.head(1)

Unnamed: 0,timestamp,eventType,contentId,authorPersonId,authorSessionId,authorUserAgent,authorRegion,authorCountry,contentType,url,title,text,lang
0,1459192779,CONTENT REMOVED,-6451309518266745024,4340306774493623681,8940341205206233829,,,,HTML,http://www.nytimes.com/2016/03/28/business/dea...,"Ethereum, a Virtual Currency, Enables Transact...",All of this work is still very early. The firs...,en


Отфильтруйте данные так, чтобы остались только объекты с типом события *CONTENT SHARED*. Сколько таких объектов в получившейся таблице?

In [21]:
articles_data = articles_data[articles_data['eventType'] == 'CONTENT SHARED']
articles_data.shape[0]

3047

Теперь откроем второй файл — `users_interactions.csv`.

Предварительно преобразуем столбцы `personId`, `contentId` в таблицах к строкам. 

In [22]:
interactions_data = pd.read_csv('data/users_interactions.csv')
interactions_data.personId = interactions_data.personId.astype(str)
interactions_data.contentId = interactions_data.contentId.astype(str)
articles_data.contentId = articles_data.contentId.astype(str)

В колонке `eventType` описаны действия, которые могли совершать пользователи при взаимодействии со статьёй:
* VIEW — просмотр,
* LIKE — лайк,
* COMMENT CREATED — комментарий,
* FOLLOW — подписка,
* BOOKMARK — добавление в закладки.

В первую очередь нам необходимо понять, как определить, что какая-то статья популярнее других. Если бы из возможных реакций у нас были только лайки или только просмотры, то статьи было бы легко ранжировать в соответствии с этими значениями. Однако у нас есть информация о различных действиях пользователя, и на её основе мы должны создать некий универсальный индекс популярности. Составим его из реакций пользователей, придав им разные веса:

In [23]:
event_type = {
   'VIEW': 1.0,
   'LIKE': 2.0, 
   'BOOKMARK': 2.5, 
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

Веса здесь подобраны исходя из важности каждого действия: оставить комментарий — значит, показать наибольшую вовлечённость, а обычный просмотр, напротив, демонстрирует наименьшую вовлечённость.

Создайте признак, который будет отражать числовой вес для взаимодействия со статьёй (в соответствии с приведёнными выше весами). Вычислите среднее значение для полученного признака.

In [24]:
interactions_data['event_num'] = interactions_data['eventType'].apply(lambda x: event_type[x])
interactions_data['event_num'].mean()

1.2362885828078327

Чтобы получить хоть какую-то информацию, на которую можно будет опираться, оставьте только тех пользователей, которые взаимодействовали хотя бы с пятью статьями. Сколько всего таких пользователей?

Оставим только те взаимодействия, которые касаются только отфильтрованных пользователей (то есть тех, которые взаимодействовали как минимум с пятью статьями). Сколько всего таких взаимодействий?

In [38]:
freq_users = interactions_data.groupby(by='personId', as_index=True)['contentId'].nunique()
freq_users = freq_users[freq_users >= 5]
interactions_data = interactions_data[interactions_data['personId'].isin(freq_users.index)]
interactions_data.shape[0], freq_users.shape[0]

(69868, 1140)

Сейчас каждое отдельное взаимодействие пользователя со статьёй выделено в отдельную запись, то есть пользователь мог просмотреть статью, лайкнуть и прокомментировать её, и всё это отразилось в трёх действиях. Давайте для удобства соединим все эти действия в некоторый коэффициент, который будет отражать интерес пользователя к статье. Так как каждому возможному действию мы ранее уже присвоили вес, то, по сути, нам нужно просто сложить все действия. Однако полученное число будет увеличиваться с количеством действий, и будет очень большой разброс возможных значений. В таких случаях обычно логарифмируют полученный результат с помощью следующей функции:

In [43]:
def smooth_user_preference(x):
    return np.log2(1+x)

Примените упомянутое выше преобразование для логарифмирования к сумме весов для взаимодействия пользователя с каждой конкретной статьёй. Также сохраните для каждой пары «пользователь — статья» значение времени последнего взаимодействия.

Найдите среднее по признаку с получившимися временными отсечками.

In [54]:
users_sum_event = interactions_data.groupby(
    by=['personId', 'contentId'],
    as_index=False
)['event_num'].sum()
users_sum_event['event_num'] = users_sum_event['event_num'].apply(smooth_user_preference)
users_sum_event['last_timestamp'] = interactions_data.groupby(by=['personId', 'contentId'], as_index=False)['timestamp'].max()['timestamp']
users_sum_event['last_timestamp'].mean()

1470605340.0403006

Разделите данные на обучающую и тестовую выборки, выбрав в качестве временной отсечки значение 1475519545. Значение отсечки включите в тестовую выборку.

In [56]:
separator = 1475519545
train, test = users_sum_event[users_sum_event['last_timestamp'] < separator], users_sum_event[users_sum_event['last_timestamp'] >= separator]
train.shape[0], test.shape[0]

(29325, 9781)

Для удобства дальнейшего измерения качества рекомендаций преобразуйте данные так, чтобы получить таблицу в формате, где строка соответствует пользователю, а столбцы будут истинными предпочтениями и рекомендациями в формате списков. На место пустых ячеек поместите пустые списки.



In [59]:
final_df = (
    train.reset_index()
    .groupby('personId')['contentId'].agg(lambda x: list(x))
    .reset_index()
    .rename(columns={'contentId': 'true_train'})
    .set_index('personId')
)

final_df['true_test'] = (
    test.reset_index()
    .groupby('personId')['contentId'].agg(lambda x: list(x))
)

final_df['true_test'] = [ [] if x is np.NaN else x for x in final_df['true_test'] ]
final_df.head()

Unnamed: 0_level_0,true_train,true_test
personId,Unnamed: 1_level_1,Unnamed: 2_level_1
-1007001694607905623,"[-5065077552540450930, -793729620925729327]","[-6623581327558800021, 1469580151036142903, 72..."
-1032019229384696495,"[-1006791494035379303, -1039912738963181810, -...","[-1415040208471067980, -2555801390963402198, -..."
-108842214936804958,"[-1196068832249300490, -133139342397538859, -1...","[-2780168264183400543, -3060116862184714437, -..."
-1130272294246983140,"[-1150591229250318592, -1196068832249300490, -...","[-1606980109000976010, -1663441888197894674, -..."
-1160159014793528221,"[-133139342397538859, -387651900461462767, 377...",[-3462051751080362224]


In [63]:
popular = (
    train
    .groupby('contentId')
    .event_num.sum().reset_index()
    .sort_values('event_num', ascending=False)
    .contentId.values
)
popular[0]

'-6783772548752091658'

In [72]:
top_k = 10
 
final_df['popular'] = (
    final_df.true_train
    .apply(
        lambda x:
        popular[~np.in1d(popular, x)][:top_k]
    )
)

def precision(column):
    return (final_df.apply(lambda row:
            len(set(row['true_test']).intersection(set(row[column]))) /
            min(len(row['true_test']) + 0.001, 10.0),axis=1)).mean()
    
precision('popular')

0.006454207722621089

***
# <center>Content-based model
Будем работать с датасетом, содержащим информацию об оценивании фильмов на платформе Netflix.

* show_id — id фильма,
* type — его тип (фильм или сериал),
* title — название,
* director — режиссер,
* cast — актерский состав,
* country — страна,
* date_added — дата добавления,
* release_year — год выхода на экраны,
* rating — рейтинг,
* duration — продолжительность,
* listened_in — жанр(-ы),
* description — описание.

В первую очередь нам необходимо определить, на основании чего мы будем рассматривать близость фильмов. Выберем для этой задачи описание фильма, ведь в нём, скорее всего, содержится много информации. Однако описание — это текст. Есть много подходов к преобразованию текста в вектор, и мы будем использовать подход **TF-IDF (Term Frequency-Inverse Document Frequency)**.

>**Показатель TD-IDF** — это индикатор того, насколько релевантно слово в контексте документа.

Его можно определить следующим образом:
$$ \text{TF-IDF (слова)} = \text{TF(слова)} \cdot \text{IDF(слова)} $$
* $ \text{TF(слова)} = \frac{\text{Сколько раз слово встречается в тексте}}{\text{Кол-во всех слов в тексте}} $

* $ \text{IDF(слова)} = \log \Big( \frac{\text{Общее кол-во документов}}{\text{Кол-во документов, в которых встречается слово}} \Big) $

Этот показатель возрастает пропорционально количеству раз, когда слово встречается в тексте, и уменьшается пропорционально количеству слов во всех текстах в целом.

Таким образом:

* **Коэффициент будет выше**, если слово характерно именно для этого текста, то есть встречается в данном тексте часто, но не встречается в других текстах.
* **Коэффициент будет ниже**, если слово не встречается почти нигде или встречается одинаковое количество раз во всех текстах, то есть не характеризует никакой текст в отдельности.


In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [4]:
df = pd.read_csv('data/netflix_titles.zip')
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


Далее учтём **стоп-слова**, т. е. предлоги и другие служебные части речи, которые не несут содержательной информации, и с учётом этого определим нашу модель:



In [2]:
model = TfidfVectorizer(stop_words='english')

Заполним пропуски пустыми строками:



In [5]:
df['description'] = df['description'].fillna('')

Трансформируем наши описания в матрицу:



In [10]:
feature_matrix = model.fit_transform(df['description'])
feature_matrix.shape

(7787, 17905)

Теперь необходимо вычислить косинусную близость. Можно сделать это так:



In [11]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(feature_matrix, feature_matrix)

Мы используем здесь `linear_kernel()`, а не `cosine_similarity()`, так как в косинусном расстоянии в знаменателе реализуется нормировка векторов, а *TF-IDF* создаёт уже нормализованные векторы.

In [13]:
print(cosine_sim)

[[1.         0.         0.05827946 ... 0.         0.         0.        ]
 [0.         1.         0.         ... 0.09600035 0.         0.        ]
 [0.05827946 0.         1.         ... 0.         0.         0.        ]
 ...
 [0.         0.09600035 0.         ... 1.         0.         0.02819239]
 [0.         0.         0.         ... 0.         1.         0.        ]
 [0.         0.         0.         ... 0.02819239 0.         1.        ]]


Вернём индексацию и уберём дубликаты из данных:



In [14]:
indices = pd.Series(df.index,index=df['title']).drop_duplicates()
indices

title
3%                                            0
7:19                                          1
23:59                                         2
9                                             3
21                                            4
                                           ... 
Zozo                                       7782
Zubaan                                     7783
Zulu Man in Japan                          7784
Zumbo's Just Desserts                      7785
ZZ TOP: THAT LITTLE OL' BAND FROM TEXAS    7786
Length: 7787, dtype: int64

Теперь пропишем функцию для создания рекомендаций:



In [15]:
def get_recommendations(title):
    idx = indices[title]
    #вычисляем попарные коэффициенты косинусной близости
    scores = list(enumerate(cosine_sim[idx]))
    #сортируем фильмы на основании коэффициентов косинусной близости по убыванию
    scores = sorted(scores, key=lambda x: x[1], reverse=True)
    #выбираем десять наибольших значений косинусной близости; нулевую не берём, т. к. это тот же фильм
    scores = scores[1:11]
    #забираем индексы
    ind_movie = [i[0] for i in scores]
    #возвращаем названия по индексам
    return df['title'].iloc[ind_movie]


Например, если мы хотим найти рекомендации по фильму "Star Trek", то функция будет выдавать следующий результат:



In [16]:
get_recommendations('Star Trek')

5788             Star Trek: The Next Generation
5787                      Star Trek: Enterprise
5786                 Star Trek: Deep Space Nine
5557                     She's Out of My League
134                                  7 Days Out
6664                        The Midnight Gospel
6023                                     Teresa
4863    Pinkfong & Baby Shark's Space Adventure
5104                                       Rats
5970                             Tales by Light
Name: title, dtype: object

In [17]:
get_recommendations('Balto')

709                Balto 2: Wolf Quest
7446                           Vroomiz
1338    Chilling Adventures of Sabrina
7388                          Vampires
1770                          Dinotrux
2767                     Hold the Dark
5540                 Shanghai Fortress
4041                             Mercy
2582                       Half & Half
1365        Christmas in the Heartland
Name: title, dtype: object

# <center>Memory-based and model-based
Для создания алгоритмов рекомендательной системы будем использовать библиотеку `surprise`.

