# RecSys. Data

Идея - разработка сервиса (пока сайт, в светлом будущем и мобильное приложение :)), который будет рекомендовать книги, фильмы сериалы (а может быть еще статьи, например, на Хабре, подкасты, курсы и многое многое другое) в зависимости от того, сколько свободного времени есть у пользователя. Можно построить рекомендательную систему для нового контента и для контента, добавленного в "Избранное".

Вообще, в условиях нехватки данных для нового сервиса с новыми клиентами, есть желание построить модель, где, возможно, используются контекстуальные многорукие бандиты + классический RecSys. Из бонусов, данная иситема сможет подстраиваться на каждого уникального пользователя. Но пока воспользуемся для начала открытые датасеты о книгах, фильмах и сериалах (потом можно собрать датасет по статьям на Хабре и подкастам). А потом можно разработать алгоритмы онлайн-дообучения собрать маленькую тестовую группу, на которой проверить насколько хорошо работают эти алгоритмы обучения или настроить имитационную модель и проверять обучение на ней. 

Дальше можно собирать информацию о паттернах поведения пользователя, распозновать эмоции и все это учитывать при рекомендации

## Загрузка и предобработка данных

In [2]:
import sys
sys.path.append('../')

import pandas as pd
from pathlib import Path
from tqdm import tqdm

Данные: Так как идея в том, чтобы рекомендовать в зависимости от количества свободного времени, то нужно иметь, как возможность рекомендовать что-то длинное - фильм, что-то относительно короткое - сериалы, или что-то не сильно привязаное ко времени - книги (статьи)

Данные: 
Книги - Book-Crossing Dataset (http://www2.informatik.uni-freiburg.de/~cziegler/BX/)

Фильмы и сериалы Kion - RecSys Course Competition (https://ods.ai/competitions/competition-recsys-21/data)

Есть еще и фильмы от movielens, но из-за объема + уже есть инфа про фильмы, данный датасет пока откладывается (до лучших времен)

Фильмы - Movielens (https://grouplens.org/datasets/movielens/)

Немного разношерстно (русский и английский языки), но для начала сойдет. 

In [3]:
books_ds_path = Path('../datasets/books/')
kion_ds_path = Path('../datasets/kion/')

# films_ds_path = Path('datasets/films/')

Все данные, которые есть на данном этапе, представленны ниже.

In [49]:
# df_books_rating = pd.read_csv(books_ds_path / 'Book-Ratings.csv', encoding='ISO-8859-1', sep=';')
# df_books = pd.read_csv(books_ds_path / 'Books.csv', encoding='ISO-8859-1', sep=';')
# df_boooks_users = pd.read_csv(books_ds_path / 'Users.csv', encoding='ISO-8859-1', sep=';')

In [9]:
# df_films = pd.read_csv(films_ds_path / 'movies.csv')
# df_films_rating = pd.read_csv(films_ds_path / 'ratings.csv')

In [54]:
df_kion = pd.read_csv(kion_ds_path / 'items.csv')
# df_kion_users = pd.read_csv(kion_ds_path / 'users.csv')
df_kion_rating = pd.read_csv(kion_ds_path / 'interactions.csv')

## Формулировка задачи

Нужна рекомендательная система, значит нужно выбрать из всего контента n штук (Пусть n = 20, будем рекомендовать контент в 4 страницы по 5 рекомендаций на странице). Успехом будет, если пользователь заинтересовался предложеным контентом, и чем он выше (на перовм месте на первой странице, лучше чем на первом месте, но на второй странице), тем лучше. Поэтому успехом будет интеракция (взаимодействие) пользователя с контентом. 

Будем считать, что паре клиент-контент (далее иногда user-item) ставится в соответствии 1, если интеракция была, -1, если интеракция неудачная (пользователь не оценил контент, поставил мало баллов, выключил фильм в начале) и 0, если интеракции не было. Из пар user-item, у которых не было взаимодействия нужно выбрать такие, которые скорее всего заинтересуют пользователя. 

*(Еще одна мысль: Можно ставить 1, если взаимодейстие было, 0, если оно было не удачным и оставлять пустым, если интеракции не было, тогда можно предсказывать каким-то образом вероятность того, что пользователь откликнется. Скорее всего в будущем нужно будет попробовать разные алгоритмы рекомендаций и в некоторых такая вероятносная постановка будет работать лучше. Сейчас сказать сложно)*

Из таких размышлений, кажется, что логичнее всего выбрать метрику MAP@20. Она имеет логичное обоснование - чем выше метрика, тем чаще алгоритм выстраивает рекомендации так, что выше всего оказывается контент, который нравится пользователю. Так как пользователь может выбрать только один конкретный контент за раз, то можно домножить MAP@20 на 20 и получить еще более приятно трактуемую метрику, грубо трактуемую как степень близости выбронного клиентом контента к первому месту. (А если разделить 1 на получившуюся метрику, то также грубо можно трактовать ее как среднее место выбранного контента среди рекомендаций, и эту метрику надо уменьшать - 1/1 - в среднем на первом месте, 1/0.5 - в среднем на втором месте и так далее)

## Откладываем тестовую выборку

В будущем user-item матрицы, их разложения и многорукие бандиты, а пока предобработка и подготовка данных. Будем считать, что все эти пользоатели - пользователи нашего сервиса, просто кто-то выбирал только фильмы и сериалы, а кто-то только книги. Пока нет реального потока клиентов (хотя бы тестовых или имитированных) будем действовать по классике - train и test разбивка. Пока что будем считать, что спрос на контент пропорционален размерам датасетов, поэтому из каждого датасета возмем примерно по 20 процентов интеракций. 

In [11]:
import numpy as np
from sklearn.model_selection import train_test_split

In [12]:
RANDOM_SEED = 42

In [13]:
# Приведем датасеты с интеракциями к единому виду с едиными столбцоми.
# Пока не будем разделять на положительные и отрицательные интеракции

# Все id дополним буквами b, k, чтобы если вдруг есть одинаковые id, то они не перемешались. 
df_books_rating = pd.read_csv(books_ds_path / 'Book-Ratings.csv', encoding='ISO-8859-1', sep=';')
df_books_interactions = df_books_rating.rename({'User-ID': 'user', 'ISBN': 'item'}, axis=1)
df_books_interactions['Book-Rating'] = df_books_interactions['Book-Rating'].replace(0, 5)
df_books_interactions['interaction_type'] = 1
df_books_interactions.loc[df_books_interactions[df_books_interactions['Book-Rating'] < 5].index, 'interaction_type'] = -1
df_books_interactions['source'] = 'books'
df_books_interactions[['user', 'item']] = 'b'+df_books_interactions[['user', 'item']].astype(str)
df_books_interactions = df_books_interactions.drop('Book-Rating', axis=1)
del df_books_rating 

df_kion_rating = pd.read_csv(kion_ds_path / 'interactions.csv')
df_kion_interactions = df_kion_rating[['user_id', 'item_id', 'watched_pct']].rename({'user_id': 'user', 'item_id': 'item'}, axis=1)
df_kion_interactions['interaction_type'] = 1
df_kion_interactions.loc[df_kion_interactions[df_kion_interactions['watched_pct'] < 30].index, 'interaction_type'] = -1
df_kion_interactions[['user', 'item']] = 'k'+df_kion_interactions[['user', 'item']].astype(str)
df_kion_interactions['source'] = 'kion'
df_kion_interactions = df_kion_interactions.drop('watched_pct', axis=1)
del df_kion_rating

# df_films_rating = pd.read_csv(films_ds_path / 'ratings.csv')
# df_films_interactions = df_films_rating[['userId', 'movieId']].rename({'userId': 'user', 'movieId': 'item'}, axis=1)
# df_films_interactions = 'f'+df_films_interactions.astype(str)
# df_films_interactions['sourse'] = 'films'
# del df_films_rating

In [14]:
train, test = [], []
for i in [df_books_interactions,  df_kion_interactions]:
    df_train, df_test = train_test_split(i, test_size=0.2, random_state=RANDOM_SEED)
    del i
    train.append(df_train)
    test.append(df_test)
df_train = pd.concat(train)
df_test = pd.concat(test)

In [13]:
data_path = Path('../data')

In [16]:
df_train.to_parquet(data_path / 'df_train.parquet')

In [17]:
df_test.to_parquet(data_path / 'df_test.parquet')

### Соберем маленькую БД по Пользователям

Так как идея в том, чтобы рекомендовать что-то новое (или что-то из избранног), то нужно на новое и избранное разбить. Для этого заведем небольшую БД по пользователям, в котороый будут записаны их "Избранное" - то, что они уже смотрели/читали. Очевидно, что эта БД должна быть на основе train

In [18]:
users_bd = df_train.groupby('user').agg({'item': lambda x: ', '.join(x)})

In [19]:
users_bd.to_parquet(data_path / 'users_bd.parquet')

# Базы данных по книгам и фильмам

Гитхаб не позволяет хранить большие csv файлы, а обертка в MVP пойдет через гит, поэтому нужно постараться сжать файлы, чтобы они поместились в гите

In [51]:
df_books.to_parquet(data_path/ 'books_bd.parquet')

In [58]:
df_kion.to_parquet(data_path/ 'kion_bd.parquet')

In [61]:
df_books.query('ISBN in ["0195153448", "0060973129"]')

Unnamed: 0,ISBN,Book-Title,Book-Author,Year-Of-Publication,Publisher,Image-URL-S,Image-URL-M,Image-URL-L
0,195153448,Classical Mythology,Mark P. O. Morford,2002,Oxford University Press,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...,http://images.amazon.com/images/P/0195153448.0...
2,60973129,Decision in Normandy,Carlo D'Este,1991,HarperPerennial,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...,http://images.amazon.com/images/P/0060973129.0...


In [62]:
df_kion

Unnamed: 0,item_id,content_type,title,title_orig,release_year,genres,countries,for_kids,age_rating,studios,directors,actors,description,keywords
0,10711,film,Поговори с ней,Hable con ella,2002.0,"драмы, зарубежные, детективы, мелодрамы",Испания,,16.0,,Педро Альмодовар,"Адольфо Фернандес, Ана Фернандес, Дарио Гранди...",Мелодрама легендарного Педро Альмодовара «Пого...,"Поговори, ней, 2002, Испания, друзья, любовь, ..."
1,2508,film,Голые перцы,Search Party,2014.0,"зарубежные, приключения, комедии",США,,16.0,,Скот Армстронг,"Адам Палли, Брайан Хаски, Дж.Б. Смув, Джейсон ...",Уморительная современная комедия на популярную...,"Голые, перцы, 2014, США, друзья, свадьбы, прео..."
2,10716,film,Тактическая сила,Tactical Force,2011.0,"криминал, зарубежные, триллеры, боевики, комедии",Канада,,16.0,,Адам П. Калтраро,"Адриан Холмс, Даррен Шалави, Джерри Вассерман,...",Профессиональный рестлер Стив Остин («Все или ...,"Тактическая, сила, 2011, Канада, бандиты, ганг..."
3,7868,film,45 лет,45 Years,2015.0,"драмы, зарубежные, мелодрамы",Великобритания,,16.0,,Эндрю Хэй,"Александра Риддлстон-Барретт, Джеральдин Джейм...","Шарлотта Рэмплинг, Том Кортни, Джеральдин Джей...","45, лет, 2015, Великобритания, брак, жизнь, лю..."
4,16268,film,Все решает мгновение,,1978.0,"драмы, спорт, советские, мелодрамы",СССР,,12.0,Ленфильм,Виктор Садовский,"Александр Абдулов, Александр Демьяненко, Алекс...",Расчетливая чаровница из советского кинохита «...,"Все, решает, мгновение, 1978, СССР, сильные, ж..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15958,6443,series,Полярный круг,Arctic Circle,2018.0,"драмы, триллеры, криминал","Финляндия, Германия",,16.0,,Ханну Салонен,"Иина Куустонен, Максимилиан Брюкнер, Пихла Вии...","Во время погони за браконьерами по лесу, сотру...","убийство, вирус, расследование преступления, н..."
15959,2367,series,Надежда,,2020.0,"драмы, боевики",Россия,0.0,18.0,,Елена Хазанова,"Виктория Исакова, Александр Кузьмин, Алексей М...",Оригинальный киносериал от создателей «Бывших»...,"Надежда, 2020, Россия"
15960,10632,series,Сговор,Hassel,2017.0,"драмы, триллеры, криминал",Россия,0.0,18.0,,"Эшреф Рейбрук, Амир Камдин, Эрик Эгер","Ола Рапас, Алиетт Офейм, Уильма Лиден, Шанти Р...",Криминальная драма по мотивам романов о шведск...,"Сговор, 2017, Россия"
15961,4538,series,Среди камней,Darklands,2019.0,"драмы, спорт, криминал",Россия,0.0,18.0,,"Марк О’Коннор, Конор МакМахон","Дэйн Уайт О’Хара, Томас Кэйн-Бирн, Джудит Родд...",Семнадцатилетний Дэмиен мечтает вырваться за п...,"Среди, камней, 2019, Россия"
