См. https://habr.com/ru/company/yandex/blog/477452/
C. Предсказание кликов пользователя
Одним из важнейших сигналов для рекомендательной системы является поведение пользователя. Таких данных зачастую достаточно, чтобы построить бейзлайн приемлемого качества.
В этом задании вам нужно построить рекомендательную систему на основе данных о действиях пользователей в персональной ленте рекомендаций Яндекс.Дзена.
Вам доступны 2 датасета: тренировочный (train.csv) и тестовый (test.csv). Каждая строка в датасетах соответствует взаимодействию некоторого пользователя с некоторым документом, показанным ему в ленте рекомендаций. Датасеты содержат следующие колонки:
— sample_id — числовой id взаимодействия, — item — числовой id показанного пользователю документа, — publisher — числовой id автора документа, — user — числовой id пользователя, topic_i, weight_i — числовой id i-ой темы документа и степень принадлежности документа данной теме (целое число от 0 до 100) (i = 0, 1, 2, 3, 4), — target — факт клика пользователя на документ (1 — был клик, 0 — был показ без клика). Этот столбец присутствует только в тренировочном датасете.
Необходимо построить модель для предсказания кликов пользователя и применить её к тестовому датасету.
Гарантируется, что все встречающиеся в тестовом датасете значения столбцов item, publisher, user, topic встречаются и в тренировочном датасете.
В качестве решения нужно отправить csv-файл, состоящий из двух колонок: sample_id и target, где sample_id — id строки из тестового датасета, а target — предсказанная вероятность клика. Количество строк в этом файле должно совпадать с количеством строк в test.csv. Строки в файле с решением должны быть отсортированы по возрастанию значений колонки sample_id (в том же порядке, что и в test.csv). Все значения вероятностей в колонке target должны быть вещественными числами от 0 до 1.