Ответ к тестовому заданию на стажировки Кловери
Задание: Есть 4 набора данных:
- о купленных билетах (идентификатор мероприятия; идентификатор участника; дата покупки; стоимость билета)
- о возрасте и регионе участника программы (возраст — от 14 до 22, регион — один из 85 регионов РФ).
- о мероприятиях в регионе посещения (тип организации; идентификатор мероприятия)
- о факте посещения мероприятий (идентификатор мероприятия; идентификатор участника; дата посещения) Ответьте на вопросы ниже.
- Опишите, как бы вы использовали эти данные для предсказания, какое событие заинтересует участника?
- Какие дополнительные данные могут повлиять на точность предсказаний?
- Какую бы метрику использовали для оценки качества работы рекомендательной модели?
Для решения поставленной я бы выполнил следующие шаги:
- Определился с таргетом. В данном случае надо понять пойдет участник программы на мероприятие или нет. Таким образом надо решать задачу классификации;
- Используя язык программирования Python и библиотеку Pandas, выполнил операции по объединению датасетов в один и с генерировал признак являющийся таргетом. (подробнее см. https://github.com/speedtriple82/CloveriTest/blob/main/Example_for_cloveri.ipynb);
- Добавил новые признаки из имеющихся, удалил ненужные (подробнее см. https://github.com/speedtriple82/CloveriTest/blob/main/Example_for_cloveri.ipynb);
- Провел анализ зависимости признаков на таргет, анализ корреляций числовых признаков;
- Было бы не плохо обогатить данный датасет дополнительными данными, такими как: вид занятости участника(школьник, студент, безработный, работающий), пол участника, наличие романтических отношений, количество часов проводимых на работе/учебе.
- Разбил датасет на тренировочную и валидационную часть;
- Построил базовую модель например лог регрессию;
- Определил метрику например F1-score (еще варианты см. https://github.com/speedtriple82/CloveriTest/blob/main/Example_for_cloveri.ipynb);
- Построил другую модель/модели, посчитал метрику;
- Пробовал убирать/добавлять признаки, изменять гиперпараметры модели смотреть на изменение метрики
- Направил в продакшн(?) вариант, показывающий наилучший результат.