О проекте:
Прессиндекс - система мониторинга СМИ и соцсетей, охватывающая более 100 000 источников (традиционные медиа, ВКонтакте, Facebook, Twitter, YouTube, Instagram, Яндекс.Дзен, Одноклассники, отзывы и блоги).
Система позволяет:
- отслеживать упоминания в интернете;
- объединять публикации в темы, определять тональность, выявлять тренды и строить рейтинги;
- формировать графики и отчеты;
- отправлять оповещения.
Задача:
Необходимо спрогнозировать потенциальный охват (количество просмотров) публикаций в двух-трех соцсетях, опираясь на собранную статистику (данные предоставляются) и используя машинное обучение.
Нужно рассмотреть 2 варианта расчета потенциального охвата:
-
для соцсетей, у которых содержится информация (статистика) по просмотрам публикаций;
-
для соцсетей, где в принципе нет информации по просмотрам.
Расчет должен проводиться для каждого паблика/автора.
Результат работы:
Дашборд с построением графика потенциального охвата на будущее (какой охват у публикаций будет в течение следующей недели). Показать сравнение показателей по потенциальному и фактическому охвату для соцсетей, где содержится фактическая информация о просмотрах (график, любой столбчатый/линейный/круговой и т.п.).
Требования и ограничения:
- Python/go, javascript, React/Vue;
- Работа с библиотеками для анализа данных pandas/scikit и т.п.;
- БД sqlite3/PostgreSQL/Clickhouse.
Критерии оценивания работ:
- Какие показатели задействованы при расчете;
- Алгоритм работы;
- Наличие описания методики;
- Метрики, отражающие качество/точность полученной методики.