Система рекомендаций научных статей методами машинного обучения
Здесь покоится модификация Наивного Байеса для системы рекомендации научных статей. Ключевые особенности:
- весовые коэффициенты для различных групп признаков;
- байесовская модель ранжирования.
То есть помимо слов из текста модель умеет анализировать и такие метаданные, как авторство статьи, источник и область знаний. Также с её помощью можно ранжировать корпус документов.
Модель обучается на оценках пользователя и вырабатывает персональные рекомендации.
Исчерпывающая техническая документация :)
Модель можно адаптировать под любые задачи текстовой классификации и ранжирования. Наработки будут полезны для любых задач NLP и Text Mining.
В /src находится готовый датасет из числа статей на английском языке, найденным по запросу «Brain Cancer MRI» с фильтром по области знаний «Computer Science» из Semantic Scholar Open Research Corpus (релиз от 01.09.2021). Всего 499 статей.
В naive_bayes_mod.py
находится сама модель.