Идея:
Наша команда предлагает решение для точного поиска видео на платформе с помощью комбинированного подхода к обработке текста и вывода релевантного результата через веб-интерфейс на основе Flask. Данное решение устойчиво к ошибкам и опечаткам пользователей.
Технические особенности:
- Обработка текста:
- YandexSpeller
- RegEx
- transliterate
- pymorphy2
- Векторный поиск кандидатов (TFIDF, FastText)
- Многоуровневое ранжирование:
- Алгоритм BM25
- Catboostranker - ранжирование по доп. фичам
- На выходе релевантный поиск с высокой скоростью
Стек решения: Python, Docker, RAPIDS, Flask, Bootstrap.
./EDA-final.ipynb Разведочный анализ данных;
./rutube_tfidf_comments.ipynb Код основного решения;
./bm25_catboost.csv Файл с рекомендациями;
Репозиторий вебинтерфейса: https://github.com/invincible/search_autocomplete