Данный сервис производит постобработку текстов, полченных после ASR-модели.
Сервис написан на основе микрофреймворка Flask.
Последовательно обработки:
- Исправление ошибок в словах после ASR, с помощью Yandex Speller.
- Расставление знаков (пунктуация), с помощью предобученной модели - snakers4/silero-models.
- Обучение Тематической модели LDA для извлечения тематик текста и главных слов каждой темы- тэгов.
- Применение предобученного NER в библиотеке Natasha для извлечения имен собственных, организаций, локаций и отображение их в тексте в виде тэгов <LOC>, <ORG>, <PER>.
- Применение статистического алгоритма - модели TextRank из библиотеки Gensim - для "извлекающей" аннотации текста.
На вход по route "/" json {"text": string}.
На выходе json:
- {"text": string, "annotation": string, "tags": [string]} - при успешной обработке.
- {"error": string} - при возникновении ошибки.
Для запуска можно использовать
python main.py.