NLP-сервис для Хакатона.

Данный сервис производит постобработку текстов, полченных после ASR-модели.

Сервис написан на основе микрофреймворка Flask.

Последовательно обработки:

Исправление ошибок в словах после ASR, с помощью Yandex Speller.
Расставление знаков (пунктуация), с помощью предобученной модели - snakers4/silero-models.
Обучение Тематической модели LDA для извлечения тематик текста и главных слов каждой темы- тэгов.
Применение предобученного NER в библиотеке Natasha для извлечения имен собственных, организаций, локаций и отображение их в тексте в виде тэгов <LOC>, <ORG>, <PER>.
Применение статистического алгоритма - модели TextRank из библиотеки Gensim - для "извлекающей" аннотации текста.

На вход по route "/" json {"text": string}.

На выходе json:

{"text": string, "annotation": string, "tags": [string]} - при успешной обработке.
{"error": string} - при возникновении ошибки.

Для запуска можно использовать python main.py.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
vosk-model-small-ru-0.15		vosk-model-small-ru-0.15
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback