Skip to content

lvodoleyl/hack_DS

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

NLP-сервис для Хакатона.

Данный сервис производит постобработку текстов, полченных после ASR-модели.

Сервис написан на основе микрофреймворка Flask.

Последовательно обработки:

  1. Исправление ошибок в словах после ASR, с помощью Yandex Speller.
  2. Расставление знаков (пунктуация), с помощью предобученной модели - snakers4/silero-models.
  3. Обучение Тематической модели LDA для извлечения тематик текста и главных слов каждой темы- тэгов.
  4. Применение предобученного NER в библиотеке Natasha для извлечения имен собственных, организаций, локаций и отображение их в тексте в виде тэгов <LOC>, <ORG>, <PER>.
  5. Применение статистического алгоритма - модели TextRank из библиотеки Gensim - для "извлекающей" аннотации текста.

На вход по route "/" json {"text": string}.

На выходе json:

  1. {"text": string, "annotation": string, "tags": [string]} - при успешной обработке.
  2. {"error": string} - при возникновении ошибки.

Для запуска можно использовать python main.py.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages