Skip to content
This repository was archived by the owner on Nov 8, 2024. It is now read-only.

rvneural/TextCleaner

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 

Repository files navigation

RU-TEXT-CLEANER

Библиотека подготовки русского текста для решения NLP- и иных задач

Установка: pip install ru-text-cleaner

Основным форматом использования билиотеки является:

from ru_text_cleaner import SimpleCleaner

text_cleaner = SimpleCleaner()

string = 'Какая-то    форматирования-нибудь \n\n\t строка-либо то-то'

formated_text = text_cleaner.clean_text(string)

В этом случае Вы получите следующий результат в переменной formated_text:

форматирование строка либо 

Функция clean_text() принимает на вход строку и возвращает строку. Аналогично функция clean_texts() принимает на вход массив строк и возвращает массив отформатированных строк.

Во время инициатизации объекта класса TextCleaner() можно вручную указать, какое конкретно форматирование текста будет производиться:

spaces=True # убирает многократные пробелы в тексте
punctuation=True # убирает знаки пунктуации в строке
html=True # убирает HTML-теги
emoji=True # убирает эмодзи
lower=True # переводит текст в нижний регистр
stop_words=True # убирает стоп-слова (союзы, предлоги и так далее)
morpheme=True # преобразует слова в их начальные формы (автоматически переводит текст в нижний регистр)

По умолчанию все переменные установлены в значение True.

About

Clean text for NLP

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages