Установка: pip install ru-text-cleaner
Основным форматом использования билиотеки является:
from ru_text_cleaner import SimpleCleaner
text_cleaner = SimpleCleaner()
string = 'Какая-то    форматирования-нибудь \n\n\t строка-либо то-то'
formated_text = text_cleaner.clean_text(string)В этом случае Вы получите следующий результат в переменной formated_text:
форматирование строка либо Функция clean_text() принимает на вход строку и возвращает строку. Аналогично функция clean_texts() принимает на вход массив строк и возвращает массив отформатированных строк.
Во время инициатизации объекта класса TextCleaner() можно вручную указать, какое конкретно форматирование текста будет производиться:
spaces=True # убирает многократные пробелы в тексте
punctuation=True # убирает знаки пунктуации в строке
html=True # убирает HTML-теги
emoji=True # убирает эмодзи
lower=True # переводит текст в нижний регистр
stop_words=True # убирает стоп-слова (союзы, предлоги и так далее)
morpheme=True # преобразует слова в их начальные формы (автоматически переводит текст в нижний регистр)По умолчанию все переменные установлены в значение True.