Предобработка текста перед тем, как его анализировать, это важный этап, от которого во многом зависит результат. Здесь приведены некоторые примеры предобработки.

In [None]:
# Напоминаю, что импорты лучше запускать в отдельной ячейке
# в самом начале документа.
import re
import nltk

In [None]:
# Перевод в нижний регистр может удалить информацию об именах собственных,
# о начале предложения, об эмоциональной составляющей (тональности)
# сообщения.
text = """Вера, Надежда, Любовь
Один. Два. Три.
ФАНТАСТИКА!! СУПЕР!"""
print(text.lower())

вера, надежда, любовь
один. два. три.
фантастика!! супер!


In [None]:
# При помощи регулярных выражений можно оставить только
# алфавитные символы и числа.
# Узнать, что делает регулярное выражение, можно вот здесь: https://regex101.com/
text = 'Алекса́ндр Серге́евич Пу́шкин (26 мая [6 июня] 1799, Москва — 29 января [10 февраля] 1837, Санкт-Петербург) — русский поэт, драматург и прозаик, заложивший основы русского реалистического направления[2], литературный критик[3] и теоретик литературы, историк[3], публицист, журналист[3], редактор и издатель[4].'
text = re.sub(r'[^\w\s-]+', '', text)
print(text)
# Особенностью текстов, скачанных с Википедии, являются ссылки на исчтоник
# в квадратных скобках. Можно просто удалить все числа, если они оказались
# в конце слова и как бы приклеены к нему. Но тут мы заходим на тонкий лед:
# а что если перед нами, например, интересное имя собственное (например, U2
# название группы)? И обратите внимание, что мне приходится указать алфавит:
# а-яА-Я сработает только для кириллицы.
words_with_numbers = re.findall(r'[а-яА-Я]+[0-9]', text)
for wwn in words_with_numbers:
    clean_word = re.sub(r'[0-9]', '', wwn)
    text = re.sub(wwn, clean_word, text)
print(text)

Александр Сергеевич Пушкин 26 мая 6 июня 1799 Москва  29 января 10 февраля 1837 Санкт-Петербург  русский поэт драматург и прозаик заложивший основы русского реалистического направления2 литературный критик3 и теоретик литературы историк3 публицист журналист3 редактор и издатель4
Александр Сергеевич Пушкин 26 мая 6 июня 1799 Москва  29 января 10 февраля 1837 Санкт-Петербург  русский поэт драматург и прозаик заложивший основы русского реалистического направления литературный критик и теоретик литературы историк публицист журналист редактор и издатель


In [None]:
# Интересно, что некоторые символы на самом деле состоят из двух.
for char in 'а́':
    print(char)

а
́


In [None]:
# Лично я рекомендую делать деЁфикацию. Не забудьте про регистр.
text = "Ёж и Ежи Фарыно"
print(re.sub(r'ё', 'е', text.lower()))

еж и ежи фарыно


In [None]:
# Чтобы удалить стоп-слова, необязательно создавать собственный список.
# Такие списки есть в NLP-библиотеках, например spacy и NLTK.
nltk.download('stopwords')
from nltk.corpus import stopwords
rus_stop_words = stopwords.words("russian")
print(rus_stop_words)
# Можно добавить в этот список свои слова.
rus_stop_words.append('сколько')
print(rus_stop_words)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
text = "Вечор, ты помнишь, вьюга злилась, На мутном небе мгла носилась"
# Удалим пунктуацию.
text = re.sub(r'[^\w\s-]+', '', text)
# Переведем текст в нижний регистр и поделим на токены (split).
split_text = text.lower().split()
clean_text = ''
for token in split_text:
    if token not in rus_stop_words:
        clean_text += token+' '
print(clean_text)

вечор помнишь вьюга злилась мутном небе мгла носилась 


In [None]:
# Лемматизация, то есть превращение слова в начальную форму ("иду -> идти"),
# это довольно сложный процесс. Но есть более простой способ унифицировать
# формы слов в тексте - стемминг. Этот алгоритм отсекает от слова окончания,
# а иногда даже суфиксы и префиксы. Сколько отсекает - зависит от алгоритма.
# Так что оцените эффект разных стеммеров и выберите тот, который лучше
# подходит под вашу задачу.
# В NLTK есть только один стеммер для русского языка.
from nltk.stem.snowball import SnowballStemmer
snowball_stemmer = SnowballStemmer("russian")

In [None]:
text = 'глокая куздра штеко будланула бокра'
print([snowball_stemmer.stem(token) for token in text.split()])

['глок', 'куздр', 'штек', 'будланул', 'бокр']
