Задание:
Написать программу на языке программирования Python, реализующую:
1) Предварительную обработку текста, включающую:
• Перевод текста в нижний регистр
• Удаление знаков препинания
• Удаление стоп-слов
• Удаление лишних символов
• Стемминг и лемматизацию
2) Преобразование текста в мешок слов
3) Преобразование текста в N-граммы, где N=2,4

Замечание!
Желательно провести предварительную обработку текста с использованием библиотеки NLTK.

In [None]:
!pip install nltk pymystem3 razdel

import re
from razdel import tokenize as razdel_tokenize
from pymystem3 import Mystem
from nltk.stem.snowball import SnowballStemmer
from collections import Counter

mystem = Mystem()
stemmer = SnowballStemmer("russian")

stop_words = set([
    'и', 'в', 'на', 'с', 'не', 'он', 'как', 'что', 'а', 'но', 'только', 'один', 'под', 'из', 'по', 'у', 'за', 'о',
    'то', 'этот', 'всё', 'к', 'же', 'ни', 'где', 'когда', 'был', 'было', 'мог', 'свой', 'ещё', 'так', 'для', 'или',
    'чтобы', 'бы', 'ли', 'там', 'всегда', 'между', 'об', 'их', 'мы', 'вы', 'ты', 'меня', 'его', 'её', 'них', 'ним',
    'над', 'при', 'до', 'от', 'через', 'без', 'всех', 'весь', 'все', 'всю', 'всем', 'всеми', 'будет', 'будут'
])

text = """
На краю дороги стоял дуб. Вероятно, в десять раз старше берёз, составлявших лес, он был в десять раз толще и в два раза выше каждой берёзы. Это был огромный в два обхвата дуб с обломанными, давно видно, суками и с обломанной корой, заросшей старыми болячками. С огромными своими неуклюжими, несимметрично-растопыренными, корявыми руками и пальцами, он старым, сердитым и презрительным уродом стоял между улыбающимися берёзами. Только он один не хотел подчиняться обаянию весны и не хотел видеть ни весны, ни солнца.
«Весна, и любовь, и счастие!» – как будто говорил этот дуб, – «и как не надоест вам всё один и тот же глупый и бессмысленный обман. Всё одно и то же, и всё обман! Нет ни весны, ни солнца, ни счастия. Вон смотрите, сидят задавленные мёртвые ели, всегда одинакие, и вон и я растопырил свои обломанные, ободранные пальцы, где ни выросли они – из спины, из боков; как выросли – так и стою, и не верю вашим надеждам и обманам».
Князь Андрей несколько раз оглянулся на этот дуб, проезжая по лесу, как будто он чего-то ждал от него. Цветы и трава были и под дубом, но он всё так же, хмурясь, неподвижно, уродливо и упорно, стоял посреди их. «Да, он прав, тысячу раз прав этот дуб, думал князь Андрей, пускай другие, молодые, вновь поддаются на этот обман, а мы знаем жизнь, – наша жизнь кончена!» Целый новый ряд мыслей безнадёжных, но грустно-приятных в связи с этим дубом, возник в душе князя Андрея. Во время этого путешествия он как будто вновь обдумал всю свою жизнь, и пришёл к тому же прежнему успокоительному и безнадёжному заключению, что ему начинать ничего было не надо, что он должен доживать свою жизнь, не делая зла, не тревожась и ничего не желая.
"""

def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = [token.text for token in razdel_tokenize(text)]
    tokens = [word for word in tokens if word not in stop_words]

    lemmatized_tokens = [mystem.lemmatize(word)[0] for word in tokens]

    stemmed_tokens = [stemmer.stem(word) for word in tokens]

    return lemmatized_tokens, stemmed_tokens

def bag_of_words(tokens):
    return Counter(tokens)

def generate_ngrams(tokens, n):
    return [' '.join(tokens[i:i + n]) for i in range(len(tokens) - n + 1)]

def main():
    lemmatized_tokens, stemmed_tokens = preprocess_text(text)

    print("\nЛемматизированные токены:", lemmatized_tokens)
    print("\nСтемминговые токены:", stemmed_tokens)

    bow_lemmatized = bag_of_words(lemmatized_tokens)
    bow_stemmed = bag_of_words(stemmed_tokens)

    print("\nМешок слов (лемматизированный):", bow_lemmatized)
    print("\nМешок слов (стемминговый):", bow_stemmed)

    bigrams_lemmatized = generate_ngrams(lemmatized_tokens, 2)
    bigrams_stemmed = generate_ngrams(stemmed_tokens, 2)

    fourgrams_lemmatized = generate_ngrams(lemmatized_tokens, 4)
    fourgrams_stemmed = generate_ngrams(stemmed_tokens, 4)

    print("\nБиграммы (лемматизированные):", bigrams_lemmatized)
    print("\nБиграммы (стемминговые):", bigrams_stemmed)

    print("\nЧетырехиграммы (лемматизированные):", fourgrams_lemmatized)
    print("\nЧетырехиграммы (стемминговые):", fourgrams_stemmed)

if __name__ == "__main__":
    main()


Лемматизированные токены: ['край', 'дорога', 'стоять', 'дуб', 'вероятно', 'десять', 'раз', 'старый', 'береза', 'составлять', 'лес', 'десять', 'раз', 'толстый', 'два', 'раз', 'высоко', 'каждый', 'береза', 'это', 'огромный', 'два', 'обхват', 'дуб', 'обломать', 'давно', 'видно', 'сук', 'обломать', 'кора', 'зарастать', 'старый', 'болячка', 'огромный', 'свой', 'неуклюжий', 'несимметричнорастопыривать', 'корявый', 'рука', 'палец', 'старый', 'сердитый', 'презрительный', 'урод', 'стоять', 'улыбаться', 'береза', 'хотеть', 'подчиняться', 'обаяние', 'весна', 'хотеть', 'видеть', 'весна', 'солнце', 'весна', 'любовь', 'счастие', 'будто', 'говорить', 'дуб', 'надоедать', 'вы', 'тот', 'глупый', 'бессмысленный', 'обман', 'один', 'обман', 'нет', 'весна', 'солнце', 'счастие', 'вон', 'смотреть', 'сидеть', 'задавливать', 'мертвый', 'есть', 'одинакий', 'вон', 'я', 'растопыривать', 'свой', 'обломать', 'обдирать', 'палец', 'вырастать', 'они', 'спина', 'бок', 'вырастать', 'стоять', 'верить', 'ваш', 'надежда', 