In [31]:
import re
import nltk
import pandas as pd
from collections import Counter
from pymorphy3 import MorphAnalyzer
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords

In [32]:
morph = MorphAnalyzer()
stemmer = SnowballStemmer("russian")
stop_words = set(stopwords.words("russian"))

In [33]:
text = """
ГЛАВА I
КЛАССОВОЕ ОБЩЕСТВО И ГОСУДАРСТВО
1. ГОСУДАРСТВО - ПРОДУКТ НЕПРИМИРИМОСТИ КЛАССОВЫХ ПРОТИВОРЕЧИЙ
С учением Маркса происходит теперь то, что не раз бывало в истории с учениями революционных мыслителей и вождей угнетенных классов в их борьбе за освобождение. 
Угнетающие классы при жизни великих революционеров платили им постоянными преследованиями, встречали их учение самой дикой злобой, самой бешеной ненавистью, самым бесшабашным походом лжи и клеветы. 
После их смерти делаются попытки превратить их в безвредные иконы, так сказать, канонизировать их, предоставить известную славу их имени для "утешения" угнетенных классов и для одурачения их, 
выхолащивая содержание революционного учения, притупляя его революционное острие, опошляя его. На такой "обработке" марксизма сходятся сейчас буржуазия и оппортунисты внутри рабочего движения. 
Забывают, оттирают, искажают революционную сторону учения, его революционную душу. Выдвигают на первый план, прославляют то, что приемлемо или что кажется приемлемым для буржуазии. 
Все социал-шовинисты нынче "марксисты", не шутите! И все чаще немецкие буржуазные ученые, вчерашние специалисты по истреблению марксизма, говорят о "национально-немецком" Марксе, 
который будто бы воспитал так великолепно организованные для ведения грабительской войны союзы рабочих!
"""

In [34]:
def tokenize_by_letters(text: str) -> list[str]:
    return re.findall(r'[а-яё]', text.lower())

def tokenize_by_words(text: str) -> list[str]:
    words = re.findall(r'[а-яё]+', text.lower())  # Извлекаем только слова
    return [word for word in words if word not in stop_words]

def lemmatize(tokens: list[str]) -> list[str]:
    return [morph.parse(word)[0].normal_form for word in tokens]

def stem(tokens: list[str]) -> list[str]:
    return [stemmer.stem(word) for word in tokens]

def vectorize_by_letters(tokens: list[str]) -> pd.DataFrame:
    letter_counts = Counter(tokens)
    df = pd.DataFrame([letter_counts], columns=sorted(letter_counts.keys())).fillna(0).astype(int)
    return df

In [35]:
letter_tokens = tokenize_by_letters(text)
word_tokens = tokenize_by_words(text)
lemmatized_text = lemmatize(word_tokens)
stemmed_text = stem(word_tokens)
letter_vectorized_text = vectorize_by_letters(letter_tokens)

In [36]:
print("\nТокенизированный текст:", letter_tokens)
print("\nЛемматизированный текст:", lemmatized_text)
print("\nСтемминг текста:", stemmed_text)
print("\nВекторизация:\n", letter_vectorized_text)


Токенизированный текст: ['г', 'л', 'а', 'в', 'а', 'к', 'л', 'а', 'с', 'с', 'о', 'в', 'о', 'е', 'о', 'б', 'щ', 'е', 'с', 'т', 'в', 'о', 'и', 'г', 'о', 'с', 'у', 'д', 'а', 'р', 'с', 'т', 'в', 'о', 'г', 'о', 'с', 'у', 'д', 'а', 'р', 'с', 'т', 'в', 'о', 'п', 'р', 'о', 'д', 'у', 'к', 'т', 'н', 'е', 'п', 'р', 'и', 'м', 'и', 'р', 'и', 'м', 'о', 'с', 'т', 'и', 'к', 'л', 'а', 'с', 'с', 'о', 'в', 'ы', 'х', 'п', 'р', 'о', 'т', 'и', 'в', 'о', 'р', 'е', 'ч', 'и', 'й', 'с', 'у', 'ч', 'е', 'н', 'и', 'е', 'м', 'м', 'а', 'р', 'к', 'с', 'а', 'п', 'р', 'о', 'и', 'с', 'х', 'о', 'д', 'и', 'т', 'т', 'е', 'п', 'е', 'р', 'ь', 'т', 'о', 'ч', 'т', 'о', 'н', 'е', 'р', 'а', 'з', 'б', 'ы', 'в', 'а', 'л', 'о', 'в', 'и', 'с', 'т', 'о', 'р', 'и', 'и', 'с', 'у', 'ч', 'е', 'н', 'и', 'я', 'м', 'и', 'р', 'е', 'в', 'о', 'л', 'ю', 'ц', 'и', 'о', 'н', 'н', 'ы', 'х', 'м', 'ы', 'с', 'л', 'и', 'т', 'е', 'л', 'е', 'й', 'и', 'в', 'о', 'ж', 'д', 'е', 'й', 'у', 'г', 'н', 'е', 'т', 'е', 'н', 'н', 'ы', 'х', 'к', 'л', 'а', 'с', 'с',