In [23]:
import re
import nltk
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from pymorphy3 import MorphAnalyzer
from sklearn.feature_extraction.text import CountVectorizer


stemmer = SnowballStemmer("russian")
morph = MorphAnalyzer()
stop_words = set(stopwords.words("russian"))

text = """
ГЛАВА I
КЛАССОВОЕ ОБЩЕСТВО И ГОСУДАРСТВО
1. ГОСУДАРСТВО - ПРОДУКТ НЕПРИМИРИМОСТИ КЛАССОВЫХ ПРОТИВОРЕЧИЙ
С учением Маркса происходит теперь то, что не раз бывало в истории с учениями революционных мыслителей и вождей угнетенных классов в их борьбе за освобождение. 
Угнетающие классы при жизни великих революционеров платили им постоянными преследованиями, встречали их учение самой дикой злобой, самой бешеной ненавистью, самым бесшабашным походом лжи и клеветы. 
После их смерти делаются попытки превратить их в безвредные иконы, так сказать, канонизировать их, предоставить известную славу их имени для "утешения" угнетенных классов и для одурачения их, 
выхолащивая содержание революционного учения, притупляя его революционное острие, опошляя его. На такой "обработке" марксизма сходятся сейчас буржуазия и оппортунисты внутри рабочего движения. 
Забывают, оттирают, искажают революционную сторону учения, его революционную душу. Выдвигают на первый план, прославляют то, что приемлемо или что кажется приемлемым для буржуазии. 
Все социал-шовинисты нынче "марксисты", не шутите! И все чаще немецкие буржуазные ученые, вчерашние специалисты по истреблению марксизма, говорят о "национально-немецком" Марксе, 
который будто бы воспитал так великолепно организованные для ведения грабительской войны союзы рабочих!
"""

def tokenize_clean(text: str) -> list[str]:
    tokens = word_tokenize(text, language="russian")
    tokens = [word.lower() for word in tokens if re.match(r"^[а-яА-ЯёЁ]+$", word)]
    return [word for word in tokens if word not in stop_words]

def lemmatize(tokens: list[str]) -> list[str]:
    return [morph.parse(word)[0].normal_form for word in tokens]

def stem(tokens: list[str]) -> list[str]:
    return [stemmer.stem(word) for word in tokens]

def vectorize(tokens: list[str]):
    vectorizer = CountVectorizer()
    text_data = [" ".join(tokens)]  
    matrix = vectorizer.fit_transform(text_data)
    feature_names = vectorizer.get_feature_names_out()  
    return matrix.toarray(), feature_names

tokenized_text = tokenize_clean(text)
lemmatized_text = lemmatize(tokenized_text)
stemmed_text = stem(tokenized_text)
vectorized_text, feature_names = vectorize(tokenized_text)

print("\nТокенизированный текст:", tokenized_text)
print("\nЛемматизированный текст:", lemmatized_text)
print("\nСтемминг текста:", stemmed_text)

df = pd.DataFrame(vectorized_text, columns=feature_names)
print("\nВекторизированный текст:\n", df)


Токенизированный текст: ['глава', 'классовое', 'общество', 'государство', 'государство', 'продукт', 'непримиримости', 'классовых', 'противоречий', 'учением', 'маркса', 'происходит', 'бывало', 'истории', 'учениями', 'революционных', 'мыслителей', 'вождей', 'угнетенных', 'классов', 'борьбе', 'освобождение', 'угнетающие', 'классы', 'жизни', 'великих', 'революционеров', 'платили', 'постоянными', 'преследованиями', 'встречали', 'учение', 'самой', 'дикой', 'злобой', 'самой', 'бешеной', 'ненавистью', 'самым', 'бесшабашным', 'походом', 'лжи', 'клеветы', 'смерти', 'делаются', 'попытки', 'превратить', 'безвредные', 'иконы', 'сказать', 'канонизировать', 'предоставить', 'известную', 'славу', 'имени', 'утешения', 'угнетенных', 'классов', 'одурачения', 'выхолащивая', 'содержание', 'революционного', 'учения', 'притупляя', 'революционное', 'острие', 'опошляя', 'обработке', 'марксизма', 'сходятся', 'буржуазия', 'оппортунисты', 'внутри', 'рабочего', 'движения', 'забывают', 'оттирают', 'искажают', 'рево

In [3]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.3-py3-none-any.whl.metadata (1.9 kB)
Collecting dawg2-python>=0.8.0 (from pymorphy3)
  Downloading dawg2_python-0.9.0-py3-none-any.whl.metadata (7.5 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.3-py3-none-any.whl (53 kB)
Downloading dawg2_python-0.9.0-py3-none-any.whl (9.3 kB)
Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   ---------------------------------------- 0.0/8.4 MB ? eta -:--:--
   - -------------------------------------- 0.3/8.4 MB ? eta -:--:--
   ------- -------------------------------- 1.6/8.4 MB 4.0 MB/s eta 0:00:02
   ---------------- ----------------------- 3.4/8.4 MB 6.1 MB/s eta 0:00:01
   ------------------ --------------------- 3.9/8.4 MB 4.9 MB/s eta 0:00:01
   ------------------------------- 