In [1]:
from natasha import Doc, Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [2]:
filepath: str = "your filepath"

with open(filepath, "r") as file:
    text = file.read().replace("\n", " ")


def tokenize(text: str) -> list[str]:
    return list(text.replace(" ", ""))


def vectorize(tokens: list[str]) -> list[int]:
    return [ord(token) for token in tokens]


# Токенизация
tokenized_text = tokenize(text)
print("Токены:", tokenized_text[:15])

# Векторизация
vectorized_text = vectorize(tokenized_text)
print("Векторы:", vectorized_text[:15])


Токены: ['П', 'р', 'е', 'с', 'т', 'у', 'п', 'л', 'е', 'н', 'и', 'е', 'и', 'н', 'а']
Векторы: [1055, 1088, 1077, 1089, 1090, 1091, 1087, 1083, 1077, 1085, 1080, 1077, 1080, 1085, 1072]


In [3]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

stemmer = SnowballStemmer("russian")

stopwords = stopwords.words("russian")


# Функция для лемматизации
def lemmatize_text(text: str, limit: int) -> list[str]:
    doc = Doc(text)

    doc.segment(segmenter)

    doc.tag_morph(morph_tagger)

    for token in doc.tokens[:limit]:
        token.lemmatize(morph_vocab)

    return [token.lemma for token in doc.tokens[:limit] if token.lemma not in stopwords]


def stem_text(lemmatized_text: str) -> list[str]:
    return [stemmer.stem(token) for token in lemmatized_text]


# Лемматизация
lemmatized = lemmatize_text(text=text, limit=15)
print("Лемматизация:", lemmatized)

stemmed = stem_text(lemmatized)
print("Стемминг:", stemmed)

print("Токены после Лемматизации:", tokenize(" ".join(lemmatized))[:15])

print("Векторы после Лемматизации:", vectorize(" ".join(lemmatized))[:15])

print("Токены после стемминга:", tokenize(" ".join(stemmed))[:15])

print("Векторы после стемминга:", vectorize(" ".join(stemmed))[:15])

Лемматизация: ['преступление', 'наказание', 'федор', 'михаилович', 'достоевский', 'смерть', 'спасение', 'родион', 'раскольников', 'это', 'роман']
Стемминг: ['преступлен', 'наказан', 'федор', 'михаилович', 'достоевск', 'смерт', 'спасен', 'родион', 'раскольник', 'эт', 'рома']
Токены после Лемматизации: ['п', 'р', 'е', 'с', 'т', 'у', 'п', 'л', 'е', 'н', 'и', 'е', 'н', 'а', 'к']
Векторы после Лемматизации: [1087, 1088, 1077, 1089, 1090, 1091, 1087, 1083, 1077, 1085, 1080, 1077, 32, 1085, 1072]
Токены после стемминга: ['п', 'р', 'е', 'с', 'т', 'у', 'п', 'л', 'е', 'н', 'н', 'а', 'к', 'а', 'з']
Векторы после стемминга: [1087, 1088, 1077, 1089, 1090, 1091, 1087, 1083, 1077, 1085, 32, 1085, 1072, 1082, 1072]
