In [9]:
from natasha import Doc, Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger
from nltk.corpus import stopwords
from nltk.stem.snowball import SnowballStemmer

In [10]:
text = "Я бы смог завоевать весь мир одной рукой, если бы ты держала вторую."

def tokenize(text: str) -> list[str]:
    return list(text.replace(" ", ""))


def vectorize(tokens: list[str]) -> list[int]:
    return [ord(token) for token in tokens]


# Токенизация
tokenized_text = tokenize(text)
print("Токены:", tokenized_text[:5])

# Векторизация
vectorized_text = vectorize(tokenized_text)
print("Векторы:", vectorized_text[:5])

Токены: ['Я', 'б', 'ы', 'с', 'м']
Векторы: [1071, 1073, 1099, 1089, 1084]


In [11]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

stemmer = SnowballStemmer("russian")
stopwords = stopwords.words("russian")


# Функция для лемматизации
def lemmatize_text(text: str, limit: int) -> list[str]:
    doc = Doc(text)

    doc.segment(segmenter)

    doc.tag_morph(morph_tagger)

    for token in doc.tokens[:limit]:
        token.lemmatize(morph_vocab)

    return [token.lemma for token in doc.tokens[:limit] if token.lemma not in stopwords]


def stem_text(lemmatized_text: str) -> list[str]:
    return [stemmer.stem(token) for token in lemmatized_text]


# Лемматизация
lemmatized = lemmatize_text(text=text, limit=15)
print("Лемматизация:", lemmatized)

stemmed = stem_text(lemmatized)
print("Стемминг:", stemmed)

print("Токены после Лемматизации:", tokenize(" ".join(lemmatized))[:15])

print("Векторы после Лемматизации:", vectorize(" ".join(lemmatized))[:15])

print("Токены после стемминга:", tokenize(" ".join(stemmed))[:15])

print("Векторы после стемминга:", vectorize(" ".join(stemmed))[:15])

Лемматизация: ['смочь', 'завоевать', 'весь', 'мир', 'рука', ',', 'держать', 'второй', '.']
Стемминг: ['смоч', 'завоева', 'ве', 'мир', 'рук', ',', 'держа', 'втор', '.']
Токены после Лемматизации: ['с', 'м', 'о', 'ч', 'ь', 'з', 'а', 'в', 'о', 'е', 'в', 'а', 'т', 'ь', 'в']
Векторы после Лемматизации: [1089, 1084, 1086, 1095, 1100, 32, 1079, 1072, 1074, 1086, 1077, 1074, 1072, 1090, 1100]
Токены после стемминга: ['с', 'м', 'о', 'ч', 'з', 'а', 'в', 'о', 'е', 'в', 'а', 'в', 'е', 'м', 'и']
Векторы после стемминга: [1089, 1084, 1086, 1095, 32, 1079, 1072, 1074, 1086, 1077, 1074, 1072, 32, 1074, 1077]
