In [22]:
from natasha import MorphVocab, Doc, Segmenter, NewsEmbedding, NewsMorphTagger

In [24]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)


In [23]:

def process_text(text, lemmatize=True, stem_length=4):
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)

    processed_text = []
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
        if lemmatize:
            processed_text.append(token.lemma if token.lemma else token.text)
        else:
            processed_text.append(token.lemma[:stem_length] if token.lemma else token.text)
    return processed_text

In [8]:
# Функция для токенизации всех символов из ASCII
def tokenize_ascii(text):
    return list(text)


In [9]:
# Функция для векторизации всех символов из ASCII
def vectorize_ascii(text):
    return [ord(char) for char in text]

In [28]:
# Пример текста
text = "гулять потом пить пиво на парах"

In [29]:
# Лемматизация
lemmatized_text = process_text(text, lemmatize=True)
print("Лемматизация:", lemmatized_text)


Лемматизация: ['гулять', 'потом', 'пить', 'пиво', 'на', 'пара']


In [30]:
# Стемминг
stemmed_text = process_text(text, lemmatize=False, stem_length=4)
print("Стемминг:", stemmed_text)

Стемминг: ['гуля', 'пото', 'пить', 'пиво', 'на', 'пара']


In [18]:
# Токенизация ASCII
ascii_tokens = tokenize_ascii(text)
print("ASCII токены:", ascii_tokens)

ASCII токены: ['о', 'о', 'у', 'у', ' ', 'е', 'е', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о']


In [None]:
# Векторизация ASCII
ascii_vectors = vectorize_ascii(text)
print("Векторизация ASCII:", ascii_vectors)

Векторизация ASCII: [1052, 1072, 1084, 1072, 32, 1084, 1099, 1083, 1072, 32, 1088, 1072, 1084, 1091, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1086, 1096, 1083, 1072, 32, 1075, 1091, 1083, 1103, 1090, 1100, 46]


In [32]:
# Токенизация и векторизация после лемматизации
processed_text_lemmatized = ' '.join(lemmatized_text)
tokens_lemmatized = tokenize_ascii(processed_text_lemmatized)
vectors_lemmatized = vectorize_ascii(processed_text_lemmatized)
print("Токенизация после лемматизации:", tokens_lemmatized)
print("Векторизация после лемматизации:", vectors_lemmatized)

Токенизация после лемматизации: ['г', 'у', 'л', 'я', 'т', 'ь', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о', ' ', 'н', 'а', ' ', 'п', 'а', 'р', 'а']
Векторизация после лемматизации: [1075, 1091, 1083, 1103, 1090, 1100, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1080, 1090, 1100, 32, 1087, 1080, 1074, 1086, 32, 1085, 1072, 32, 1087, 1072, 1088, 1072]


In [31]:
# Токенизация и векторизация после стемминга
processed_text_stemmed = ' '.join(stemmed_text)
tokens_stemmed = tokenize_ascii(processed_text_stemmed)
vectors_stemmed = vectorize_ascii(processed_text_stemmed)
print("Токенизация после стемминга:", tokens_stemmed)
print("Векторизация после стемминга:", vectors_stemmed)

Токенизация после стемминга: ['г', 'у', 'л', 'я', ' ', 'п', 'о', 'т', 'о', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о', ' ', 'н', 'а', ' ', 'п', 'а', 'р', 'а']
Векторизация после стемминга: [1075, 1091, 1083, 1103, 32, 1087, 1086, 1090, 1086, 32, 1087, 1080, 1090, 1100, 32, 1087, 1080, 1074, 1086, 32, 1085, 1072, 32, 1087, 1072, 1088, 1072]
