In [4]:
pip install natasha


Collecting natasha
  Downloading natasha-1.6.0-py3-none-any.whl.metadata (23 kB)
Collecting pymorphy2 (from natasha)
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting razdel>=0.5.0 (from natasha)
  Downloading razdel-0.5.0-py3-none-any.whl.metadata (10.0 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl.metadata (21 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl.metadata (34 kB)
Collecting yargy>=0.16.0 (from natasha)
  Downloading yargy-0.16.0-py3-none-any.whl.metadata (3.5 kB)
Collecting ipymarkup>=0.8.0 (from natasha)
  Downloading ipymarkup-0.9.0-py3-none-any.whl.metadata (5.6 kB)
Collecting intervaltree>=3 (from ipymarkup>=0.8.0->natasha)
  Downloading intervaltree-3.1.0.tar.gz (32 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting dawg-python>=0.7.1 (from pymorphy2->natasha)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pym

In [5]:
from natasha import MorphVocab, Doc, Segmenter, NewsEmbedding, NewsMorphTagger

In [6]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)


In [7]:
# Функция для обработки текста (лемматизация и стемминг)
def process_text(text, lemmatize=True, stem_length=4):
    doc = Doc(text)
    doc.segment(segmenter)  # Сегментация текста на токены
    doc.tag_morph(morph_tagger)  # Морфологический разбор

    processed_text = []
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
        if lemmatize:
            processed_text.append(token.lemma if token.lemma else token.text)
        else:
            processed_text.append(token.lemma[:stem_length] if token.lemma else token.text)
    return processed_text

In [8]:
# Функция для токенизации всех символов из ASCII
def tokenize_ascii(text):
    return list(text)


In [9]:
# Функция для векторизации всех символов из ASCII
def vectorize_ascii(text):
    return [ord(char) for char in text]

In [14]:
# Пример текста
text = "ооуу ее гулять потом пить пиво"

In [15]:
# Лемматизация
lemmatized_text = process_text(text, lemmatize=True)
print("Лемматизация:", lemmatized_text)


Лемматизация: ['ооуа', 'она', 'гулять', 'потом', 'пить', 'пиво']


In [19]:
# Стемминг
stemmed_text = process_text(text, lemmatize=False, stem_length=4)
print("Стемминг:", stemmed_text)

Стемминг: ['ооуа', 'она', 'гуля', 'пото', 'пить', 'пиво']


In [18]:
# Токенизация ASCII
ascii_tokens = tokenize_ascii(text)
print("ASCII токены:", ascii_tokens)

ASCII токены: ['о', 'о', 'у', 'у', ' ', 'е', 'е', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о']


In [None]:
# Векторизация ASCII
ascii_vectors = vectorize_ascii(text)
print("Векторизация ASCII:", ascii_vectors)

Векторизация ASCII: [1052, 1072, 1084, 1072, 32, 1084, 1099, 1083, 1072, 32, 1088, 1072, 1084, 1091, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1086, 1096, 1083, 1072, 32, 1075, 1091, 1083, 1103, 1090, 1100, 46]


In [20]:
# Токенизация и векторизация после лемматизации
processed_text_lemmatized = ' '.join(lemmatized_text)
tokens_lemmatized = tokenize_ascii(processed_text_lemmatized)
vectors_lemmatized = vectorize_ascii(processed_text_lemmatized)
print("Токенизация после лемматизации:", tokens_lemmatized)
print("Векторизация после лемматизации:", vectors_lemmatized)

Токенизация после лемматизации: ['о', 'о', 'у', 'а', ' ', 'о', 'н', 'а', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о']
Векторизация после лемматизации: [1086, 1086, 1091, 1072, 32, 1086, 1085, 1072, 32, 1075, 1091, 1083, 1103, 1090, 1100, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1080, 1090, 1100, 32, 1087, 1080, 1074, 1086]


In [21]:
# Токенизация и векторизация после стемминга
processed_text_stemmed = ' '.join(stemmed_text)
tokens_stemmed = tokenize_ascii(processed_text_stemmed)
vectors_stemmed = vectorize_ascii(processed_text_stemmed)
print("Токенизация после стемминга:", tokens_stemmed)
print("Векторизация после стемминга:", vectors_stemmed)

Токенизация после стемминга: ['о', 'о', 'у', 'а', ' ', 'о', 'н', 'а', ' ', 'г', 'у', 'л', 'я', ' ', 'п', 'о', 'т', 'о', ' ', 'п', 'и', 'т', 'ь', ' ', 'п', 'и', 'в', 'о']
Векторизация после стемминга: [1086, 1086, 1091, 1072, 32, 1086, 1085, 1072, 32, 1075, 1091, 1083, 1103, 32, 1087, 1086, 1090, 1086, 32, 1087, 1080, 1090, 1100, 32, 1087, 1080, 1074, 1086]
