<a href="https://colab.research.google.com/github/RomGor1/Methods-of-semantic-information-processing/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [52]:
# Импорт необходимых библиотек
from natasha import MorphVocab, Doc, Segmenter, NewsEmbedding, NewsMorphTagger


In [53]:
# Инициализация компонентов Natasha
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)


In [54]:
# Функция для обработки текста (лемматизация и стемминг)
def process_text(text, lemmatize=True, stem_length=4):
    doc = Doc(text)
    doc.segment(segmenter)  # Сегментация текста на токены
    doc.tag_morph(morph_tagger)  # Морфологический разбор

    processed_text = []
    for token in doc.tokens:
        token.lemmatize(morph_vocab)
        if lemmatize:
            processed_text.append(token.lemma if token.lemma else token.text)
        else:
            processed_text.append(token.lemma[:stem_length] if token.lemma else token.text)
    return processed_text

In [55]:
# Функция для токенизации всех символов из ASCII
def tokenize_ascii(text):
    return list(text)


In [56]:
# Функция для векторизации всех символов из ASCII
def vectorize_ascii(text):
    return [ord(char) for char in text]

In [57]:
# Пример текста
text = "Мама мыла раму, а потом пошла гулять."

In [65]:
# Лемматизация
lemmatized_text = process_text(text, lemmatize=True)
print("Лемматизация:", lemmatized_text)


Лемматизация: ['мама', 'мыть', 'рама', ',', 'а', 'потом', 'пойти', 'гулять', '.']


In [59]:
# Стемминг
stemmed_text = process_text(text, lemmatize=False, stem_length=4)
print("Стемминг:", stemmed_text)

Стемминг: ['мама', 'мыть', 'рама', ',', 'а', 'пото', 'пойт', 'гуля', '.']


In [60]:
# Токенизация ASCII
ascii_tokens = tokenize_ascii(text)
print("ASCII токены:", ascii_tokens)

ASCII токены: ['М', 'а', 'м', 'а', ' ', 'м', 'ы', 'л', 'а', ' ', 'р', 'а', 'м', 'у', ',', ' ', 'а', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'о', 'ш', 'л', 'а', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', '.']


In [61]:
# Векторизация ASCII
ascii_vectors = vectorize_ascii(text)
print("Векторизация ASCII:", ascii_vectors)

Векторизация ASCII: [1052, 1072, 1084, 1072, 32, 1084, 1099, 1083, 1072, 32, 1088, 1072, 1084, 1091, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1086, 1096, 1083, 1072, 32, 1075, 1091, 1083, 1103, 1090, 1100, 46]


In [62]:
# Токенизация и векторизация после лемматизации
processed_text_lemmatized = ' '.join(lemmatized_text)
tokens_lemmatized = tokenize_ascii(processed_text_lemmatized)
vectors_lemmatized = vectorize_ascii(processed_text_lemmatized)
print("Токенизация после лемматизации:", tokens_lemmatized)
print("Векторизация после лемматизации:", vectors_lemmatized)

Токенизация после лемматизации: ['м', 'а', 'м', 'а', ' ', 'м', 'ы', 'т', 'ь', ' ', 'р', 'а', 'м', 'а', ' ', ',', ' ', 'а', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'о', 'й', 'т', 'и', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', ' ', '.']
Векторизация после лемматизации: [1084, 1072, 1084, 1072, 32, 1084, 1099, 1090, 1100, 32, 1088, 1072, 1084, 1072, 32, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1086, 1081, 1090, 1080, 32, 1075, 1091, 1083, 1103, 1090, 1100, 32, 46]


In [63]:
# Токенизация и векторизация после стемминга
processed_text_stemmed = ' '.join(stemmed_text)
tokens_stemmed = tokenize_ascii(processed_text_stemmed)
vectors_stemmed = vectorize_ascii(processed_text_stemmed)
print("Токенизация после стемминга:", tokens_stemmed)
print("Векторизация после стемминга:", vectors_stemmed)

Токенизация после стемминга: ['м', 'а', 'м', 'а', ' ', 'м', 'ы', 'т', 'ь', ' ', 'р', 'а', 'м', 'а', ' ', ',', ' ', 'а', ' ', 'п', 'о', 'т', 'о', ' ', 'п', 'о', 'й', 'т', ' ', 'г', 'у', 'л', 'я', ' ', '.']
Векторизация после стемминга: [1084, 1072, 1084, 1072, 32, 1084, 1099, 1090, 1100, 32, 1088, 1072, 1084, 1072, 32, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 32, 1087, 1086, 1081, 1090, 32, 1075, 1091, 1083, 1103, 32, 46]
