<a href="https://colab.research.google.com/github/RomGor1/Methods-of-semantic-information-processing/blob/main/Untitled1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [44]:
# Импорт необходимых библиотек
from natasha import MorphVocab, Doc, Segmenter, NewsEmbedding, NewsMorphTagger

# Инициализация сегментатора, морфологического теггера и морфологического словаря
segmenter = Segmenter()
morph_vocab = MorphVocab()

# Загрузка модели для морфологического анализа
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

# 1. Лемматизация с использованием Natasha
def lemmatize(text):
    doc = Doc(text)
    doc.segment(segmenter)  # Сегментация текста на токены
    doc.tag_morph(morph_tagger)  # Морфологический разбор

    # Приведение токенов к леммам
    for token in doc.tokens:
        token.lemmatize(morph_vocab)

    lemmatized_text = [token.lemma for token in doc.tokens]
    return lemmatized_text

# 2. Упрощённый стемминг (возвращает основу слова)
def stem(text):
    doc = Doc(text)
    doc.segment(segmenter)  # Сегментация текста на токены
    doc.tag_morph(morph_tagger)  # Морфологический разбор

    # Упрощённый стемминг: берём первые 4 символа леммы (можно настроить)
    stemmed_text = []
    for token in doc.tokens:
        if token.lemma:  # Проверяем, что lemma не None
            stemmed_text.append(token.lemma[:4])  # Берём первые 4 символа леммы
        else:
            stemmed_text.append(token.text)  # Если lemma None, используем исходный текст токена
    return stemmed_text

# Пример текста
text = "Мама мыла раму, а потом пошла гулять."

# Лемматизация
lemmatized_text = lemmatize(text)
print("Лемматизация:", lemmatized_text)

# Стемминг
stemmed_text = stem(text)
print("Стемминг:", stemmed_text)

# 3. Функция для токенизации всех символов из ASCII
def tokenize_ascii(text):
    return list(text)

# Пример использования
ascii_text = "Hello, World!"
tokens = tokenize_ascii(ascii_text)
print("Токенизация ASCII:", tokens)

# 4. Функция для векторизации всех символов из ASCII
def vectorize_ascii(text):
    return [ord(char) for char in text]

# Пример использования
ascii_text = "Hello, World!"
vectors = vectorize_ascii(ascii_text)
print("Векторизация ASCII:", vectors)

# 5. Токенизация и векторизация текста после лемматизации и стемминга
processed_text_lemmatized = ' '.join(lemmatized_text)
processed_text_stemmed = ' '.join(stemmed_text)

# Токенизация после лемматизации
tokens_lemmatized = tokenize_ascii(processed_text_lemmatized)
print("Токенизация после лемматизации:", tokens_lemmatized)

# Векторизация после лемматизации
vectors_lemmatized = vectorize_ascii(processed_text_lemmatized)
print("Векторизация после лемматизации:", vectors_lemmatized)

# Токенизация после стемминга
tokens_stemmed = tokenize_ascii(processed_text_stemmed)
print("Токенизация после стемминга:", tokens_stemmed)

# Векторизация после стемминга
vectors_stemmed = vectorize_ascii(processed_text_stemmed)
print("Векторизация после стемминга:", vectors_stemmed)

Лемматизация: ['мама', 'мыть', 'рама', ',', 'а', 'потом', 'пойти', 'гулять', '.']
Стемминг: ['Мама', 'мыла', 'раму', ',', 'а', 'потом', 'пошла', 'гулять', '.']
Токенизация ASCII: ['H', 'e', 'l', 'l', 'o', ',', ' ', 'W', 'o', 'r', 'l', 'd', '!']
Векторизация ASCII: [72, 101, 108, 108, 111, 44, 32, 87, 111, 114, 108, 100, 33]
Токенизация после лемматизации: ['м', 'а', 'м', 'а', ' ', 'м', 'ы', 'т', 'ь', ' ', 'р', 'а', 'м', 'а', ' ', ',', ' ', 'а', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'о', 'й', 'т', 'и', ' ', 'г', 'у', 'л', 'я', 'т', 'ь', ' ', '.']
Векторизация после лемматизации: [1084, 1072, 1084, 1072, 32, 1084, 1099, 1090, 1100, 32, 1088, 1072, 1084, 1072, 32, 44, 32, 1072, 32, 1087, 1086, 1090, 1086, 1084, 32, 1087, 1086, 1081, 1090, 1080, 32, 1075, 1091, 1083, 1103, 1090, 1100, 32, 46]
Токенизация после стемминга: ['М', 'а', 'м', 'а', ' ', 'м', 'ы', 'л', 'а', ' ', 'р', 'а', 'м', 'у', ' ', ',', ' ', 'а', ' ', 'п', 'о', 'т', 'о', 'м', ' ', 'п', 'о', 'ш', 'л', 'а', ' ', 'г', 'у', 'л'