In [None]:
!pip install natasha



In [None]:
from natasha import MorphVocab, Segmenter, NewsEmbedding, NewsMorphTagger, Doc

In [None]:
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

In [None]:
text = "Задача организации, в особенности же постоянное информационно-техническое обеспечение нашей деятельности требует определения и уточнения системы масштабного изменения ряда параметров. Практический опыт показывает, что начало повседневной работы по формированию позиции представляет собой интересный эксперимент проверки системы обучения кадров, соответствующей насущным потребностям! Задача организации, в особенности же дальнейшее развитие различных форм деятельности напрямую зависит от всесторонне сбалансированных нововведений?"

1. Провести на любом тексте лемматизацию и стемминг (nltk, pymorphy2, pymorphy3, natasha)

In [None]:
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)

In [None]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    print(f"Токен: {token.text}, Лемма: {token.lemma}")

Токен: Задача, Лемма: задача
Токен: организации, Лемма: организация
Токен: ,, Лемма: ,
Токен: в, Лемма: в
Токен: особенности, Лемма: особенность
Токен: же, Лемма: же
Токен: постоянное, Лемма: постоянный
Токен: информационно-техническое, Лемма: информационно-технический
Токен: обеспечение, Лемма: обеспечение
Токен: нашей, Лемма: наш
Токен: деятельности, Лемма: деятельность
Токен: требует, Лемма: требовать
Токен: определения, Лемма: определение
Токен: и, Лемма: и
Токен: уточнения, Лемма: уточнение
Токен: системы, Лемма: система
Токен: масштабного, Лемма: масштабный
Токен: изменения, Лемма: изменение
Токен: ряда, Лемма: ряд
Токен: параметров, Лемма: параметр
Токен: ., Лемма: .
Токен: Практический, Лемма: практический
Токен: опыт, Лемма: опыт
Токен: показывает, Лемма: показывать
Токен: ,, Лемма: ,
Токен: что, Лемма: что
Токен: начало, Лемма: начало
Токен: повседневной, Лемма: повседневный
Токен: работы, Лемма: работа
Токен: по, Лемма: по
Токен: формированию, Лемма: формирование
Токен: пози

In [None]:
from nltk.stem.snowball import SnowballStemmer

# Инициализация стеммера для русского языка
stemmer = SnowballStemmer("russian")

# Пример текста
text = "Мама мыла раму, а потом пошла в магазин."

# Токенизация (можно использовать Natasha или NLTK)
tokens = text.split()  # Простая токенизация по пробелам

# Стемминг
for token in tokens:
    stem = stemmer.stem(token)
    print(f"Токен: {token}, Стем: {stem}")

Токен: Мама, Стем: мам
Токен: мыла, Стем: мыл
Токен: раму,, Стем: раму,
Токен: а, Стем: а
Токен: потом, Стем: пот
Токен: пошла, Стем: пошл
Токен: в, Стем: в
Токен: магазин., Стем: магазин.


2. Написать функцию для токенизации всех символов из ASCII

In [None]:
def tokenize(text: str) -> list[str]:
    """
    Токенизирует текст на отдельные символы, оставляя только символы из ASCII.

    :param text: Входная строка.
    :return: Список символов ASCII.
    """
    return [char for char in text if ord(char) < 128]

text = "Hello, мир! 123"
tokens = tokenize(text)
print(tokens)

['H', 'e', 'l', 'l', 'o', ',', ' ', '!', ' ', '1', '2', '3']


3. Написать функцию для векторизации всех символов из ASCII

In [None]:
def vectorize(tokens: list[str]) -> list[int]:
    return [sum(ord(char) for char in token) for token in tokens]

tokens = ["Hello", "world", "123", "!!!"]
vector = vectorize(tokens)
print(vector)

[500, 552, 150, 99]


4. Провести токенизацию и векторизацию текста после лемматизации и стемминга

In [None]:
def tokenize(text: str) -> list[str]:
    return text.split()

text = """
Natural language processing (NLP) is a subfield of linguistics, computer science, and artificial intelligence
concerned with the interactions between computers and human language, in particular how to program computers
to process and analyze large amounts of natural language data. The goal is a computer capable of "understanding"
the contents of documents, including the contextual nuances of the language within them. The technology can
then accurately extract information and insights contained in the documents as well as categorize and organize
the documents themselves.
"""

tokenized_text = tokenize(text)
print("Первые 5 токенов:", tokenized_text[:5])

Первые 5 токенов: ['Natural', 'language', 'processing', '(NLP)', 'is']


In [None]:
def vectorize(tokens: list[str]) -> list[int]:
    return [sum(ord(char) for char in token) for token in tokens]
vectorized_text = vectorize(tokenized_text)
print("Первые 5 векторов:", vectorized_text[:5])

Первые 5 векторов: [727, 836, 1085, 315, 220]
