In [26]:
import natasha
from natasha import Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger, Doc
import string
import numpy as np
from nltk.stem import PorterStemmer

In [27]:
# Запускаю Наташу
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

In [28]:
# Инициализация стеммера
stemmer = PorterStemmer()

In [29]:
# Функция для токенизации ASCII-символов
def tokenize_ascii(text):
    return [char for char in text if ord(char) < 128]

In [30]:
# Функция для векторизации ASCII-символов
def vectorize_ascii(tokens):
    return np.array([ord(char) for char in tokens])

In [31]:
# Исходный текст
text = '''Старший аналитик Альфа-банка Никита Блохин отметил ТАСС, что в банке считают решение кабмина своевременным и закономерным. По его мнению, рынок моторного топлива в России сейчас сбалансирован.

"Конечно, в низкий сезон, когда спрос на автомоторное топливо существенно ниже, чем в летний период, преждевременно говорить о каких-то возможных пертурбациях. По нашим оценкам, текущих объемов производства и накопленных запасов нефтепродуктов хватит, чтобы полностью обеспечить спрос в начале весенней посевной кампании", - сказал он.

Главный редактор "ИнфоТЭК" Александр Фролов отметил, что запрет на вывоз для непроизводителей исключает "серый" экспорт, то есть переток топлива с внутреннего рынка, если по каким-то причинам оптовые цены опять окажутся близки или ниже розничных.

"Это особенно важно в период отпусков, на который приходится сезон высокого спроса на моторное топливо. Частичный характер запрета - хороший знак, так как свидетельствует о сохраняющемся профиците производства. Несмотря на "внеплановые ремонты" некоторых мощностей", - сказал он.

Своевременным решение назвал и заместитель председателя наблюдательного совета ассоциации "Надежный партнер" Дмитрий Гусев. Он отметил, что если возникнут риски для внутреннего рынка, то запрет могут ужесточить и распространить в том числе на производителей топлива.'''


In [32]:
# Обработка текста
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)

In [33]:
# Удаляю знаки пунктуации
words = [token.text for token in doc.tokens if token.text not in string.punctuation]

In [34]:
# Лемматизация
for token in doc.tokens:
    token.lemmatize(morph_vocab)
lemmatized_words = [token.lemma for token in doc.tokens]

In [35]:
# Применение стемминга
stemmed_words = [stemmer.stem(word) for word in lemmatized_words]

In [36]:
# Вывод результатов
print("Лемматизация:", " ".join(lemmatized_words))
print("Стемминг:", " ".join(stemmed_words))

Лемматизация: старший аналитик альфа-банк никита блохин отметить тасс , что в банк считать решение кабмин своевременный и закономерный . по его мнение , рынок моторный топливо в россия сейчас сбалансировать . " конечно , в низкий сезон , когда спрос на автомоторный топливо существенно ниже , чем в летний период , преждевременный говорить о какой-то возможный пертурбация . по наш оценка , текущий объем производство и накопить запас нефтепродукт хватить , чтобы полностью обеспечить спрос в начало весенний посевной кампания " , - сказать он . главный редактор " инфотэк " александр фролов отметить , что запрет на вывоз для непроизводитель исключать " серый " экспорт , тот быть переток топливо с внутренний рынок , если по какой-то причина оптовый цена опять оказаться близкий или низкий розничный . " это особенно важный в период отпуск , на который приходиться сезон высокий спрос на моторный топливо . частичный характер запрет - хороший знак , так как свидетельствовать о сохраняться профицит

In [37]:
ascii_tokens = tokenize_ascii(text)
print("ASCII токены:", " ".join(ascii_tokens))

ASCII токены:     -         ,                   .       ,               . 
 
 " ,       ,               ,         ,         -     .       ,                 ,                   " ,   -     . 
 
     " "       ,                 " "   ,               ,       -                   . 
 
 "           ,                   .         -     ,               .       "   "     " ,   -     . 
 
                   "   "     .     ,               ,                         .


In [38]:
ascii_vectors = vectorize_ascii(ascii_tokens)
print("Векторизированные ASCII:", ascii_vectors)

Векторизированные ASCII: [32 32 45 32 32 32 32 44 32 32 32 32 32 32 32 32 32 46 32 32 32 44 32 32
 32 32 32 32 32 46 10 10 34 44 32 32 32 44 32 32 32 32 32 32 32 44 32 32
 32 32 44 32 32 32 32 45 32 32 46 32 32 32 44 32 32 32 32 32 32 32 32 44
 32 32 32 32 32 32 32 32 32 34 44 32 45 32 32 46 10 10 32 32 34 34 32 32
 32 44 32 32 32 32 32 32 32 32 34 34 32 44 32 32 32 32 32 32 32 44 32 32
 32 45 32 32 32 32 32 32 32 32 32 46 10 10 34 32 32 32 32 32 44 32 32 32
 32 32 32 32 32 32 46 32 32 32 32 45 32 32 44 32 32 32 32 32 32 32 46 32
 32 32 34 32 34 32 32 34 44 32 45 32 32 46 10 10 32 32 32 32 32 32 32 32
 32 34 32 34 32 32 46 32 32 44 32 32 32 32 32 32 32 44 32 32 32 32 32 32
 32 32 32 32 32 32 46]
