In [2]:
import natasha
from natasha import Segmenter, MorphVocab, NewsEmbedding, NewsMorphTagger, Doc
import string
import numpy as np
from nltk.stem.snowball import SnowballStemmer

In [3]:
# Запускаю Наташу
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)

In [4]:
# Инициализация стеммера
stemmer = SnowballStemmer("russian")

In [5]:
# Функция для токенизации ASCII-символов
def tokenize_ascii(text):
    return [char for char in text]

In [6]:
# Функция для векторизации ASCII-символов
def vectorize_ascii(tokens):
    return np.array([ord(char) for char in tokens])

In [7]:
# Исходный текст
text = '''Старший аналитик Альфа-банка Никита Блохин отметил ТАСС, что в банке считают решение кабмина своевременным и закономерным. По его мнению, рынок моторного топлива в России сейчас сбалансирован.

"Конечно, в низкий сезон, когда спрос на автомоторное топливо существенно ниже, чем в летний период, преждевременно говорить о каких-то возможных пертурбациях. По нашим оценкам, текущих объемов производства и накопленных запасов нефтепродуктов хватит, чтобы полностью обеспечить спрос в начале весенней посевной кампании", - сказал он.

Главный редактор "ИнфоТЭК" Александр Фролов отметил, что запрет на вывоз для непроизводителей исключает "серый" экспорт, то есть переток топлива с внутреннего рынка, если по каким-то причинам оптовые цены опять окажутся близки или ниже розничных.

"Это особенно важно в период отпусков, на который приходится сезон высокого спроса на моторное топливо. Частичный характер запрета - хороший знак, так как свидетельствует о сохраняющемся профиците производства. Несмотря на "внеплановые ремонты" некоторых мощностей", - сказал он.

Своевременным решение назвал и заместитель председателя наблюдательного совета ассоциации "Надежный партнер" Дмитрий Гусев. Он отметил, что если возникнут риски для внутреннего рынка, то запрет могут ужесточить и распространить в том числе на производителей топлива.'''


In [8]:
# Обработка текста
doc = Doc(text)
doc.segment(segmenter)
doc.tag_morph(morph_tagger)

In [9]:
# Удаляю знаки пунктуации
words = [token.text for token in doc.tokens if token.text not in string.punctuation]

In [10]:
# Лемматизация
for token in doc.tokens:
    token.lemmatize(morph_vocab)
lemmatized_words = [token.lemma for token in doc.tokens]

In [11]:
# Применение стемминга
stemmed_words = [stemmer.stem(word) for word in lemmatized_words]

In [12]:
# Вывод результатов
print("Лемматизация:", " ".join(lemmatized_words))
print("Стемминг:", " ".join(stemmed_words))

Лемматизация: старший аналитик альфа-банк никита блохин отметить тасс , что в банк считать решение кабмин своевременный и закономерный . по его мнение , рынок моторный топливо в россия сейчас сбалансировать . " конечно , в низкий сезон , когда спрос на автомоторный топливо существенно ниже , чем в летний период , преждевременный говорить о какой-то возможный пертурбация . по наш оценка , текущий объем производство и накопить запас нефтепродукт хватить , чтобы полностью обеспечить спрос в начало весенний посевной кампания " , - сказать он . главный редактор " инфотэк " александр фролов отметить , что запрет на вывоз для непроизводитель исключать " серый " экспорт , тот быть переток топливо с внутренний рынок , если по какой-то причина оптовый цена опять оказаться близкий или низкий розничный . " это особенно важный в период отпуск , на который приходиться сезон высокий спрос на моторный топливо . частичный характер запрет - хороший знак , так как свидетельствовать о сохраняться профицит

In [13]:
ascii_tokens = tokenize_ascii(text)
print("ASCII токены:", " ".join(ascii_tokens))

ASCII токены: С т а р ш и й   а н а л и т и к   А л ь ф а - б а н к а   Н и к и т а   Б л о х и н   о т м е т и л   Т А С С ,   ч т о   в   б а н к е   с ч и т а ю т   р е ш е н и е   к а б м и н а   с в о е в р е м е н н ы м   и   з а к о н о м е р н ы м .   П о   е г о   м н е н и ю ,   р ы н о к   м о т о р н о г о   т о п л и в а   в   Р о с с и и   с е й ч а с   с б а л а н с и р о в а н . 
 
 " К о н е ч н о ,   в   н и з к и й   с е з о н ,   к о г д а   с п р о с   н а   а в т о м о т о р н о е   т о п л и в о   с у щ е с т в е н н о   н и ж е ,   ч е м   в   л е т н и й   п е р и о д ,   п р е ж д е в р е м е н н о   г о в о р и т ь   о   к а к и х - т о   в о з м о ж н ы х   п е р т у р б а ц и я х .   П о   н а ш и м   о ц е н к а м ,   т е к у щ и х   о б ъ е м о в   п р о и з в о д с т в а   и   н а к о п л е н н ы х   з а п а с о в   н е ф т е п р о д у к т о в   х в а т и т ,   ч т о б ы   п о л н о с т ь ю   о б е с п е ч и т ь   с п р о с   в   н а ч а л е   в е с е н 

In [14]:
ascii_vectors = vectorize_ascii(ascii_tokens)
print("Векторизированные ASCII:", ascii_vectors)

Векторизированные ASCII: [1057 1090 1072 ... 1074 1072   46]
