Установка и импорт необходимых библиотек

In [1]:
import nltk
from nltk.corpus import stopwords
from pymorphy3 import MorphAnalyzer
from nltk.stem import SnowballStemmer
from googletrans import Translator
from sklearn.feature_extraction.text import CountVectorizer

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mg821\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Загрузка стоп-слов и инициализация инструментов

In [2]:
stop_words = set(stopwords.words('russian'))

# Инициализация морфологического анализатора и стеммера
morph = MorphAnalyzer()
stemmer = SnowballStemmer("russian")

# Инициализация переводчика
translator = Translator()


функции для обработки текста

In [None]:

def lemmatize_word(word):
    """Возвращает лемматизированную форму слова."""
    return morph.parse(word)[0].normal_form

def stem_word(word):
    """Возвращает стеммированную форму слова."""
    return stemmer.stem(word)

def process_text(text):
    """Обрабатывает текст: лемматизация, стемминг и удаление стоп-слов."""
    
    words = text.split()
    # Убираем стоп-слова
    filtered_words = [word for word in words if word not in stop_words]
    
    lemmatized_words = [lemmatize_word(word) for word in filtered_words]
    stemmed_words = [stem_word(word) for word in filtered_words]
    
    return lemmatized_words, stemmed_words


 Функция перевода текста с русского на английский, Токенизация и Векторизация текста

In [4]:
def translate_to_english(text):
    """Переводит текст с русского на английский."""
    translation = translator.translate(text, src='ru', dest='en')
    return translation.text

def tokenize_text(text):
    """Токенизирует текст на уровне отдельных символов."""
    return list(text)

def vectorize_text(text):
    """Векторизует текст, представляя каждый символ в виде его ASCII-кода."""
 
    # Приводим текст к ASCII (оставляем только символы с кодами < 128)
    ascii_text = ''.join([char if ord(char) < 128 else ' ' for char in text])
    
    # Преобразуем каждый символ в его ASCII код
    ascii_codes = [ord(char) for char in ascii_text]
    
    return ascii_codes

Исходные данные и обработка текста

In [5]:
# Исходный текст
text = "саша шла по шоссе и сосала сушку"

# Лемматизация и стемминг
lemmatized_text, stemmed_text = process_text(text)

# Перевод на английский
translated_lemmatized_text = translate_to_english(' '.join(lemmatized_text))
translated_stemmed_text = translate_to_english(' '.join(stemmed_text))


Токенизация и векторизация текста

In [None]:
# Токенизация русская
ru_tokenized_lemmatized_text = tokenize_text(' '.join(lemmatized_text))
ru_tokenized_stemmed_text = tokenize_text(' '.join(stemmed_text))

# Токенизация и векторизация английская
tokenized_lemmatized_text = tokenize_text(translated_lemmatized_text)
tokenized_stemmed_text = tokenize_text(translated_stemmed_text)

vectorized_lemmatized_text = vectorize_text(translated_lemmatized_text)
vectorized_stemmed_text = vectorize_text(translated_stemmed_text)

Вывод результатов

In [15]:
print("-" * 40)
print(f"Лемматизация: {lemmatized_text}")
print(f"Стемминг: {stemmed_text}")
print("-" * 40)

print("\n🔹 Русская токенизация:")
print("Лемматизация:", ru_tokenized_lemmatized_text)
print("Стемминг:", ru_tokenized_stemmed_text)

print("\n🔹 Английская токенизация:")
print("Лемматизация:", tokenized_lemmatized_text)
print("Стемминг:", tokenized_stemmed_text)

print("\n🔹 Векторизация:")
print("Лемматизация:", vectorized_lemmatized_text, "...", f"(всего {len(vectorized_lemmatized_text)} элементов)")
print("Стемминг:", vectorized_stemmed_text, "...", f"(всего {len(vectorized_stemmed_text)} элементов)")
print("-" * 40)


----------------------------------------
Лемматизация: ['саша', 'идти', 'шоссе', 'сосать', 'сушка']
Стемминг: ['саш', 'шла', 'шосс', 'соса', 'сушк']
----------------------------------------

🔹 Русская токенизация:
Лемматизация: ['с', 'а', 'ш', 'а', ' ', 'и', 'д', 'т', 'и', ' ', 'ш', 'о', 'с', 'с', 'е', ' ', 'с', 'о', 'с', 'а', 'т', 'ь', ' ', 'с', 'у', 'ш', 'к', 'а']
Стемминг: ['с', 'а', 'ш', ' ', 'ш', 'л', 'а', ' ', 'ш', 'о', 'с', 'с', ' ', 'с', 'о', 'с', 'а', ' ', 'с', 'у', 'ш', 'к']

🔹 Английская токенизация:
Лемматизация: ['S', 'a', 's', 'h', 'a', ' ', 'g', 'o', ' ', 'h', 'i', 'g', 'h', 'w', 'a', 'y', ' ', 't', 'o', ' ', 's', 'u', 'c', 'k', ' ', 'd', 'r', 'y', 'i', 'n', 'g']
Стемминг: ['S', 'a', 's', 'h', ' ', 'w', 'a', 'l', 'k', 'e', 'd', ' ', 'h', 'i', 'g', 'h', 'w', 'a', 'y', ' ', 's', 'u', 'z', 'a', ' ', 's', 'u', 's', 'h', 'k']

🔹 Векторизация:
Лемматизация: [83, 97, 115, 104, 97, 32, 103, 111, 32, 104, 105, 103, 104, 119, 97, 121, 32, 116, 111, 32, 115, 117, 99, 107, 32, 100, 