In [23]:
import nltk
from nltk.corpus import stopwords
from pymorphy3 import MorphAnalyzer
from nltk.stem import SnowballStemmer
from googletrans import Translator
from sklearn.feature_extraction.text import CountVectorizer

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mg821\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
stop_words = set(stopwords.words('russian'))

# Инициализация морфологического анализатора и стеммера
morph = MorphAnalyzer()
stemmer = SnowballStemmer("russian")

# Инициализация переводчика
translator = Translator()

def lemmatize_word(word):
    """Возвращает лемматизированную форму слова."""
    return morph.parse(word)[0].normal_form

def stem_word(word):
    """Возвращает стеммированную форму слова."""
    return stemmer.stem(word)

def process_text(text):
    """Обрабатывает текст: лемматизация, стемминг и удаление стоп-слов."""
    
    words = text.split()
    
    # Убираем стоп-слова
    filtered_words = [word for word in words if word not in stop_words]
    
    lemmatized_words = [lemmatize_word(word) for word in filtered_words]
    stemmed_words = [stem_word(word) for word in filtered_words]
    
    return lemmatized_words, stemmed_words


In [25]:
def translate_to_english(text):
    """Переводит текст с русского на английский."""
    translation = translator.translate(text, src='ru', dest='en')
    return translation.text

def tokenize_text(text):
    """Токенизирует текст на основе символов ASCII."""
    return list(text)

def vectorize_text(text):
    """Векторизует текст в ASCII коды символов"""
 
# Приводим текст к ASCII (оставляем только символы с кодами < 128)
    ascii_text = ''.join([char if ord(char) < 128 else ' ' for char in text])
    
    # Преобразуем каждый символ в его ASCII код
    ascii_codes = [ord(char) for char in ascii_text]
    
    return ascii_codes

In [None]:
# Исходный текст
text = "Мальчики играли в футбол на детской площадке"

# Лемматизация и стемминг
lemmatized_text, stemmed_text = process_text(text)

# Перевод на английский
translated_lemmatized_text = translate_to_english(' '.join(lemmatized_text))
translated_stemmed_text = translate_to_english(' '.join(stemmed_text))

# Токенизация и векторизация русская
ru_tokenized_lemmatized_text = tokenize_text(' '.join(lemmatized_text))
ru_tokenized_stemmed_text = tokenize_text(' '.join(stemmed_text))

ru_vectorized_lemmatized_text = vectorize_text(' '.join(lemmatized_text))
ru_vectorized_stemmed_text = vectorize_text(' '.join(stemmed_text))

# Токенизация и векторизация английская
tokenized_lemmatized_text = tokenize_text(translated_lemmatized_text)
tokenized_stemmed_text = tokenize_text(translated_stemmed_text)

vectorized_lemmatized_text = vectorize_text(translated_lemmatized_text)
vectorized_stemmed_text = vectorize_text(translated_stemmed_text)

lemmatized, stemmed = process_text(text)
print("Лемматизированный текст:", " ".join(lemmatized))
print("Стеммированный текст:", " ".join(stemmed))

# Вывод результатов
print("Русская:")
print("Токенизация лемматизированного текста:", ru_tokenized_lemmatized_text)
print("Токенизация стеммированного текста:", ru_tokenized_stemmed_text)

print("Векторизация лемматизированного текста:", ru_vectorized_lemmatized_text)
print("Векторизация стеммированного текста:", ru_vectorized_stemmed_text)

print("Английская:")
print("Токенизация лемматизированного текста:", tokenized_lemmatized_text)
print("Токенизация стеммированного текста:", tokenized_stemmed_text)

print("Векторизация лемматизированного текста:", vectorized_lemmatized_text)
print("Векторизация стеммированного текста:", vectorized_stemmed_text)