In [18]:

import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.tokenize import word_tokenize

document = """Сегодня утром в Москве прошла пресс-конференция Министерства энергетики, на которой обсудили перспективы развития возобновляемых источников энергии в России. По словам представителей ведомства, в ближайшие пять лет планируется увеличение доли солнечных и ветровых станций в общей структуре энергогенерации страны. Особое внимание уделяется регионам с высоким потенциалом инсоляции — Калмыкии, Астраханской и Волгоградской областям. Также отмечалось, что инвесторы проявляют растущий интерес к проектам по производству и хранению водорода. Правительство готовит пакет налоговых льгот и субсидий, чтобы стимулировать компании к внедрению экологичных технологий. По оценкам экспертов, реализация программы позволит сократить выбросы углекислого газа на 12 % уже к 2030 году и создаст более десяти тысяч новых рабочих мест в энергетическом секторе.
Кроме того, на конференции были представлены новые разработки в области энергоэффективности и цифровизации энергетической инфраструктуры. В частности, обсуждались возможности использования искусственного интеллекта для оптимизации распределения электроэнергии и повышения надежности сетей. Участники мероприятия подчеркнули важность международного сотрудничества в сфере устойчивого развития энергетики и обмена передовыми технологиями. В завершение пресс-конференции министр энергетики отметил, что переход к зеленой энергетике является приоритетом государственной политики и ключевым фактором обеспечения энергетической безопасности страны в долгосрочной перспективе."""

docs = [document]
from typing import List

def my_preprocess(text: str, remove_stop: bool = True, lemmatize: bool = True) -> str:
    tokens = word_tokenize(text)
    tokens = [t.lower() for t in tokens if t.isalpha()]
    if remove_stop:
        stop_words = set(stopwords.words("russian"))
        tokens = [t for t in tokens if t not in stop_words]
    if lemmatize:
         lemmatizer = WordNetLemmatizer()
         tokens = [lemmatizer.lemmatize(t) for t in tokens]
    else:
         stemmer = PorterStemmer()
         tokens = [stemmer.stem(t) for t in tokens]
    return " ".join(tokens)

docs_clean = [my_preprocess(d) for d in docs]
docs_clean

['сегодня утром москве прошла министерства энергетики которой обсудили перспективы развития возобновляемых источников энергии россии словам представителей ведомства ближайшие пять лет планируется увеличение доли солнечных ветровых станций общей структуре энергогенерации страны особое внимание уделяется регионам высоким потенциалом инсоляции калмыкии астраханской волгоградской областям также отмечалось инвесторы проявляют растущий интерес проектам производству хранению водорода правительство готовит пакет налоговых льгот субсидий стимулировать компании внедрению экологичных технологий оценкам экспертов реализация программы позволит сократить выбросы углекислого газа году создаст десяти тысяч новых рабочих мест энергетическом секторе кроме конференции представлены новые разработки области энергоэффективности цифровизации энергетической инфраструктуры частности обсуждались возможности использования искусственного интеллекта оптимизации распределения электроэнергии повышения надежности сет