In [13]:
import requests
from razdel import tokenize
from pymorphy3 import MorphAnalyzer
from nltk.corpus import stopwords
from collections import Counter
import nltk

# Загрузка необходимых данных
nltk.download("stopwords")
stop_words = set(stopwords.words("russian"))
morph = MorphAnalyzer()

# 1. Парсинг текста новости
def fetch_news_text(url):
    """
    Получает текст новости с указанного URL.
    """
    from bs4 import BeautifulSoup
    
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, "html.parser")
        # Предполагаем, что текст новости в теге <p>. Нужно уточнять для каждого сайта.
        paragraphs = soup.find_all("p")
        return " ".join(p.get_text() for p in paragraphs)
    else:
        raise Exception(f"Ошибка при получении новости: {response.status_code}")

# 2. Очистка текста от стоп-слов и лемматизация
def preprocess_text_with_razdel(text):
    """
    Токенизация текста, удаление стоп-слов и лемматизация.
    """
    tokens = [token.text for token in tokenize(text.lower())]
    filtered_tokens = [
        morph.normal_forms(token)[0]
        for token in tokens
        if token.isalpha() and token not in stop_words
    ]
    return filtered_tokens

# 3. Анализ тональности
def analyze_sentiment(tokens):
    """
    Пытается провести анализ тональности текста с помощью библиотеки `dostoevsky`.
    Если библиотека недоступна, возвращает наиболее частые слова.
    """
    try:
        # pip install dostoevsky --no-deps (сработало на 3 устройствах)
        from dostoevsky.tokenization import RegexTokenizer
        from dostoevsky.models import SentimentModel
        
        tokenizer = RegexTokenizer()
        model = SentimentModel.load()
        
        text = " ".join(tokens)
        results = model.predict([text], k=1)
        return results[0]
    except ImportError:
        # Если `dostoevsky` не установлен, возвращаем 5 самых частых слов.
        word_counts = Counter(tokens)
        return word_counts.most_common(5)

# 4. Выполнение задания
def main():
    # Укажите URL новости
    news_url = "https://www.rbc.ru/quote/news/article/6746af079a79478e4a3fdd5d?from=from_main_2"  # Можно что угодно вставить
    news_text = fetch_news_text(news_url)
    
    # Очистка текста
    tokens = preprocess_text_with_razdel(news_text)
    
    # Анализ тональности или частотный анализ
    sentiment_or_frequent_words = analyze_sentiment(tokens)
    
    # Вывод результатов
    print("Лемматизированные токены:", tokens)
    print("Анализ тональности или частотные слова:", sentiment_or_frequent_words)

if __name__ == "__main__":
    main()


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\SWS-M\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Лемматизированные токены: ['центральный', 'банк', 'россия', 'установить', 'официальный', 'курс', 'доллар', 'сша', 'четверг', 'ноябрь', 'уровень', 'евро', 'юань', 'сообщаться', 'сайт', 'регулятор', 'последний', 'доллар', 'цб', 'превышать', 'отметка', 'два', 'год', 'назад', 'март', 'год', 'установить', 'уровень', 'среда', 'ноябрь', 'центробанк', 'установить', 'следующий', 'курс', 'валюта', 'официальный', 'курс', 'доллар', 'сша', 'евро', 'юань', 'такой', 'образ', 'юань', 'подорожать', 'копейка', 'евро', 'доллар', 'середина', 'июнь', 'год', 'расчёт', 'официальный', 'курс', 'доллар', 'евро', 'цб', 'использовать', 'дать', 'банковский', 'отчётность', 'сделка', 'внебиржевой', 'валютный', 'рынок', 'состояние', 'мск', 'текущий', 'рабочий', 'день', 'ранее', 'банк', 'россия', 'устанавливать', 'официальный', 'курс', 'доллар', 'сша', 'евро', 'юань', 'отношение', 'рубль', 'основа', 'данные', 'мосбиржа', 'средневзвешенный', 'курс', 'этот', 'валюта', 'рубль', 'сделка', 'заключить', 'мск', 'официальный'