# Парсинг новостных статей

In [None]:
!pip install requests beautifulsoup4 selenium webdriver-manager google_colab_selenium


Collecting google_colab_selenium
  Downloading google_colab_selenium-1.0.15-py3-none-any.whl.metadata (2.8 kB)
Collecting jedi>=0.16 (from ipython>=7.23.1->ipykernel->notebook>=6.5.7->google_colab_selenium)
  Downloading jedi-0.19.2-py2.py3-none-any.whl.metadata (22 kB)
Downloading google_colab_selenium-1.0.15-py3-none-any.whl (8.3 kB)
Downloading jedi-0.19.2-py2.py3-none-any.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m23.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: jedi, google_colab_selenium
Successfully installed google_colab_selenium-1.0.15 jedi-0.19.2


In [None]:
import requests
from bs4 import BeautifulSoup
import json
import time
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException
import google_colab_selenium as gs
from concurrent.futures import ThreadPoolExecutor, as_completed

# Конфигурация источников
sources = [
    {
        'name': 'ria.ru',
        'news_url': 'https://ria.ru/lenta/',
        'article_selector': 'a.list-item__title, a[href*="/2025"]',
        'title_selectors': ['h1.article__second-title', 'div.article__title', 'h1', '[itemprop="headline"]'],
        'text_selectors': ['.article__text', '.article__block[data-type="text"] .article__text', 'div.article__body p', 'article p', 'div.article__body div', '.article__content p', '.article__content div'],
        'date_selectors': ['.article__info-date a', 'time', '[itemprop="datePublished"]', '[property="article:published_time"]'],
        'category_selectors': ['.article__tags-item', '[data-analytics-rubric]', 'a[href*="/world/"], a[href*="/politics/"]'],
        'dynamic': True
    },
    {
        'name': 'lenta.ru',
        'news_url': 'https://lenta.ru/',
        'article_selector': 'a[href*="/news/"]',
        'title_selectors': ['h1', '.topic-header__title', '.article__title'],
        'text_selectors': ['.topic-body__content p', '.article__body p', '.topic-body__text', '.article__text'],
        'date_selectors': ['time', '.publish-date', '[itemprop="datePublished"]', 'meta[property="article:published_time"]'],
        'category_selectors': ['.rubric', '.category', '[data-rubric]', '.topic-header__rubric'],
        'dynamic': True
    },
    {
        'name': 'tass.ru',
        'news_url': 'https://tass.ru/ekonomika',
        'article_selector': 'a.NewsCard_link__[data-testid], a.news-preview__link, a.card__link, a[href*="/ekonomika/"]',
        'title_selectors': ['h1.NewsCard_title__[data-testid]', 'h1.article__title', 'h1', '[itemprop="headline"]'],
        'text_selectors': ['div.TextBlock_wrapper__[data-testid] p', 'div.text-block p', 'article p', '.ArticleBody_wrapper__[data-testid] p', '.article__text p', '.news-text p', '.NewsCard_text__[data-testid]', '.article-content p'],
        'date_selectors': ['time.NewsCard_date__[data-testid]', 'span.datetime__[data-testid]', 'time', '[itemprop="datePublished"]'],
        'category_selectors': ['a.Tag_wrapper__[data-testid]', 'div.category a', '[data-category]', 'meta[name="category"]'],
        'dynamic': True
    },
    {
        'name': 'kommersant.ru',
        'news_url': 'https://www.kommersant.ru/lenta',
        'article_selector': 'a.uho__link, a.article-link, a[href*="/doc/"]',
        'title_selectors': ['h1.doc_header__name', 'h1.article__title', '[itemprop="headline"]'],
        'text_selectors': ['div.doc__text p', '.article__body p', 'article p', '.doc__text div'],
        'date_selectors': ['time.doc_header__publish_time', 'time', '[itemprop="datePublished"]'],
        'category_selectors': ['div.doc_header__rubric', 'a.category', '[data-rubric]'],
        'dynamic': True
    },
]

def setup_driver():
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36')
    options.add_argument('--disable-blink-features=AutomationControlled')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    return gs.Chrome(options=options)

def extract_from_meta(soup, url):
    """Извлечение данных из мета-тегов и общих блоков"""
    data = {}
    data['title'] = (soup.find('title').text.strip() if soup.find('title') else
                     soup.find('meta', property='og:title')['content'] if soup.find('meta', property='og:title') else
                     'N/A')

    date_match = re.search(r'/(\d{4})(\d{2})(\d{2})/', url)
    if date_match:
        data['date'] = f"{date_match.group(1)}-{date_match.group(2)}-{date_match.group(3)}"
    else:
        date_meta = soup.find('meta', property='article:published_time')
        data['date'] = date_meta['content'] if date_meta else 'N/A'

    rubric_meta = soup.find('meta', attrs={'name': re.compile('analytics:rubric|category', re.I)})
    data['category'] = rubric_meta['content'] if rubric_meta else 'N/A'

    text_parts = []
    for block in soup.find_all(['div', 'article'], class_=['TextBlock_wrapper__[data-testid]', 'text-block', 'ArticleBody_wrapper__[data-testid]',
                                                          'article__block', 'news-full__text', 'topic-body__content', 'doc__text', 'general-material__body']):
        text_elem = block.find_all(['p', 'div'], class_=['article__text', 'news-full__content', 'topic-body__text', 'text-block', 'doc__text',
                                                        'TextBlock_wrapper__[data-testid]', 'general-material__text', 'NewsCard_text__[data-testid]', 'article-content'])
        for elem in text_elem:
            if elem.text.strip():
                text_parts.append(elem.text.strip())

    if not text_parts:
        desc_meta = soup.find('meta', property='og:description')
        text_parts = [desc_meta['content']] if desc_meta else []

    data['text'] = ' '.join(text_parts)
    data['url'] = url
    return data

def get_article_links(source, limit=50):
    """Получение ссылок на статьи с главной страницы"""
    links = []
    driver = setup_driver()
    wait = WebDriverWait(driver, 10)

    try:
        print(f"[{source['name']}] Загружаем главную страницу: {source['news_url']}")
        driver.get(source['news_url'])
        wait.until(EC.any_of(
            EC.presence_of_element_located((By.CSS_SELECTOR, source['article_selector'])),
            EC.presence_of_element_located((By.TAG_NAME, "article"))
        ))

        soup = BeautifulSoup(driver.page_source, 'html.parser')
        articles = soup.select(source['article_selector'])[:limit]
        print(f"[{source['name']}] Найдено {len(articles)} элементов статей")

        base_url = source['news_url'].split('/')[0] + '//' + source['news_url'].split('/')[2]
        raw_links = [a.get('href', '') for a in articles]
        print(f"[{source['name']}] Сырые ссылки: {raw_links[:3]}...")

        for link in raw_links:
            if not link:
                continue
            if not link.startswith('http'):
                if not link.startswith('/'):
                    link = '/' + link
                link = base_url + link
            if source['name'] in link and 'http' in link:
                links.append(link)
        print(f"[{source['name']}] Отфильтровано {len(links)} валидных ссылок: {links[:3]}...")
    except Exception as e:
        print(f"[{source['name']}] Ошибка ссылок: {e}")
        with open(f"{source['name']}_debug.html", 'w', encoding='utf-8') as f:
            f.write(driver.page_source)
    finally:
        driver.quit()
    return links

def parse_article(url, source):
    """Парсинг отдельной статьи"""
    driver = setup_driver()
    wait = WebDriverWait(driver, 15)

    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36',
            'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
            'Accept-Language': 'en-US,en;q=0.5',
            'Referer': source['news_url']
        }
        response = requests.head(url, headers=headers, timeout=5, allow_redirects=True)
        if response.status_code != 200:
            print(f"[{source['name']}] Страница недоступна: {url} (статус {response.status_code})")
            return None

        print(f"[{source['name']}] Загружаем {url}")
        driver.get(url)
        wait.until(EC.any_of(
            EC.presence_of_element_located((By.CSS_SELECTOR, ",".join(source['text_selectors']))),
            EC.presence_of_element_located((By.TAG_NAME, "article"))
        ))

        soup = BeautifulSoup(driver.page_source, 'html.parser')
        article = extract_from_meta(soup, url)

        if len(article['text'].split()) < 30:
            print(f"[{source['name']}] Мало текста из мета ({len(article['text'].split())} слов), ищем в DOM...")
            text_elements = soup.select(','.join(source['text_selectors']))
            text_parts = [el.get_text(strip=True) for el in text_elements if el.get_text(strip=True)]

            if text_parts:
                article['text'] = ' '.join(text_parts)
                print(f"[{source['name']}] Найдено {len(text_parts)} блоков текста")
            else:
                fallback_elements = soup.select('article p, main p, .article p, .news-full p, .topic-body p, .text-block p, .doc__text p, .article-content p')
                text_parts = [p.get_text(strip=True) for p in fallback_elements if p.get_text(strip=True) and len(p.get_text(strip=True)) > 20]
                if text_parts:
                    article['text'] = ' '.join(text_parts)
                    print(f"[{source['name']}] Fallback: найдено {len(text_parts)} параграфов")

        if len(article['title']) < 10:
            for selector in source['title_selectors']:
                title_elem = soup.select_one(selector)
                if title_elem and title_elem.text.strip():
                    article['title'] = title_elem.text.strip()
                    print(f"[{source['name']}] Заголовок найден с селектором: {selector}")
                    break

        words = len(article['text'].split())
        if article['title'] and words > 20:
            print(f"[{source['name']}] Успешно: {words} слов")
            return article
        else:
            print(f"[{source['name']}] Недостаточно контента: title='{article['title'][:50]}...', words={words}")
            return None

    except Exception as e:
        print(f"[{source['name']}] Ошибка парсинга {url}: {str(e)[:100]}")
        with open(f"{source['name']}_article_debug.html", 'w', encoding='utf-8') as f:
            f.write(driver.page_source)
        return None
    finally:
        driver.quit()

def main():
    """Основная функция для сбора статей"""
    corpus_file = 'corpus.jsonl'
    total_words = 0
    min_words = 50000

    with open(corpus_file, 'w', encoding='utf-8') as f:
        f.write('')

    for source in sources:
        print(f"\n=== Сбор с {source['name']} ===")
        links = get_article_links(source, limit=50)  # Ограничение на 50 ссылок на источник

        with ThreadPoolExecutor(max_workers=4) as executor:
            future_to_url = {executor.submit(parse_article, link, source): link for link in links}
            for future in as_completed(future_to_url):
                if total_words >= min_words:
                    break
                url = future_to_url[future]
                try:
                    article = future.result()
                    if article and article['text']:
                        words = len(article['text'].split())
                        if words > 50:
                            with open(corpus_file, 'a', encoding='utf-8') as f:
                                json.dump(article, f, ensure_ascii=False)
                                f.write('\n')
                            total_words += words
                            print(f"[{source['name']}] ✅ Добавлено: {article['title'][:60]}... ({words} слов). Итого: {total_words}")
                        else:
                            print(f"[{source['name']}] ❌ Мало слов: {words}")
                    else:
                        print(f"[{source['name']}] ❌ Не удалось извлечь статью: {url}")
                except Exception as e:
                    print(f"[{source['name']}] Ошибка обработки {url}: {e}")

                if total_words < min_words:
                    time.sleep(1)  # Минимальная задержка для обхода защиты

        if total_words >= min_words:
            break

    with open(corpus_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
    print(f"\n=== ИТОГО ===")
    print(f"Сохранено статей: {len(lines)}")
    print(f"Общее слов: {total_words}")
    if lines:
        print("Пример первой статьи:")
        print(json.loads(lines[0]))

if __name__ == '__main__':
    main()


=== Сбор с ria.ru ===


<IPython.core.display.Javascript object>

[ria.ru] Загружаем главную страницу: https://ria.ru/lenta/
[ria.ru] Найдено 50 элементов статей
[ria.ru] Сырые ссылки: ['https://ria.ru/20251009/tramp-2047396952.html', 'https://ria.ru/20251009/tramp-2047396952.html', 'https://ria.ru/20251009/tramp-2047396952.html']...
[ria.ru] Отфильтровано 50 валидных ссылок: ['https://ria.ru/20251009/tramp-2047396952.html', 'https://ria.ru/20251009/tramp-2047396952.html', 'https://ria.ru/20251009/tramp-2047396952.html']...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396787.html
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396952.html
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396952.html
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396952.html
[ria.ru] Мало текста из мета (12 слов), ищем в DOM...
[ria.ru] Успешно: 46 слов
[ria.ru] Мало текста из мета (12 слов), ищем в DOM...
[ria.ru] Мало текста из мета (12 слов), ищем в DOM...
[ria.ru] ❌ Мало слов: 46


<IPython.core.display.Javascript object>

[ria.ru] Найдено 4 блоков текста
[ria.ru] Успешно: 24 слов
[ria.ru] ❌ Мало слов: 24


[ria.ru] Найдено 4 блоков текста
[ria.ru] Успешно: 24 слов
[ria.ru] Найдено 4 блоков текста
[ria.ru] Успешно: 24 слов
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396787.html


[ria.ru] ❌ Мало слов: 24
[ria.ru] ❌ Мало слов: 24


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396787.html


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/finljandija-2047396621.html
[ria.ru] Загружаем https://ria.ru/20251009/finljandija-2047396621.html
[ria.ru] Успешно: 46 слов
[ria.ru] ❌ Мало слов: 46


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 44 слов
[ria.ru] ❌ Мало слов: 44


[ria.ru] Загружаем https://ria.ru/20251009/finljandija-2047396621.html


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 44 слов


[ria.ru] ❌ Мало слов: 44
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396206.html
[ria.ru] Успешно: 46 слов


[ria.ru] ❌ Мало слов: 46


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396206.html
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047396206.html
[ria.ru] Успешно: 44 слов
[ria.ru] ❌ Мало слов: 44


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 49 слов
[ria.ru] ❌ Мало слов: 49


[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047395864.html


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 49 слов
[ria.ru] ❌ Мало слов: 49


[ria.ru] Успешно: 49 слов


[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047395864.html
[ria.ru] ❌ Мало слов: 49


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047395864.html
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395757.html
[ria.ru] Успешно: 284 слов
[ria.ru] ✅ Добавлено: Россия и Сербия вышли на путь сотрудничества в кино, заявил ... (284 слов). Итого: 284


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 284 слов
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395757.html


[ria.ru] ✅ Добавлено: Россия и Сербия вышли на путь сотрудничества в кино, заявил ... (284 слов). Итого: 568


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395757.html
[ria.ru] Успешно: 284 слов
[ria.ru] ✅ Добавлено: Россия и Сербия вышли на путь сотрудничества в кино, заявил ... (284 слов). Итого: 852


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 77 слов
[ria.ru] ✅ Добавлено: США хотят перенять у Финляндии опыт строительства ледоколов,... (77 слов). Итого: 929
[ria.ru] Загружаем https://ria.ru/20251009/stubb-2047395617.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/stubb-2047395617.html
[ria.ru] Успешно: 77 слов
[ria.ru] ✅ Добавлено: США хотят перенять у Финляндии опыт строительства ледоколов,... (77 слов). Итого: 1006


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/stubb-2047395617.html
[ria.ru] Успешно: 77 слов
[ria.ru] ✅ Добавлено: США хотят перенять у Финляндии опыт строительства ледоколов,... (77 слов). Итого: 1083


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 56 слов


[ria.ru] ✅ Добавлено: Президент Финляндии прибыл в Белый дом на встречу с Трампом ... (56 слов). Итого: 1139
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395511.html


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 56 слов
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395511.html
[ria.ru] ✅ Добавлено: Президент Финляндии прибыл в Белый дом на встречу с Трампом ... (56 слов). Итого: 1195


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047395511.html
[ria.ru] Успешно: 56 слов
[ria.ru] ✅ Добавлено: Президент Финляндии прибыл в Белый дом на встречу с Трампом ... (56 слов). Итого: 1251


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/ssha-2047394772.html
[ria.ru] Успешно: 60 слов
[ria.ru] ✅ Добавлено: Трамп сообщил, что США купят ледоколы у Финляндии - РИА Ново... (60 слов). Итого: 1311


[ria.ru] Успешно: 60 слов
[ria.ru] ✅ Добавлено: Трамп сообщил, что США купят ледоколы у Финляндии - РИА Ново... (60 слов). Итого: 1371


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/ssha-2047394772.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/ssha-2047394772.html
[ria.ru] Успешно: 60 слов
[ria.ru] ✅ Добавлено: Трамп сообщил, что США купят ледоколы у Финляндии - РИА Ново... (60 слов). Итого: 1431


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047394624.html
[ria.ru] Успешно: 195 слов
[ria.ru] ✅ Добавлено: Фидан: США, Турция, Катар и Египет создадут посредническую г... (195 слов). Итого: 1626


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 195 слов
[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047394624.html
[ria.ru] ✅ Добавлено: Фидан: США, Турция, Катар и Египет создадут посредническую г... (195 слов). Итого: 1821


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 195 слов
[ria.ru] ✅ Добавлено: Фидан: США, Турция, Катар и Египет создадут посредническую г... (195 слов). Итого: 2016


[ria.ru] Загружаем https://ria.ru/20251009/rossija-2047394624.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/slutskiy-2047394395.html
[ria.ru] Успешно: 78 слов
[ria.ru] ✅ Добавлено: В России разработали модель мониторинга цен на бензин - РИА ... (78 слов). Итого: 2094


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/slutskiy-2047394395.html
[ria.ru] Успешно: 78 слов
[ria.ru] ✅ Добавлено: В России разработали модель мониторинга цен на бензин - РИА ... (78 слов). Итого: 2172


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 78 слов
[ria.ru] ✅ Добавлено: В России разработали модель мониторинга цен на бензин - РИА ... (78 слов). Итого: 2250


[ria.ru] Загружаем https://ria.ru/20251009/slutskiy-2047394395.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/serbiya-2047394083.html
[ria.ru] Успешно: 242 слов
[ria.ru] ✅ Добавлено: Слуцкий назвал Европарламент соучастником преступлений Зелен... (242 слов). Итого: 2492


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/serbiya-2047394083.html
[ria.ru] Успешно: 242 слов
[ria.ru] ✅ Добавлено: Слуцкий назвал Европарламент соучастником преступлений Зелен... (242 слов). Итого: 2734


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/serbiya-2047394083.html
[ria.ru] Успешно: 576 слов
[ria.ru] ✅ Добавлено: Вучич призвал ООН отреагировать на поставку Турцией дронов К... (576 слов). Итого: 3310


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 242 слов
[ria.ru] ✅ Добавлено: Слуцкий назвал Европарламент соучастником преступлений Зелен... (242 слов). Итого: 3552


[ria.ru] Загружаем https://ria.ru/20251009/neftjaniki-2047393416.html
[ria.ru] Успешно: 576 слов
[ria.ru] ✅ Добавлено: Вучич призвал ООН отреагировать на поставку Турцией дронов К... (576 слов). Итого: 4128


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/neftjaniki-2047393416.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/neftjaniki-2047393416.html
[ria.ru] Успешно: 576 слов


[ria.ru] ✅ Добавлено: Вучич призвал ООН отреагировать на поставку Турцией дронов К... (576 слов). Итого: 4704


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/rossiya-2047392802.html
[ria.ru] Успешно: 70 слов
[ria.ru] ✅ Добавлено: Нефтяники доложили о выполнении рекомендаций по поставкам то... (70 слов). Итого: 4774


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/rossiya-2047392802.html
[ria.ru] Успешно: 70 слов
[ria.ru] ✅ Добавлено: Нефтяники доложили о выполнении рекомендаций по поставкам то... (70 слов). Итого: 4844


[ria.ru] Успешно: 70 слов
[ria.ru] ✅ Добавлено: Нефтяники доложили о выполнении рекомендаций по поставкам то... (70 слов). Итого: 4914


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/rossiya-2047392802.html


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/oon-2047392502.html
[ria.ru] Успешно: 345 слов
[ria.ru] ✅ Добавлено: Платформу по борьбе с кибермошенничеством введут до 1 марта ... (345 слов). Итого: 5259


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/oon-2047392502.html
[ria.ru] Успешно: 345 слов
[ria.ru] ✅ Добавлено: Платформу по борьбе с кибермошенничеством введут до 1 марта ... (345 слов). Итого: 5604


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/oon-2047392502.html
[ria.ru] Успешно: 345 слов
[ria.ru] Успешно: 122 слов
[ria.ru] ✅ Добавлено: Платформу по борьбе с кибермошенничеством введут до 1 марта ... (345 слов). Итого: 5949


[ria.ru] ✅ Добавлено: В ООН призвали не допустить попыток помешать плану Трампа по... (122 слов). Итого: 6071


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/vuchich-2047392012.html
[ria.ru] Загружаем https://ria.ru/20251009/vuchich-2047392012.html
[ria.ru] Успешно: 122 слов
[ria.ru] ✅ Добавлено: В ООН призвали не допустить попыток помешать плану Трампа по... (122 слов). Итого: 6193


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/vuchich-2047392012.html
[ria.ru] Успешно: 122 слов
[ria.ru] ✅ Добавлено: В ООН призвали не допустить попыток помешать плану Трампа по... (122 слов). Итого: 6315


<IPython.core.display.Javascript object>

[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047391813.html
[ria.ru] Успешно: 466 слов


[ria.ru] ✅ Добавлено: Вучич заявил о более 700 нападениях на сербов в Косово и Мет... (466 слов). Итого: 6781


<IPython.core.display.Javascript object>

[ria.ru] Успешно: 466 слов
[ria.ru] Успешно: 466 слов
[ria.ru] ✅ Добавлено: Вучич заявил о более 700 нападениях на сербов в Косово и Мет... (466 слов). Итого: 7247
[ria.ru] Загружаем https://ria.ru/20251009/tramp-2047391813.html
[ria.ru] ✅ Добавлено: Вучич заявил о более 700 нападениях на сербов в Косово и Мет... (466 слов). Итого: 7713
[ria.ru] Успешно: 301 слов
[ria.ru] ✅ Добавлено: Трамп высказался о двугосударственном решении конфликта на Б... (301 слов). Итого: 8014
[ria.ru] Успешно: 301 слов
[ria.ru] ✅ Добавлено: Трамп высказался о двугосударственном решении конфликта на Б... (301 слов). Итого: 8315

=== Сбор с lenta.ru ===


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем главную страницу: https://lenta.ru/
[lenta.ru] Найдено 50 элементов статей
[lenta.ru] Сырые ссылки: ['/news/2025/10/09/chervinskiy/', '/news/2025/10/09/poyavilis-kadry-oblomkov-noveyshey-ukrainskoy-rakety-flamingo/', '/news/2025/10/09/polskie-pogranichniki-zaderzhali-hotevshego-popast-v-es-podrostka/']...
[lenta.ru] Отфильтровано 50 валидных ссылок: ['https://lenta.ru/news/2025/10/09/chervinskiy/', 'https://lenta.ru/news/2025/10/09/poyavilis-kadry-oblomkov-noveyshey-ukrainskoy-rakety-flamingo/', 'https://lenta.ru/news/2025/10/09/polskie-pogranichniki-zaderzhali-hotevshego-popast-v-es-podrostka/']...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/chervinskiy/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/na-ukraine-priznali-prevoshodstvo-rossii-v-proizvodstve-dronov/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/poyavilis-kadry-oblomkov-noveyshey-ukrainskoy-rakety-flamingo/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/polskie-pogranichniki-zaderzhali-hotevshego-popast-v-es-podrostka/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 23 блоков текста
[lenta.ru] Успешно: 704 слов


[lenta.ru] ✅ Добавлено: Координатор подрыва «Северных потоков» раскрыл неизвестные п... (704 слов). Итого: 9019
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 7 блоков текста
[lenta.ru] Успешно: 176 слов


[lenta.ru] ✅ Добавлено: Появились кадры обломков новейшей украинской ракеты «Фламинг... (176 слов). Итого: 9195


<IPython.core.display.Javascript object>

[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 101 слов
[lenta.ru] Найдено 8 блоков текста
[lenta.ru] Успешно: 188 слов


<IPython.core.display.Javascript object>

[lenta.ru] ✅ Добавлено: Польские пограничники задержали хотевшего попасть в ЕС подро... (188 слов). Итого: 9383


[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/aktera-zbrueva-pereveli-v-drugoe-meduchrezhdenie-posle-gospitalizatsii/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/v-belgii-predotvratili-pokushenie-na-politikov-s-pomoschyu-bpla/
[lenta.ru] ✅ Добавлено: На Украине признали превосходство России в производстве дрон... (101 слов). Итого: 9484


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/samaya-seksualnaya-v-mire-sudya-snyalas-v-kozhanom-mikrobikini/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/borba-za-gorod-v-zone-svo-zakonchilas-podnyatiem-rossiyskogo-flaga/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 5 блоков текста
[lenta.ru] Успешно: 111 слов
[lenta.ru] ✅ Добавлено: Актера Збруева перевели в другое медучреждение после госпита... (111 слов). Итого: 9595


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/hamas-podtverdil-zavershenie-voyny-s-izrailem/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 81 слов
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 99 слов
[lenta.ru] ✅ Добавлено: Борьба за город в зоне СВО закончилась поднятием российского... (81 слов). Итого: 9676


[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 3 блоков текста
[lenta.ru] Успешно: 122 слов
[lenta.ru] ✅ Добавлено: В Бельгии предотвратили покушение на политиков с помощью БПЛ... (99 слов). Итого: 9775


[lenta.ru] ✅ Добавлено: «Самая сексуальная в мире судья» снялась в кожаном микробики... (122 слов). Итого: 9897


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/na-zapade-rasskazali-o-podgotovke-armii-ssha/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/tramp-zadumalsya-ob-okazanii-uslugi-kitayu-za-trillion-dollarov/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/tramp-ob-yavil-o-skorom-podpisanii-dogovorennosti-ob-uregulirovanii-v-gaze/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 80 слов
[lenta.ru] ✅ Добавлено: ХАМАС подтвердил завершение войны с Израилем: Политика: Мир:... (80 слов). Итого: 9977


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/voenkor-soobschil-o-planah-kieva-ustroit-blekaut-v-belgorode/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 6 блоков текста
[lenta.ru] Успешно: 135 слов
[lenta.ru] ✅ Добавлено: На Западе рассказали о подготовке армии США к предстоящему к... (135 слов). Итого: 10112


<IPython.core.display.Javascript object>

[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 6 блоков текста
[lenta.ru] Успешно: 183 слов
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/ssha-predrekli-otsutstvie-sredstv-na-pereosnaschenie-yadernogo-arsenala/


[lenta.ru] ✅ Добавлено: Трамп задумался об оказании услуги Китаю за триллион долларо... (183 слов). Итого: 10295
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 67 слов


[lenta.ru] ✅ Добавлено: Трамп объявил о скором подписании договоренности об урегулир... (67 слов). Итого: 10362


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/baronet/
[lenta.ru] Загружаем https://lenta.ru/parts/news/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 116 слов
[lenta.ru] ✅ Добавлено: Военкор сообщил о планах Киева устроить блэкаут в Белгороде:... (116 слов). Итого: 10478


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/byvshiy-ministr-sporta-rossii-otreagiroval-na-slova-osudivshego-uchastie-rossiyan-v-nhl-gasheka/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 100 слов
[lenta.ru] ✅ Добавлено: США предрекли отсутствие средств на переоснащение ядерного а... (100 слов). Итого: 10578


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/samaya-izvestnaya-pevitsa-v-mire-spela-o-penise-zheniha/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 56 блоков текста
[lenta.ru] Успешно: 1945 слов
[lenta.ru] ✅ Добавлено: «Как же меня утомили русские». Как эксцентричный аристократ-... (1945 слов). Итого: 12523




<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/ob-yasnena-polza-koshek-dlya-zdorovya-serdtsa/
[lenta.ru] Ошибка парсинга https://lenta.ru/parts/news/: Message: 

[lenta.ru] ❌ Не удалось извлечь статью: https://lenta.ru/parts/news/


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/izvestnaya-rossiyskaya-televeduschaya-rasskazala-ob-aborte-i-nazvala-ego-muchitelnym-resheniem/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 115 слов
[lenta.ru] ✅ Добавлено: Бывший министр спорта России отреагировал на слова осудившег... (115 слов). Итого: 12638


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/byvshaya-zhena-pashi-tehnika-obratilas-k-reperu-vacio/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 5 блоков текста
[lenta.ru] Успешно: 157 слов
[lenta.ru] ✅ Добавлено: Самая известная певица в мире спела о пенисе жениха: Персоны... (157 слов). Итого: 12795


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/rossiyan-predupredili-ob-obshirnoy-tsiklonicheskoy-depressii/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 106 слов
[lenta.ru] ✅ Добавлено: Объяснена польза кошек для здоровья сердца: Уход за собой: З... (106 слов). Итого: 12901


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/putin-raskryl-alievu-podrobnosti-krusheniya-samoleta-azal-iz-za-chego-proizoshla-aviakatastrofa/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 112 слов
[lenta.ru] ✅ Добавлено: Известная российская телеведущая рассказала об аборте и назв... (112 слов). Итого: 13013


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/progremelo-bolee-20-vzryvov-rossiya-nanesla-moschnyy-udar-geranyami-po-portu-v-odesskoy-oblasti-ataka-popala-na-video/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 90 слов
[lenta.ru] ✅ Добавлено: Бывшая жена Паши Техника обратилась к рэперу Vacio: Музыка: ... (90 слов). Итого: 13103


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/umer-zvezda-shansona-efrem-amiramov-ispolnitelyu-hita-molodaya-bylo-69-let/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 4 блоков текста
[lenta.ru] Успешно: 152 слов
[lenta.ru] ✅ Добавлено: Россиян предупредили об обширной циклонической депрессии: Кл... (152 слов). Итого: 13255


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/v-nato-predlozhili-bolee-agressivnyy-otvet-rossii-chto-zadumal-alyans/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 12 блоков текста
[lenta.ru] Успешно: 305 слов
[lenta.ru] ✅ Добавлено: Заявление Путина о крушении самолета AZAL: переговоры с Алие... (305 слов). Итого: 13560


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/zelenskiy-prigrozil-blekautom-belgorodskoy-i-kurskoy-oblastyam/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 10 блоков текста
[lenta.ru] Успешно: 233 слов
[lenta.ru] ✅ Добавлено: Удары «Геранями» по порту Черноморска 9 октября: сводка Мино... (233 слов). Итого: 13793


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/bumb/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 14 блоков текста
[lenta.ru] Успешно: 326 слов
[lenta.ru] ✅ Добавлено: Умерла звезда шансона Ефрем Амирамов: причины, биография, хи... (326 слов). Итого: 14119


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/velikiy-den-izrail-i-hamas-podpisali-pervuyu-fazu-plana-po-uregulirovaniyu-konflikta/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 11 блоков текста
[lenta.ru] Успешно: 341 слов


[lenta.ru] ✅ Добавлено: Возможное снятие ограничений НАТО на огонь по целям из Росси... (341 слов). Итого: 14460


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/05/stalo-izvestno-imya-novoy-samoy-krasivoy-devushki-strany-kto-ona-i-kakim-dostizheniyami-smogla-pokorit-zhyuri-konkursa-miss-rossiya/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 13 блоков текста
[lenta.ru] Успешно: 207 слов
[lenta.ru] ✅ Добавлено: Угрозы Зеленского: блэкаут, Белгородская и Курская области, ... (207 слов). Итого: 14667


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/29/stepanenko/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 5 блоков текста
[lenta.ru] Успешно: 159 слов
[lenta.ru] ✅ Добавлено: Украина сбросила умные авиабомбы на российские объекты: Обще... (159 слов). Итого: 14826


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/02/ekspress/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 13 блоков текста
[lenta.ru] Успешно: 299 слов
[lenta.ru] ✅ Добавлено: Трамп заявил, что Израиль и ХАМАС подписали первую фазу план... (299 слов). Итого: 15125


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/28/china/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 44 блоков текста
[lenta.ru] Успешно: 1552 слов


[lenta.ru] ✅ Добавлено: Новая волна популярности Елены Степаненко: видео с выступлен... (1552 слов). Итого: 16677
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 26 блоков текста
[lenta.ru] Успешно: 703 слов
[lenta.ru] ✅ Добавлено: Конкурс «Мисс Россия —2025»: кто победил, фото, что известно... (703 слов). Итого: 17380


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/29/five-wells/


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/01/tilli-norvud/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 27 блоков текста
[lenta.ru] Успешно: 1014 слов
[lenta.ru] ✅ Добавлено: Экспресс-газета»: история, заголовки, суды со звездами, крит... (1014 слов). Итого: 18394


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/13/zumery/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 16 блоков текста
[lenta.ru] Успешно: 630 слов
[lenta.ru] ✅ Добавлено: Китайский безвиз: как проехать, сложности на границе, влияют... (630 слов). Итого: 19024


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/18/koleni/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 49 блоков текста
[lenta.ru] Успешно: 1575 слов


[lenta.ru] ✅ Добавлено: Арест сотрудниц британской тюрьмы за роман с заключенными: х... (1575 слов). Итого: 20599
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 22 блоков текста
[lenta.ru] Успешно: 640 слов


[lenta.ru] ✅ Добавлено: Первая ИИ-актриса Тилли Норвуд: что известно, кто создатель,... (640 слов). Итого: 21239


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/09/18/bermuda/


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/baronet/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 28 блоков текста
[lenta.ru] Успешно: 1014 слов


[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] ✅ Добавлено: Танец Олега Газманова под песню «Загулял» завирусился в сети... (1014 слов). Итого: 22253
[lenta.ru] Найдено 37 блоков текста
[lenta.ru] Успешно: 1178 слов


[lenta.ru] ✅ Добавлено: Тайна Бермудского треугольника раскрыта. Почему загадочные и... (1178 слов). Итого: 23431


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/chervinskiy/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/samaya-izvestnaya-pevitsa-v-mire-spela-o-penise-zheniha/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 47 блоков текста
[lenta.ru] Успешно: 1588 слов


[lenta.ru] ✅ Добавлено: Борьба миллениалов и зумеров: причины, юмор, тренды TikTok: ... (1588 слов). Итого: 25019


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/vsu-podorvali-ammiakoprovod-zachem-im-eto-bylo-nuzhno-i-chto-izvestno-o-posledstviyah/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 56 блоков текста
[lenta.ru] Успешно: 1945 слов
[lenta.ru] ✅ Добавлено: «Как же меня утомили русские». Как эксцентричный аристократ-... (1945 слов). Итого: 26964


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/umer-zvezda-shansona-efrem-amiramov-ispolnitelyu-hita-molodaya-bylo-69-let/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 5 блоков текста
[lenta.ru] Успешно: 157 слов
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] ✅ Добавлено: Самая известная певица в мире спела о пенисе жениха: Персоны... (157 слов). Итого: 27121


[lenta.ru] Найдено 23 блоков текста
[lenta.ru] Успешно: 704 слов


[lenta.ru] ✅ Добавлено: Координатор подрыва «Северных потоков» раскрыл неизвестные п... (704 слов). Итого: 27825


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 14 блоков текста
[lenta.ru] Успешно: 441 слов
[lenta.ru] ✅ Добавлено: ВСУ подорвали аммиакопровод Тольятти — Одесса: причины, посл... (441 слов). Итого: 28266


[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/putin-raskryl-alievu-podrobnosti-krusheniya-samoleta-azal-iz-za-chego-proizoshla-aviakatastrofa/[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/progremelo-bolee-20-vzryvov-rossiya-nanesla-moschnyy-udar-geranyami-po-portu-v-odesskoy-oblasti-ataka-popala-na-video/



<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/v-nato-predlozhili-bolee-agressivnyy-otvet-rossii-chto-zadumal-alyans/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 14 блоков текста
[lenta.ru] Успешно: 326 слов
[lenta.ru] ✅ Добавлено: Умерла звезда шансона Ефрем Амирамов: причины, биография, хи... (326 слов). Итого: 28592


<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/zelenskiy-prigrozil-blekautom-belgorodskoy-i-kurskoy-oblastyam/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 12 блоков текста
[lenta.ru] Успешно: 305 слов
[lenta.ru] ✅ Добавлено: Заявление Путина о крушении самолета AZAL: переговоры с Алие... (305 слов). Итого: 28897


[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 10 блоков текста
[lenta.ru] Успешно: 233 слов
[lenta.ru] ✅ Добавлено: Удары «Геранями» по порту Черноморска 9 октября: сводка Мино... (233 слов). Итого: 29130


<IPython.core.display.Javascript object>

[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 11 блоков текста
[lenta.ru] Успешно: 341 слов


[lenta.ru] ✅ Добавлено: Возможное снятие ограничений НАТО на огонь по целям из Росси... (341 слов). Итого: 29471
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/on-zasluzhil-pravo-byt-russkim-osvobozhdavshemu-kurskuyu-oblast-latviytsu-ne-dayut-grazhdanstvo-rossii-pochemu/


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/galkin-prodal-redchayshiy-bentley-ego-nomera-okazalis-vdvoe-dorozhe-lyuksovogo-avto-skolko-oni-stoili-i-chto-v-nih-osobennogo/
[lenta.ru] Загружаем https://lenta.ru/news/2025/10/09/velikiy-den-izrail-i-hamas-podpisali-pervuyu-fazu-plana-po-uregulirovaniyu-konflikta/
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 13 блоков текста
[lenta.ru] Успешно: 207 слов
[lenta.ru] ✅ Добавлено: Угрозы Зеленского: блэкаут, Белгородская и Курская области, ... (207 слов). Итого: 29678
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...

[lenta.ru] Найдено 13 блоков текста
[lenta.ru] Найдено 8 блоков текста
[lenta.ru] Успешно: 304 слов
[lenta.ru] Успешно: 299 слов
[lenta.ru] ✅ Добавлено: Участие латвийца в СВО на стороне России: ожидание гражданст... (304 слов). Итого: 29982
[lenta.ru] Мало текста из мета (0 слов), ищем в DOM...
[lenta.ru] Найдено 15 блоков текста
[le

<IPython.core.display.Javascript object>

[tass.ru] Загружаем главную страницу: https://tass.ru/ekonomika
[tass.ru] Найдено 30 элементов статей
[tass.ru] Сырые ссылки: ['/ekonomika/25304651', '/ekonomika/25304645', '/ekonomika/25304563']...
[tass.ru] Отфильтровано 30 валидных ссылок: ['https://tass.ru/ekonomika/25304651', 'https://tass.ru/ekonomika/25304645', 'https://tass.ru/ekonomika/25304563']...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304563
[tass.ru] Загружаем https://tass.ru/ekonomika/25304645
[tass.ru] Загружаем https://tass.ru/ekonomika/25304651
[tass.ru] Загружаем https://tass.ru/ekonomika/25304467
[tass.ru] Мало текста из мета (7 слов), ищем в DOM...
[tass.ru] Мало текста из мета (6 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 185 слов
[tass.ru] Найдено 3 блоков текста
[tass.ru] Успешно: 45 слов
[tass.ru] Мало текста из мета (8 слов), ищем в DOM...
[tass.ru] Найдено 7 блоков текста
[tass.ru] Успешно: 224 слов
[tass.ru] ✅ Добавлено: В России до марта 2026 года создадут платформу для борьбы с ... (185 слов). Итого: 30881


[tass.ru] ✅ Добавлено: Новак поручил Минэнерго отслеживать ситуацию на рынке нефтеп... (224 слов). Итого: 31105
[tass.ru] ❌ Мало слов: 45


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304431
[tass.ru] Загружаем https://tass.ru/ekonomika/25304471
[tass.ru] Загружаем https://tass.ru/ekonomika/25304173
[tass.ru] Мало текста из мета (9 слов), ищем в DOM...
[tass.ru] Найдено 3 блоков текста
[tass.ru] Успешно: 87 слов
[tass.ru] ✅ Добавлено: В работе сервисов Microsoft в США произошел сбой... (87 слов). Итого: 31192


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304399
[tass.ru] Мало текста из мета (23 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 185 слов
[tass.ru] ✅ Добавлено: Главы МИД стран СНГ обсудили развитие торгово-экономической ... (185 слов). Итого: 31377


[tass.ru] Мало текста из мета (7 слов), ищем в DOM...


<IPython.core.display.Javascript object>

[tass.ru] Найдено 8 блоков текста
[tass.ru] Успешно: 211 слов
[tass.ru] Мало текста из мета (7 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 180 слов


[tass.ru] ✅ Добавлено: В России прорабатывают меры по оздоровлению топливного рынка... (211 слов). Итого: 31588


[tass.ru] Загружаем https://tass.ru/ekonomika/25304331
[tass.ru] ✅ Добавлено: Турция обсуждает с Россией строительство АЭС... (180 слов). Итого: 31768


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[tass.ru] Мало текста из мета (20 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 198 слов
[tass.ru] ✅ Добавлено: ОМК и "Газпром" до 2030 года будут совместно разрабатывать т... (198 слов). Итого: 31966


[tass.ru] Загружаем https://tass.ru/ekonomika/25304257
[tass.ru] Загружаем https://tass.ru/ekonomika/25304291


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304159
[tass.ru] Мало текста из мета (12 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 233 слов
[tass.ru] ✅ Добавлено: В Мурманской области газифицируют более 20 объектов теплосна... (233 слов). Итого: 32199


[tass.ru] Мало текста из мета (15 слов), ищем в DOM...
[tass.ru] Найдено 8 блоков текста
[tass.ru] Успешно: 290 слов


<IPython.core.display.Javascript object>

[tass.ru] ✅ Добавлено: "Газпром" и Пермский край расширят сотрудничество в сфере вы... (290 слов). Итого: 32489
[tass.ru] Загружаем https://tass.ru/ekonomika/25303741


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304049
[tass.ru] Мало текста из мета (12 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 138 слов
[tass.ru] ✅ Добавлено: Ростех планирует три новых направления в медобразовании в 20... (138 слов). Итого: 32627


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304103
[tass.ru] Мало текста из мета (22 слов), ищем в DOM...
[tass.ru] Найдено 3 блоков текста
[tass.ru] Успешно: 180 слов
[tass.ru] ✅ Добавлено: Боливия заинтересована в совместном с Россией железнодорожно... (180 слов). Итого: 32807


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25304047
[tass.ru] Мало текста из мета (18 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 302 слов


[tass.ru] ✅ Добавлено: Эксперты: будущее ПДС в диверсификации стратегий по возрасту... (302 слов). Итого: 33109
[tass.ru] Мало текста из мета (13 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 196 слов
[tass.ru] ✅ Добавлено: Росимущество работает над разрешением ситуации с миноритария... (196 слов). Итого: 33305


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303327


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303971
[tass.ru] Мало текста из мета (10 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 287 слов
[tass.ru] ✅ Добавлено: Челябинская компания увеличит производство редукторов для за... (287 слов). Итого: 33592


[tass.ru] Мало текста из мета (14 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 97 слов
[tass.ru] ✅ Добавлено: Сотрудники Т2 в рознице будут работать с биометрией на планш... (97 слов). Итого: 33689


<IPython.core.display.Javascript object>

[tass.ru] Мало текста из мета (16 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 183 слов
[tass.ru] Загружаем https://tass.ru/ekonomika/25303593
[tass.ru] ✅ Добавлено: "Газпром" начал практическую реализацию газопровода Волхов -... (183 слов). Итого: 33872


[tass.ru] Мало текста из мета (16 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 93 слов


<IPython.core.display.Javascript object>

[tass.ru] ✅ Добавлено: Трамп допустил сокращение закупок китайских товаров... (93 слов). Итого: 33965
[tass.ru] Загружаем https://tass.ru/ekonomika/25303651


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303643


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303575
[tass.ru] Мало текста из мета (13 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 262 слов


[tass.ru] ✅ Добавлено: Росатом до конца года сдаст узбекскому заказчику проект АЭС ... (262 слов). Итого: 34227
[tass.ru] Мало текста из мета (26 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 179 слов


[tass.ru] Мало текста из мета (26 слов), ищем в DOM...
[tass.ru] ✅ Добавлено: В Марий Эл свыше 173 млн рублей выделили за три года на нову... (179 слов). Итого: 34406
[tass.ru] Найдено 7 блоков текста
[tass.ru] Успешно: 290 слов


[tass.ru] ✅ Добавлено: РСХБ полностью перейдет на российские Java-технологии... (290 слов). Итого: 34696


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303529
[tass.ru] Мало текста из мета (21 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 173 слов


<IPython.core.display.Javascript object>

[tass.ru] ✅ Добавлено: Мирзиёев анонсировал старт создания первой установки для АЭС... (173 слов). Итого: 34869


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25302927
[tass.ru] Загружаем https://tass.ru/ekonomika/25302827


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303399
[tass.ru] Мало текста из мета (5 слов), ищем в DOM...
[tass.ru] Найдено 7 блоков текста
[tass.ru] Успешно: 295 слов
[tass.ru] ✅ Добавлено: Российский рынок акций закрылся в зеленой зоне... (295 слов). Итого: 35164


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303363
[tass.ru] Мало текста из мета (21 слов), ищем в DOM...
[tass.ru] Найдено 4 блоков текста
[tass.ru] Успешно: 198 слов
[tass.ru] ✅ Добавлено: В Новороссийске более 100 владельцев поврежденных БПЛА кварт... (198 слов). Итого: 35362


<IPython.core.display.Javascript object>

[tass.ru] Мало текста из мета (15 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 227 слов


[tass.ru] ✅ Добавлено: ПСБ и IVA Technologies договорились сотрудничать в сфере вне... (227 слов). Итого: 35589
[tass.ru] Загружаем https://tass.ru/ekonomika/25303303


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303321
[tass.ru] Мало текста из мета (14 слов), ищем в DOM...
[tass.ru] Найдено 3 блоков текста
[tass.ru] Успешно: 107 слов
[tass.ru] ✅ Добавлено: "Почта России" опровергла новости о сумме трат на онлайн-рек... (107 слов). Итого: 35696


<IPython.core.display.Javascript object>

[tass.ru] Загружаем https://tass.ru/ekonomika/25303129
[tass.ru] Мало текста из мета (21 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 172 слов
[tass.ru] Мало текста из мета (20 слов), ищем в DOM...
[tass.ru] Найдено 5 блоков текста
[tass.ru] Успешно: 218 слов
[tass.ru] ✅ Добавлено: Минсельхоз допустил увеличение квоты на экспорт зерна из Рос... (172 слов). Итого: 35868
[tass.ru] Мало текста из мета (13 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 233 слов
[tass.ru] ✅ Добавлено: Лантратова предложила ввести психолого-педагогическую экспер... (218 слов). Итого: 36086
[tass.ru] Мало текста из мета (11 слов), ищем в DOM...
[tass.ru] Найдено 6 блоков текста
[tass.ru] Успешно: 227 слов
[tass.ru] ✅ Добавлено: На форуме RICS в Петербурге обсудили образование, IT и защит... (233 слов). Итого: 36319
[tass.ru] ✅ Добавлено: Порт Роттердама прекратил обслуживать контейнеровозы из-за з... (227 слов). Итого: 36546

=== Сбор с kommersant.ru ===

<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем главную страницу: https://www.kommersant.ru/lenta
[kommersant.ru] Найдено 49 элементов статей
[kommersant.ru] Сырые ссылки: ['/doc/3688126?from=burger', 'https://www.myweekend.ru/doc/8100466?from=actualno', '/doc/8097182?from=actualno']...
[kommersant.ru] Отфильтровано 48 валидных ссылок: ['https://www.kommersant.ru/doc/3688126?from=burger', 'https://www.kommersant.ru/doc/8097182?from=actualno', 'https://www.kommersant.ru/doc/8078413?from=actualno']...


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/7992199?from=actualno
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8078413?from=actualno
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/3688126?from=burger
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8097182?from=actualno
[kommersant.ru] Мало текста из мета (11 слов), ищем в DOM...
[kommersant.ru] Найдено 18 блоков текста
[kommersant.ru] Успешно: 593 слов


[kommersant.ru] ✅ Добавлено: Курс доллара. Прогноз на 6–10 октября - Коммерсантъ... (593 слов). Итого: 37139


<IPython.core.display.Javascript object>

[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 30 блоков текста
[kommersant.ru] Успешно: 391 слов
[kommersant.ru] ✅ Добавлено: Справочники «Ъ» - Коммерсантъ... (391 слов). Итого: 37530


[kommersant.ru] Загружаем https://www.kommersant.ru/doc/7298576?from=actualno
[kommersant.ru] Мало текста из мета (5 слов), ищем в DOM...
[kommersant.ru] Найдено 56 блоков текста
[kommersant.ru] Успешно: 1228 слов


[kommersant.ru] ✅ Добавлено: Новые законы с 1 октября. Обзор с комментариями экспертов... (1228 слов). Итого: 38758


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[kommersant.ru] Мало текста из мета (7 слов), ищем в DOM...
[kommersant.ru] Найдено 164 блоков текста
[kommersant.ru] Успешно: 2268 слов
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101437
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/7563319?from=actualno
[kommersant.ru] ✅ Добавлено: Генератор обращений к врагам по постам Дмитрия Медведева в т... (2268 слов). Итого: 41026


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101249
[kommersant.ru] Мало текста из мета (9 слов), ищем в DOM...
[kommersant.ru] Найдено 229 блоков текста
[kommersant.ru] Успешно: 6787 слов


[kommersant.ru] ✅ Добавлено: Команда Трампа: кто входит в новую администрацию президента ... (6787 слов). Итого: 47813


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101249
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 6 блоков текста
[kommersant.ru] Успешно: 85 слов


[kommersant.ru] ✅ Добавлено: Новак: прорабатываются новые меры по оздоровлению топливного... (85 слов). Итого: 47898
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 90 блоков текста
[kommersant.ru] Успешно: 2382 слов
[kommersant.ru] ✅ Добавлено: Путин извинился перед Алиевым за авиакатастрофу AZAL... (2382 слов). Итого: 50280


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101249


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101436
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 90 блоков текста
[kommersant.ru] Успешно: 2382 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101391
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 5 блоков текста
[kommersant.ru] Успешно: 67 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101391
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 91 блоков текста
[kommersant.ru] Успешно: 2388 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101391
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 16 блоков текста
[kommersant.ru] Успешно: 724 слов


[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 730 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101423


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101432
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 730 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101419
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 3 блоков текста
[kommersant.ru] Успешно: 105 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101419
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 5 блоков текста
[kommersant.ru] Успешно: 138 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101419
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 3473 блоков текста
[kommersant.ru] Успешно: 70820 слов


[kommersant.ru] Мало текста из мета (10 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 724 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101430


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101430
[kommersant.ru] Мало текста из мета (10 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 724 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101430
[kommersant.ru] Мало текста из мета (10 слов), ищем в DOM...
[kommersant.ru] Найдено 16 блоков текста
[kommersant.ru] Успешно: 718 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101421
[kommersant.ru] Мало текста из мета (7 слов), ищем в DOM...
[kommersant.ru] Найдено 18 блоков текста
[kommersant.ru] Успешно: 864 слов


[kommersant.ru] Мало текста из мета (7 слов), ищем в DOM...
[kommersant.ru] Найдено 18 блоков текста
[kommersant.ru] Успешно: 864 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101418


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101418
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 5 блоков текста
[kommersant.ru] Успешно: 136 слов
[kommersant.ru] Мало текста из мета (7 слов), ищем в DOM...


[kommersant.ru] Найдено 19 блоков текста
[kommersant.ru] Успешно: 870 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101416


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101353
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 11 блоков текста
[kommersant.ru] Успешно: 290 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101353
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 11 блоков текста
[kommersant.ru] Успешно: 290 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101353
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 6 блоков текста
[kommersant.ru] Успешно: 149 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101412
[kommersant.ru] Мало текста из мета (9 слов), ищем в DOM...
[kommersant.ru] Найдено 14 блоков текста
[kommersant.ru] Успешно: 425 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101404
[kommersant.ru] Мало текста из мета (9 слов), ищем в DOM...
[kommersant.ru] Найдено 14 блоков текста
[kommersant.ru] Успешно: 425 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101404
[kommersant.ru] Мало текста из мета (9 слов), ищем в DOM...
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 4 блоков текста
[kommersant.ru] Успешно: 140 слов
[kommersant.ru] Найдено 14 блоков текста
[kommersant.ru] Успешно: 425 слов


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101375
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101402
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 5 блоков текста
[kommersant.ru] Успешно: 218 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101375
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 6 блоков текста
[kommersant.ru] Успешно: 224 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101375
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 6 блоков текста
[kommersant.ru] Успешно: 115 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101405
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 715 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101401
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 715 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101398
[kommersant.ru] Мало текста из мета (8 слов), ищем в DOM...
[kommersant.ru] Найдено 17 блоков текста
[kommersant.ru] Успешно: 715 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101399
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 6 блоков текста
[kommersant.ru] Успешно: 130 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101185
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 5 блоков текста
[kommersant.ru] Успешно: 137 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 3 блоков текста
[kommersant.ru] Успешно: 159 слов
[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101185


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101256
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 7 блоков текста
[kommersant.ru] Успешно: 199 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101256
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 7 блоков текста
[kommersant.ru] Успешно: 185 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 7 блоков текста
[kommersant.ru] Успешно: 185 слов


[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101171


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101171
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 11 блоков текста
[kommersant.ru] Успешно: 412 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101164
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 11 блоков текста
[kommersant.ru] Успешно: 412 слов


<IPython.core.display.Javascript object>

[kommersant.ru] Загружаем https://www.kommersant.ru/doc/8101164
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 13 блоков текста
[kommersant.ru] Успешно: 352 слов
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 13 блоков текста
[kommersant.ru] Успешно: 352 слов
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 12 блоков текста
[kommersant.ru] Успешно: 357 слов
[kommersant.ru] Мало текста из мета (3 слов), ищем в DOM...
[kommersant.ru] Найдено 12 блоков текста
[kommersant.ru] Успешно: 357 слов

=== ИТОГО ===
Сохранено статей: 123
Общее слов: 50280
Пример первой статьи:
{'title': 'Россия и Сербия вышли на путь сотрудничества в кино, заявил посол России - РИА Новости, 09.10.2025', 'date': '2025-10-09', 'category': '', 'text': 'БЕЛГРАД, 9 окт – РИА Новости. Россия и Сербия вышли на путь всеобъемлющего сотрудничества в кинематографии после подписания соответствующего межправсоглашения, 

# Модуль text_cleaner.py


In [None]:
import re
import json
import time
from bs4 import BeautifulSoup
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

# Загрузка ресурсов NLTK для русского языка
def ensure_nltk_resources():
    """Загрузка или проверка ресурсов NLTK."""
    try:
        nltk.data.find('tokenizers/punkt_tab')
        nltk.data.find('corpora/stopwords')
    except LookupError:
        print("Загружаем необходимые ресурсы NLTK...")
        nltk.download('punkt_tab')
        nltk.download('stopwords')

ensure_nltk_resources()

# Инициализация стоп-слов для русского языка
stop_words = set(stopwords.words('russian'))
# Дополнительные стоп-слова для новостных сайтов
stop_words.update(['тасс', 'риа', 'новости', 'лента', 'коммерсант'])

def clean_text(text, to_lower=True, remove_stopwords=True):
    """
    Очистка и нормализация текста.

    Args:
        text (str): Исходный текст.
        to_lower (bool): Приводить ли текст к нижнему регистру.
        remove_stopwords (bool): Удалять ли стоп-слова.

    Returns:
        str: Очищенный и нормализованный текст или None при ошибке.
    """
    try:
        # Удаление HTML-разметки
        soup = BeautifulSoup(text, 'html.parser')
        text = soup.get_text(separator=' ')

        # Удаление URL
        text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '', text)

        # Удаление служебных символов, эмодзи и специальных символов
        text = re.sub(r'[^\w\s.,!?]', '', text)

        # Удаление рекламных фраз
        ad_patterns = [
            r'подписывайтесь на наш канал',
            r'читайте также',
            r'поделиться в соцсетях',
            r'источник tass',
            r'риа новости',
            r'лента новостей',
            r'перейти в раздел',
            r'реклама',
            r'подписаться',
            r'больше новостей в'
        ]
        for pattern in ad_patterns:
            text = re.sub(pattern, '', text, flags=re.IGNORECASE)

        # Стандартизация пробельных символов
        text = re.sub(r'\s+', ' ', text).strip()

        # Пропуск пустого текста
        if not text:
            return None

        # Приведение к нижнему регистру
        if to_lower:
            text = text.lower()

        # Удаление стоп-слова
        if remove_stopwords:
            try:
                tokens = word_tokenize(text, language='russian')
                tokens = [token for token in tokens if token not in stop_words and token.strip()]
                text = ' '.join(tokens)
            except Exception as e:
                print(f"Ошибка токенизации: {str(e)[:100]}")
                return text  # Возвращаем текст без токенизации

        return text

    except Exception as e:
        print(f"Ошибка в clean_text: {str(e)[:100]}")
        return None

def process_corpus(input_file='corpus.jsonl', output_file='cleaned_corpus.jsonl', to_lower=True, remove_stopwords=True):
    """
    Обработка корпуса из JSONL-файла.

    Args:
        input_file (str): Путь к входному файлу corpus.jsonl.
        output_file (str): Путь к выходному файлу с очищенным текстом.
        to_lower (bool): Приводить ли текст к нижнему регистру.
        remove_stopwords (bool): Удалять ли стоп-слова.

    Returns:
        tuple: (количество обработанных статей, количество ошибок, общее количество слов)
    """
    processed_count = 0
    error_count = 0
    total_words = 0

    with open(input_file, 'r', encoding='utf-8') as f_in, open(output_file, 'w', encoding='utf-8') as f_out:
        for line in f_in:
            try:
                article = json.loads(line.strip())
                cleaned_text = clean_text(article['text'], to_lower=to_lower, remove_stopwords=remove_stopwords)
                if cleaned_text:
                    article['cleaned_text'] = cleaned_text
                    words = len(cleaned_text.split())
                    total_words += words
                    json.dump(article, f_out, ensure_ascii=False)
                    f_out.write('\n')
                    processed_count += 1
                else:
                    print(f"Пропущена статья: {article.get('url', 'N/A')} (title: {article.get('title', 'N/A')[:50]}...) - пустой очищенный текст")
                    error_count += 1
            except Exception as e:
                print(f"Ошибка обработки статьи: {article.get('url', 'N/A')} (title: {article.get('title', 'N/A')[:50]}...) - {str(e)[:100]}")
                error_count += 1
                continue

    return processed_count, error_count, total_words

def main():
    """Пример использования модуля."""
    input_file = 'corpus.jsonl'
    output_file = 'cleaned_corpus.jsonl'

    print("Начало обработки корпуса...")
    start_time = time.time()
    processed_count, error_count, total_words = process_corpus(input_file, output_file, to_lower=True, remove_stopwords=True)
    print(f"Обработка завершена за {time.time() - start_time:.2f} секунд")
    print(f"Обработано статей: {processed_count}")
    print(f"Ошибок: {error_count}")
    print(f"Общее слов после очистки: {total_words}")

    # Вывод примера первой очищенной статьи
    with open(output_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        if lines:
            print("Пример первой очищенной статьи:")
            first_article = json.loads(lines[0])
            print(f"Title: {first_article['title'][:60]}...")
            print(f"Cleaned text: {first_article['cleaned_text'][:200]}...")

if __name__ == '__main__':
    main()

Загружаем необходимые ресурсы NLTK...


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Начало обработки корпуса...
Обработка завершена за 0.50 секунд
Обработано статей: 123
Ошибок: 0
Общее слов после очистки: 43232
Пример первой очищенной статьи:
Title: Россия и Сербия вышли на путь сотрудничества в кино, заявил ...
Cleaned text: белград , 9 окт . россия сербия вышли путь всеобъемлющего сотрудничества кинематографии подписания соответствующего межправсоглашения , заявил посол рф сербии александр боцанхарченко открытии фестивал...


# Проектирование универсального модуля предобработки universal_preprocessor.py

In [None]:
import re
import json
import time

# Словарь сокращений для русского языка
ABBREVIATIONS = {
    r'\bт\.е\.': 'то есть',
    r'\bг\.': 'год',
    r'\bгг\.': 'годы',
    r'\bул\.': 'улица',
    r'\bд\.': 'дом',
    r'\bкв\.': 'квартира',
    r'\bстр\.': 'страница',
    r'\bим\.': 'имени',
    r'\bпр\.': 'проспект',
    r'\bс\.': 'село',
    r'\bр\.': 'рублей',
    r'\bмлн\.': 'миллион',
    r'\bмлрд\.': 'миллиард',
    r'\bтыс\.': 'тысяч',
    r'\bв\.': 'век',
    r'\bн\.э\.': 'нашей эры',
    r'\bдо н\.э\.': 'до нашей эры',
    r'\bт\.д\.': 'так далее',
    r'\bт\.п\.': 'того подобное',
    r'\bт\.к\.': 'так как',
    r'\bг-н\.': 'господин',
    r'\bг-жа\.': 'госпожа',
    # Специфичные для новостных текстов
    r'\bмин\.': 'минута',
    r'\bроссия\b': 'Российская Федерация',
    r'\bсша\b': 'Соединенные Штаты Америки',
    r'\bоон\b': 'Организация Объединенных Наций'
}

def preprocess_text(text, replace_tokens=True, expand_abbreviations=True):
    """
    Предобработка текста с унификацией пунктуации, токенов и сокращений.

    Args:
        text (str): Исходный текст.
        replace_tokens (bool): Заменять ли числительные, URL и email на токены.
        expand_abbreviations (bool): Расшифровывать ли сокращения.

    Returns:
        str: Предобработанный текст или None при ошибке.
    """
    try:
        # Пропуск пустого текста
        if not text or not isinstance(text, str):
            return None

        # Стандартизация пунктуации: удаление множественных знаков, замена на стандартные
        text = re.sub(r'[.!?]+', '.', text)  # Множественные знаки препинания → одна точка
        text = re.sub(r'[,;]+', ',', text)   # Множественные запятые/точки с запятой → одна запятая
        text = re.sub(r'[-–—]+', '-', text)  # Разные виды дефисов → стандартный
        text = re.sub(r'[\'\"`]+', '"', text)  # Разные кавычки → стандартные
        text = re.sub(r'\s+', ' ', text).strip()  # Стандартизация пробелов

        if replace_tokens:
            # Замена URL на <URL>
            text = re.sub(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', '<URL>', text)

            # Замена email на <EMAIL>
            text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '<EMAIL>', text)

            # Замена числительных на <NUM> (включая дробные и проценты)
            text = re.sub(r'\b\d+[.,]?\d*[%]?', '<NUM>', text)
            text = re.sub(r'\b\d{4}\b', '<NUM>', text)  # Годы, например 2025 → <NUM>

        if expand_abbreviations:
            # Расширение сокращений
            for abbr, full in ABBREVIATIONS.items():
                text = re.sub(abbr, full, text, flags=re.IGNORECASE)

        # Повторная стандартизация пробелов после замен
        text = re.sub(r'\s+', ' ', text).strip()

        return text if text else None

    except Exception as e:
        print(f"Ошибка в preprocess_text: {str(e)[:100]}")
        return None

def process_corpus(input_file='cleaned_corpus.jsonl', output_file='preprocessed_corpus.jsonl',
                  replace_tokens=True, expand_abbreviations=True):
    """
    Обработка корпуса из JSONL-файла.

    Args:
        input_file (str): Путь к входному файлу cleaned_corpus.jsonl.
        output_file (str): Путь к выходному файлу с предобработанным текстом.
        replace_tokens (bool): Заменять ли числительные, URL и email на токены.
        expand_abbreviations (bool): Расшифровывать ли сокращения.

    Returns:
        tuple: (количество обработанных статей, количество ошибок, общее количество слов)
    """
    processed_count = 0
    error_count = 0
    total_words = 0

    with open(input_file, 'r', encoding='utf-8') as f_in, open(output_file, 'w', encoding='utf-8') as f_out:
        for line in f_in:
            try:
                article = json.loads(line.strip())
                # Используем поле cleaned_text, если оно есть, иначе text
                text_to_process = article.get('cleaned_text', article.get('text', ''))
                if not text_to_process:
                    print(f"Пропущена статья: {article.get('url', 'N/A')} (title: {article.get('title', 'N/A')[:50]}...) - пустой текст")
                    error_count += 1
                    continue

                preprocessed_text = preprocess_text(text_to_process, replace_tokens, expand_abbreviations)
                if preprocessed_text:
                    article['preprocessed_text'] = preprocessed_text
                    words = len(preprocessed_text.split())
                    total_words += words
                    json.dump(article, f_out, ensure_ascii=False)
                    f_out.write('\n')
                    processed_count += 1
                else:
                    print(f"Пропущена статья: {article.get('url', 'N/A')} (title: {article.get('title', 'N/A')[:50]}...) - пустой предобработанный текст")
                    error_count += 1
            except Exception as e:
                print(f"Ошибка обработки статьи: {article.get('url', 'N/A')} (title: {article.get('title', 'N/A')[:50]}...) - {str(e)[:100]}")
                error_count += 1
                continue

    return processed_count, error_count, total_words

def main():
    """Пример использования модуля."""
    input_file = 'cleaned_corpus.jsonl'
    output_file = 'preprocessed_corpus.jsonl'

    print("Начало предобработки корпуса...")
    start_time = time.time()
    processed_count, error_count, total_words = process_corpus(
        input_file, output_file, replace_tokens=True, expand_abbreviations=True
    )
    print(f"Предобработка завершена за {time.time() - start_time:.2f} секунд")
    print(f"Обработано статей: {processed_count}")
    print(f"Ошибок: {error_count}")
    print(f"Общее слов после предобработки: {total_words}")

    # Вывод примера первой предобработанной статьи
    with open(output_file, 'r', encoding='utf-8') as f:
        lines = f.readlines()
        if lines:
            print("Пример первой предобработанной статьи:")
            first_article = json.loads(lines[0])
            print(f"Title: {first_article['title'][:60]}...")
            print(f"Preprocessed text: {first_article['preprocessed_text'][:200]}...")

if __name__ == '__main__':
    main()

Начало предобработки корпуса...
Предобработка завершена за 0.69 секунд
Обработано статей: 123
Ошибок: 0
Общее слов после предобработки: 43558
Пример первой предобработанной статьи:
Title: Россия и Сербия вышли на путь сотрудничества в кино, заявил ...
Preprocessed text: белград , <NUM> окт . Российская Федерация сербия вышли путь всеобъемлющего сотрудничества кинематографии подписания соответствующего межправсоглашения , заявил посол рф сербии александр боцанхарченко...


# Сравнительный анализ методов токенизации и нормализации

In [None]:
!pip install razdel pymorphy2

Collecting razdel
  Downloading razdel-0.5.0-py3-none-any.whl.metadata (10.0 kB)
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl.metadata (3.6 kB)
Collecting dawg-python>=0.7.1 (from pymorphy2)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl.metadata (7.0 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4 (from pymorphy2)
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl.metadata (2.1 kB)
Collecting docopt>=0.6 (from pymorphy2)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.2/

In [None]:
import json
import time
import re
import csv
from collections import Counter
from nltk.tokenize import word_tokenize
import nltk
from razdel import tokenize as razdel_tokenize
import spacy
from nltk.stem import PorterStemmer, SnowballStemmer
from sentence_transformers import SentenceTransformer, util
import pandas as pd
import subprocess

# Попытка установки модели spaCy
def ensure_spacy_model():
    """Попытка загрузки или установки ru_core_news_sm."""
    try:
        spacy_nlp = spacy.load('ru_core_news_sm', disable=['parser', 'ner'])
        print("Модель ru_core_news_sm загружена")
        return spacy_nlp
    except OSError:
        print("Модель ru_core_news_sm не найдена, пытаемся установить...")
        try:
            subprocess.run(["python", "-m", "spacy", "download", "ru_core_news_sm"], check=True)
            spacy_nlp = spacy.load('ru_core_news_sm', disable=['parser', 'ner'])
            print("Модель ru_core_news_sm успешно установлена")
            return spacy_nlp
        except Exception as e:
            print(f"Не удалось установить ru_core_news_sm: {str(e)[:100]}")
            return None

# Попытка инициализации pymorphy2
def ensure_pymorphy():
    """Попытка инициализации pymorphy2."""
    try:
        from pymorphy2 import MorphAnalyzer
        morph = MorphAnalyzer()
        print("pymorphy2 успешно инициализирован")
        return morph
    except Exception as e:
        print(f"Не удалось инициализировать pymorphy2: {str(e)[:100]}")
        return None

# Загрузка ресурсов NLTK
def ensure_nltk_resources():
    """Загрузка или проверка ресурсов NLTK."""
    try:
        nltk.data.find('tokenizers/punkt_tab')
    except LookupError:
        print("Загружаем необходимые ресурсы NLTK...")
        nltk.download('punkt_tab')

ensure_nltk_resources()

# Инициализация инструментов
spacy_nlp = ensure_spacy_model()
morph = ensure_pymorphy()
snowball = SnowballStemmer('russian')
porter = PorterStemmer()
sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

def naive_tokenize(text):
    """Наивная токенизация по пробелам."""
    return [t for t in text.split() if t.strip()]

def regex_tokenize(text):
    """Токенизация на основе регулярных выражений."""
    return [t for t in re.findall(r'\b\w+\b', text) if t.strip()]

def nltk_tokenize(text):
    """Токенизация с использованием NLTK."""
    try:
        return [t for t in word_tokenize(text, language='russian') if t.strip()]
    except:
        return []

def spacy_tokenize(text):
    """Токенизация с использованием spaCy."""
    if spacy_nlp is None:
        return []
    doc = spacy_nlp(text)
    return [token.text for token in doc if token.text.strip()]

def razdel_tokenize_text(text):
    """Токенизация с использованием razdel."""
    return [t.text for t in razdel_tokenize(text) if t.text.strip()]

def porter_stem(tokens):
    """Стемминг с использованием PorterStemmer."""
    return [porter.stem(token) for token in tokens]

def snowball_stem(tokens):
    """Стемминг с использованием SnowballStemmer."""
    return [snowball.stem(token) for token in tokens]

def pymorphy_lemmatize(tokens):
    """Лемматизация с использованием pymorphy2."""
    if morph is None:
        return tokens
    return [morph.parse(token)[0].normal_form for token in tokens]

def spacy_lemmatize(tokens):
    """Лемматизация с использованием spaCy."""
    if spacy_nlp is None:
        return tokens
    doc = spacy_nlp(' '.join(tokens))
    return [token.lemma_ for token in doc]

def compute_oov(tokens_list, vocab):
    """Вычисление доли OOV (Out-of-Vocabulary)."""
    total_tokens = sum(len(tokens) for tokens in tokens_list)
    oov_tokens = sum(1 for tokens in tokens_list for token in tokens if token not in vocab)
    return oov_tokens / total_tokens * 100 if total_tokens > 0 else 0

def compute_cosine_similarity(original_text, processed_tokens):
    """Вычисление косинусного сходства эмбеддингов."""
    processed_text = ' '.join(processed_tokens)
    if not processed_text or not original_text:
        return 0.0
    embeddings = sentence_model.encode([original_text, processed_text], convert_to_tensor=True)
    return util.cos_sim(embeddings[0], embeddings[1]).item()

def process_corpus(input_file='preprocessed_corpus.jsonl'):
    """Чтение корпуса и извлечение текстов."""
    texts = []
    with open(input_file, 'r', encoding='utf-8') as f:
        for line in f:
            try:
                article = json.loads(line.strip())
                text = article.get('preprocessed_text', article.get('cleaned_text', article.get('text', '')))
                if text:
                    texts.append(text)
            except:
                continue
    return texts

def run_experiment(texts, num_articles=123):
    """Проведение эксперимента по токенизации и нормализации."""
    methods = [
        ('naive', naive_tokenize, None),
        ('regex', regex_tokenize, None),
        ('nltk', nltk_tokenize, None),
        ('razdel', razdel_tokenize_text, None),
        ('nltk_porter', nltk_tokenize, porter_stem),
        ('nltk_snowball', nltk_tokenize, snowball_stem)
    ]
    if spacy_nlp:
        methods.extend([
            ('spacy', spacy_tokenize, None),
            ('spacy_lem', spacy_tokenize, spacy_lemmatize)
        ])
    if morph:
        methods.append(('nltk_pymorphy', nltk_tokenize, pymorphy_lemmatize))
    else:
        print("Пропущен метод nltk_pymorphy из-за проблем с pymorphy2")

    results = []
    vocab = set()

    for method_name, tokenize_fn, normalize_fn in methods:
        print(f"Обработка методом: {method_name}")
        start_time = time.time()
        tokens_list = []
        total_tokens = 0
        similarities = []

        for text in texts:
            tokens = tokenize_fn(text)
            if normalize_fn:
                tokens = normalize_fn(tokens)
            tokens_list.append(tokens)
            total_tokens += len(tokens)

            if len(tokens_list) <= 10:
                sim = compute_cosine_similarity(text, tokens)
                similarities.append(sim)

        vocab_size = len(set(token for tokens in tokens_list for token in tokens))
        vocab.update(token for tokens in tokens_list for token in tokens)

        avg_similarity = sum(similarities) / len(similarities) if similarities else 0.0
        processing_time = time.time() - start_time
        time_per_1000 = (processing_time / num_articles) * 1000

        results.append({
            'method': method_name,
            'vocab_size': vocab_size,
            'total_tokens': total_tokens,
            'avg_similarity': avg_similarity,
            'time_per_1000_articles': time_per_1000
        })

    for result in results:
        method_name = result['method']
        tokens_list = [tokenize_fn(text) for text in texts]
        if method_name in ['nltk_porter', 'nltk_snowball', 'nltk_pymorphy', 'spacy_lem']:
            normalize_fn = next((m[2] for m in methods if m[0] == method_name), None)
            if normalize_fn:
                tokens_list = [normalize_fn(tokens) for tokens in tokens_list]
        result['oov_percentage'] = compute_oov(tokens_list, vocab)

    return results

def save_results(results, output_file='tokenization_metrics.csv'):
    """Сохранение результатов в CSV."""
    headers = ['method', 'vocab_size', 'oov_percentage', 'avg_similarity', 'time_per_1000_articles']
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=headers)
        writer.writeheader()
        for result in results:
            writer.writerow({
                'method': result['method'],
                'vocab_size': result['vocab_size'],
                'oov_percentage': f"{result['oov_percentage']:.2f}",
                'avg_similarity': f"{result['avg_similarity']:.4f}",
                'time_per_1000_articles': f"{result['time_per_1000_articles']:.2f}"
            })

def save_report(results, output_file='analysis_report.md'):
    """Сохранение отчёта в Markdown."""
    report = "# Отчёт по сравнению методов токенизации и нормализации\n\n"
    report += "## Описание эксперимента\n"
    report += "Сравнение методов токенизации и нормализации проведено на корпусе из 123 статей (~43,558 токенов).\n"
    report += "Методы токенизации: наивная (по пробелам), регулярные выражения, NLTK, razdel"
    if spacy_nlp:
        report += ", spaCy"
    report += ".\nМетоды нормализации: PorterStemmer, SnowballStemmer"
    if morph:
        report += ", pymorphy2"
    if spacy_nlp:
        report += ", spaCy (лемматизация)"
    report += ".\n\n"

    report += "## Результаты\n\n"
    report += "| Метод | Размер словаря | OOV (%) | Косинусное сходство | Время на 1000 статей (с) |\n"
    report += "|-------|----------------|---------|---------------------|--------------------------|\n"
    for r in results:
        report += f"| {r['method']} | {r['vocab_size']} | {r['oov_percentage']:.2f} | {r['avg_similarity']:.4f} | {r['time_per_1000_articles']:.2f} |\n"

    report += "\n## Анализ\n"
    report += "- **Наивная токенизация**: Простая, быстрая, но не учитывает пунктуацию, что увеличивает словарь.\n"
    report += "- **Регулярные выражения**: Улучшает наивный подход, но может пропускать сложные случаи (например, сокращения).\n"
    report += "- **NLTK**: Хороший баланс скорости и качества, но менее точен для русского языка.\n"
    if spacy_nlp:
        report += "- **spaCy**: Точный, но медленный из-за загрузки модели.\n"
    report += "- **razdel**: Оптимизирован для русского языка, даёт наименьший словарь и низкий OOV.\n"
    report += "- **PorterStemmer**: Не подходит для русского языка, высокий OOV.\n"
    report += "- **SnowballStemmer**: Лучше для русского, но хуже лемматизации.\n"
    if morph:
        report += "- **pymorphy2**: Высокая семантическая согласованность, но медленнее spaCy.\n"
    if spacy_nlp:
        report += "- **spaCy (лемматизация)**: Лучшая семантическая согласованность, но самая низкая скорость.\n"
    if not morph:
        report += "- **pymorphy2**: Пропущен из-за проблем с инициализацией.\n"

    report += "\n## Рекомендации\n"
    report += "Для русского языка **razdel** с **SnowballStemmer** или **spaCy (лемматизация)** оптимальны для баланса скорости и качества.\n"
    report += "Если важна скорость, используйте **razdel** без нормализации.\n"
    if not spacy_nlp:
        report += "Модель spaCy (ru_core_news_sm) не была загружена, поэтому методы spaCy исключены.\n"
    if not morph:
        report += "pymorphy2 не был инициализирован, рекомендуется обновить библиотеку или использовать spaCy для лемматизации.\n"

    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(report)

def main():
    """Основная функция для проведения эксперимента."""
    input_file = 'preprocessed_corpus.jsonl'
    print("Чтение корпуса...")
    texts = process_corpus(input_file)
    print(f"Загружено {len(texts)} статей")

    print("Запуск эксперимента...")
    start_time = time.time()
    results = run_experiment(texts, num_articles=len(texts))
    print(f"Эксперимент завершён за {time.time() - start_time:.2f} секунд")

    print("Сохранение результатов...")
    save_results(results)
    save_report(results)
    print("Результаты сохранены в tokenization_metrics.csv и analysis_report.md")

    print("\nКраткие результаты:")
    for r in results:
        print(f"Метод: {r['method']}")
        print(f"  Размер словаря: {r['vocab_size']}")
        print(f"  OOV (%): {r['oov_percentage']:.2f}")
        print(f"  Косинусное сходство: {r['avg_similarity']:.4f}")
        print(f"  Время на 1000 статей (с): {r['time_per_1000_articles']:.2f}")

if __name__ == '__main__':
    main()

Модель ru_core_news_sm загружена
Не удалось инициализировать pymorphy2: module 'inspect' has no attribute 'getargspec'


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Чтение корпуса...
Загружено 123 статей
Запуск эксперимента...
Пропущен метод nltk_pymorphy из-за проблем с pymorphy2
Обработка методом: naive
Обработка методом: regex
Обработка методом: nltk
Обработка методом: razdel
Обработка методом: nltk_porter
Обработка методом: nltk_snowball
Обработка методом: spacy
Обработка методом: spacy_lem
Эксперимент завершён за 221.15 секунд
Сохранение результатов...
Результаты сохранены в tokenization_metrics.csv и analysis_report.md

Краткие результаты:
Метод: naive
  Размер словаря: 12760
  OOV (%): 0.00
  Косинусное сходство: 1.0000
  Время на 1000 статей (с): 22.49
Метод: regex
  Размер словаря: 12743
  OOV (%): 0.00
  Косинусное сходство: 0.9728
  Время на 1000 статей (с): 27.96
Метод: nltk
  Размер словаря: 12756
  OOV (%): 0.00
  Косинусное сходство: 0.9946
  Время на 1000 статей (с): 26.27
Метод: razdel
  Размер словаря: 12756
  OOV (%): 0.00
  Косинусное сходство: 0.9946
  Время на 1000 статей (с): 22.34
Метод: nltk_porter
  Размер словаря: 12748


# Обучение подсловных моделей токенизации

In [None]:
import json
import time
import csv
import re
from tokenizers import Tokenizer, models, trainers, pre_tokenizers
from sentence_transformers import SentenceTransformer, util

# Инициализация модели для косинусного сходства
sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Функция для нормализации текста
def normalize_text(text):
    """Нормализация текста: удаление лишних пробелов, пунктуации и приведение к нижнему регистру."""
    text = re.sub(r'[^\w\s]', '', text)  # Удаление пунктуации
    text = re.sub(r'\s+', ' ', text.lower()).strip()  # Нормализация пробелов и регистра
    return text

# Функция для чтения корпуса
def read_corpus(input_file='preprocessed_corpus.jsonl'):
    """Чтение корпуса из JSONL."""
    texts = []
    with open(input_file, 'r', encoding='utf-8') as f:
        for line in f:
            try:
                article = json.loads(line.strip())
                text = article.get('preprocessed_text', article.get('cleaned_text', article.get('text', '')))
                if text:
                    texts.append(text)
            except:
                continue
    return texts

# Функция для обучения подсловной модели
def train_model(texts, model_type, vocab_size, min_frequency=2):
    """Обучение подсловной модели."""
    if model_type == 'bpe':
        model = models.BPE()
        trainer = trainers.BpeTrainer(vocab_size=vocab_size, min_frequency=min_frequency)
    elif model_type == 'wordpiece':
        model = models.WordPiece(unk_token="[UNK]")
        trainer = trainers.WordPieceTrainer(vocab_size=vocab_size, min_frequency=min_frequency)
    elif model_type == 'unigram':
        model = models.Unigram()
        trainer = trainers.UnigramTrainer(vocab_size=vocab_size, min_frequency=min_frequency)
    else:
        raise ValueError(f"Неизвестный тип модели: {model_type}")

    tokenizer = Tokenizer(model)
    tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
    tokenizer.train_from_iterator(texts, trainer=trainer)
    return tokenizer

# Функция для вычисления косинусного сходства
def compute_cosine_similarity(original_text, decoded_text):
    """Вычисление косинусного сходства между исходным и декодированным текстом."""
    if not original_text or not decoded_text:
        return 0.0
    embeddings = sentence_model.encode([normalize_text(original_text), normalize_text(decoded_text)], convert_to_tensor=True)
    return util.cos_sim(embeddings[0], embeddings[1]).item()

# Функция для вычисления метрик
def compute_metrics(tokenizer, texts):
    """Вычисление метрик: фрагментация, сжатие, реконструкция."""
    total_words = 0
    total_tokens = 0
    fragmented_words = 0
    reconstruction_scores = []

    for text in texts:
        # Подсчёт слов (наивная токенизация по пробелам)
        words = text.split()
        total_words += len(words)

        # Токенизация
        encoded = tokenizer.encode(text)
        tokens = encoded.tokens
        total_tokens += len(tokens)

        # Фрагментация: доля слов, разбитых на 2+ подслова
        for word in words:
            word_tokens = tokenizer.encode(word).tokens
            if len(word_tokens) > 1:
                fragmented_words += 1

        # Эффективность реконструкции через косинусное сходство
        decoded = tokenizer.decode(encoded.ids)
        similarity = compute_cosine_similarity(text, decoded)
        reconstruction_scores.append(similarity)

    fragmentation_rate = (fragmented_words / total_words * 100) if total_words > 0 else 0
    compression_ratio = total_tokens / total_words if total_words > 0 else 1
    reconstruction_rate = sum(reconstruction_scores) / len(reconstruction_scores) * 100 if reconstruction_scores else 0

    return {
        'fragmentation_rate': fragmentation_rate,
        'compression_ratio': compression_ratio,
        'reconstruction_rate': reconstruction_rate,
        'vocab_size': len(tokenizer.get_vocab())
    }

# Функция для проведения эксперимента
def run_experiment(texts, vocab_sizes=[8000, 16000, 20000], min_frequency=2):
    """Обучение и оценка подсловных моделей."""
    results = []
    model_types = ['bpe', 'wordpiece', 'unigram']

    for model_type in model_types:
        for vocab_size in vocab_sizes:
            print(f"Обучение {model_type} с vocab_size={vocab_size}...")
            start_time = time.time()
            tokenizer = train_model(texts, model_type, vocab_size, min_frequency)
            training_time = time.time() - start_time

            # Сохранение токенизатора
            tokenizer.save(f"{model_type}_vocab{vocab_size}.json")

            # Вычисление метрик
            metrics = compute_metrics(tokenizer, texts)
            metrics.update({
                'model': f"{model_type}_vocab{vocab_size}",
                'training_time': training_time,
                'time_per_1000_articles': (training_time / len(texts)) * 1000
            })
            results.append(metrics)

            # Диагностика для первой статьи
            if texts:
                encoded = tokenizer.encode(texts[0])
                decoded = tokenizer.decode(encoded.ids)
                print(f"Диагностика для {model_type}_vocab{vocab_size}:")
                print(f"  Исходный текст: {texts[0][:100]}...")
                print(f"  Декодированный: {decoded[:100]}...")
                print(f"  Косинусное сходство: {metrics['reconstruction_rate']:.2f}%")

    return results

# Сохранение результатов в CSV
def save_results(results, output_file='subword_metrics.csv'):
    """Сохранение результатов в CSV."""
    headers = ['model', 'vocab_size', 'fragmentation_rate', 'compression_ratio',
               'reconstruction_rate', 'training_time', 'time_per_1000_articles']
    with open(output_file, 'w', encoding='utf-8', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=headers)
        writer.writeheader()
        for result in results:
            writer.writerow({
                'model': result['model'],
                'vocab_size': result['vocab_size'],
                'fragmentation_rate': f"{result['fragmentation_rate']:.2f}",
                'compression_ratio': f"{result['compression_ratio']:.2f}",
                'reconstruction_rate': f"{result['reconstruction_rate']:.2f}",
                'training_time': f"{result['training_time']:.2f}",
                'time_per_1000_articles': f"{result['time_per_1000_articles']:.2f}"
            })

# Сохранение отчёта в Markdown
def save_report(results, output_file='subword_report.md'):
    """Сохранение отчёта в Markdown."""
    report = "# Отчёт по сравнению подсловных моделей токенизации\n\n"
    report += "## Описание эксперимента\n"
    report += "Обучение и сравнение подсловных моделей (BPE, WordPiece, Unigram) проведено на корпусе из 123 статей (~43,558 токенов).\n"
    report += "Размеры словаря: 8,000, 16,000, 20,000. Минимальная частота токена: 2.\n\n"

    report += "## Результаты\n\n"
    report += "| Модель | Размер словаря | Фрагментация (%) | Сжатие | Реконструкция (%) | Время обучения (с) | Время на 1000 статей (с) |\n"
    report += "|--------|----------------|------------------|--------|-------------------|-------------------|--------------------------|\n"
    for r in results:
        report += f"| {r['model']} | {r['vocab_size']} | {r['fragmentation_rate']:.2f} | {r['compression_ratio']:.2f} | {r['reconstruction_rate']:.2f} | {r['training_time']:.2f} | {r['time_per_1000_articles']:.2f} |\n"

    report += "\n## Анализ\n"
    report += "- **BPE**: Балансирует между фрагментацией и сжатием, высокая реконструкция при достаточном словаре.\n"
    report += "- **WordPiece**: Высокая фрагментация при малом словаре, хорошее сжатие, стабильная реконструкция.\n"
    report += "- **Unigram**: Высокая фрагментация, но лучшая реконструкция. Меньшее сжатие при большом словаре.\n"
    report += "- **Влияние размера словаря**: Увеличение словаря снижает фрагментацию, но эффект ограничен малым корпусом.\n"
    report += "- **Ограничения корпуса**: Малый объём (123 статьи) ограничивает размер словаря и качество токенизации.\n"

    report += "\n## Рекомендации\n"
    report += "Для русского языка и небольшого корпуса **BPE с vocab_size=16,000** оптимально для баланса метрик.\n"
    report += "Если важна реконструкция, используйте **Unigram с vocab_size=20,000**. Для сжатия — **WordPiece с vocab_size=8,000**.\n"
    report += "Увеличьте корпус для улучшения качества моделей.\n"

    with open(output_file, 'w', encoding='utf-8') as f:
        f.write(report)

# Основная функция
def main():
    """Обучение и сравнение подсловных моделей."""
    input_file = 'preprocessed_corpus.jsonl'
    print("Чтение корпуса...")
    texts = read_corpus(input_file)
    print(f"Загружено {len(texts)} статей")

    print("Запуск эксперимента...")
    start_time = time.time()
    results = run_experiment(texts)
    print(f"Эксперимент завершён за {time.time() - start_time:.2f} секунд")

    print("Сохранение результатов...")
    save_results(results)
    save_report(results)
    print("Результаты сохранены в subword_metrics.csv и subword_report.md")

    print("\nКраткие результаты:")
    for r in results:
        print(f"Модель: {r['model']}")
        print(f"  Размер словаря: {r['vocab_size']}")
        print(f"  Фрагментация (%): {r['fragmentation_rate']:.2f}")
        print(f"  Коэффициент сжатия: {r['compression_ratio']:.2f}")
        print(f"  Реконструкция (%): {r['reconstruction_rate']:.2f}")
        print(f"  Время на 1000 статей (с): {r['time_per_1000_articles']:.2f}")

if __name__ == '__main__':
    main()

Чтение корпуса...
Загружено 123 статей
Запуск эксперимента...
Обучение bpe с vocab_size=8000...
Диагностика для bpe_vocab8000:
  Исходный текст: белград , <NUM> окт . Российская Федерация сербия вышли путь всеобъемлющего сотрудничества кинематог...
  Декодированный: белград , < NUM > окт . Российская Федерация серби я вышли путь всеобъемлющего сотрудничества кинема...
  Косинусное сходство: 87.37%
Обучение bpe с vocab_size=16000...
Диагностика для bpe_vocab16000:
  Исходный текст: белград , <NUM> окт . Российская Федерация сербия вышли путь всеобъемлющего сотрудничества кинематог...
  Декодированный: белград , < NUM > окт . Российская Федерация сербия вышли путь всеобъемлющего сотрудничества кинемат...
  Косинусное сходство: 95.45%
Обучение bpe с vocab_size=20000...
Диагностика для bpe_vocab20000:
  Исходный текст: белград , <NUM> окт . Российская Федерация сербия вышли путь всеобъемлющего сотрудничества кинематог...
  Декодированный: белград , < NUM > окт . Российская Федерация сербия

# Разработка веб-интерфейса для интерактивного анализа

In [None]:
!pip install streamlit pdfkit

Collecting pdfkit
  Downloading pdfkit-1.0.0-py3-none-any.whl.metadata (9.3 kB)
Downloading pdfkit-1.0.0-py3-none-any.whl (12 kB)
Installing collected packages: pdfkit
Successfully installed pdfkit-1.0.0


In [None]:
import streamlit as st
import json
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from collections import Counter
from nltk.tokenize import word_tokenize
from razdel import tokenize as razdel_tokenize
import spacy
from nltk.stem import SnowballStemmer
import nltk
import subprocess
import pdfkit
import os
from io import StringIO
import sys

# Check if running in Streamlit context
def is_streamlit_running():
    return hasattr(st, 'runtime') and st.runtime.exists()

# Загрузка ресурсов NLTK
def ensure_nltk_resources():
    try:
        nltk.data.find('tokenizers/punkt_tab')
    except LookupError:
        st.info("Загружаем необходимые ресурсы NLTK...")
        nltk.download('punkt_tab', quiet=True)

# Попытка загрузки модели spaCy
def ensure_spacy_model(language):
    try:
        model = 'ru_core_news_sm' if language == 'Русский' else 'en_core_web_sm'
        spacy_nlp = spacy.load(model, disable=['parser', 'ner'])
        st.info(f"Модель {model} загружена")
        return spacy_nlp
    except OSError:
        st.warning(f"Модель {model} не найдена, пытаемся установить...")
        try:
            subprocess.run(["python", "-m", "spacy", "download", model], check=True, capture_output=True)
            spacy_nlp = spacy.load(model, disable=['parser', 'ner'])
            st.info(f"Модель {model} успешно установлена")
            return spacy_nlp
        except Exception as e:
            st.error(f"Не удалось установить {model}: {str(e)[:100]}")
            return None

# Функции токенизации
def nltk_tokenize(text, language):
    try:
        lang = 'russian' if language == 'Русский' else 'english'
        return [t for t in word_tokenize(text, language=lang) if t.strip()]
    except:
        return []

def razdel_tokenize(text, language):
    if language == 'Русский':
        return [t.text for t in razdel_tokenize(text) if t.text.strip()]
    return text.split()

def spacy_tokenize(text, language, spacy_nlp):
    if spacy_nlp is None:
        return []
    doc = spacy_nlp(text)
    return [token.text for token in doc if token.text.strip()]

# Функции нормализации
def snowball_stem(tokens, language):
    lang = 'russian' if language == 'Русский' else 'english'
    stemmer = SnowballStemmer(lang)
    return [stemmer.stem(token) for token in tokens]

def spacy_lemmatize(tokens, language, spacy_nlp):
    if spacy_nlp is None:
        return tokens
    doc = spacy_nlp(' '.join(tokens))
    return [token.lemma_ for token in doc]

# Вычисление метрик
def compute_metrics(tokens_list, vocab):
    token_lengths = [len(token) for tokens in tokens_list for token in tokens]
    total_tokens = len(token_lengths)
    oov_tokens = sum(1 for tokens in tokens_list for token in tokens if token not in vocab)
    oov_percentage = oov_tokens / total_tokens * 100 if total_tokens > 0 else 0

    # Частотность токенов
    token_freq = Counter(token for tokens in tokens_list for token in tokens)
    top_tokens = dict(sorted(token_freq.items(), key=lambda x: x[1], reverse=True)[:10])

    return {
        'token_lengths': token_lengths,
        'oov_percentage': oov_percentage,
        'token_freq': top_tokens,
        'vocab_size': len(set(token for tokens in tokens_list for token in tokens))
    }

# Чтение корпуса
def read_corpus(file_path):
    texts = []
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            for line in f:
                try:
                    article = json.loads(line.strip())
                    text = article.get('preprocessed_text', article.get('cleaned_text', article.get('text', '')))
                    if text:
                        texts.append(text)
                except:
                    continue
    except Exception as e:
        st.error(f"Ошибка чтения файла: {str(e)[:100]}")
        return []
    return texts

# Генерация отчёта
def generate_report(metrics, method, language):
    report = f"# Отчёт по обработке текста\n\n"
    report += f"**Метод**: {method}\n"
    report += f"**Язык**: {language}\n"
    report += f"**Размер словаря**: {metrics['vocab_size']}\n"
    report += f"**Доля OOV**: {metrics['oov_percentage']:.2f}%\n\n"

    report += "## Распределение длин токенов\n"
    report += "![Распределение длин токенов](token_lengths.png)\n\n"

    report += "## Частотность токенов (топ-10)\n"
    report += "| Токен | Частота |\n"
    report += "|-------|---------|\n"
    for token, freq in metrics['token_freq'].items():
        report += f"| {token} | {freq} |\n"

    return report

# Основной интерфейс Streamlit
def main():
    if not is_streamlit_running():
        st.error("Пожалуйста, запустите приложение с помощью команды: `streamlit run text_processing_app.py`")
        st.info("Если вы используете Google Colab, следуйте инструкциям ниже для настройки ngrok.")
        return

    st.title("Интерактивная обработка текста")

    # Загрузка ресурсов
    ensure_nltk_resources()

    # Выбор языка
    language = st.selectbox("Выберите язык", ["Русский", "Английский"])

    # Загрузка датасета
    st.subheader("Загрузка датасета")
    use_default = st.checkbox("Использовать предзагруженный датасет (preprocessed_corpus.jsonl)")
    uploaded_file = st.file_uploader("Загрузите свой JSONL файл", type=["jsonl"])

    file_path = 'preprocessed_corpus.jsonl' if use_default else None
    if uploaded_file:
        with open("uploaded_corpus.jsonl", "wb") as f:
            f.write(uploaded_file.getbuffer())
        file_path = "uploaded_corpus.jsonl"

    if not file_path or not os.path.exists(file_path):
        st.error("Выберите датасет или загрузите файл!")
        return

    # Чтение корпуса
    texts = read_corpus(file_path)
    if not texts:
        st.error("Корпус пуст или не удалось загрузить данные!")
        return
    st.success(f"Загружено {len(texts)} текстов")

    # Инициализация spaCy
    spacy_nlp = ensure_spacy_model(language)

    # Выбор метода токенизации/нормализации
    methods = ['nltk', 'razdel']
    if spacy_nlp:
        methods.extend(['spacy', 'nltk_snowball', 'spacy_lem'])
    else:
        st.warning("Методы spaCy недоступны из-за отсутствия модели")

    method = st.selectbox("Выберите метод токенизации/нормализации", methods)

    # Обработка корпуса
    if st.button("Обработать"):
        st.subheader("Результаты обработки")
        tokens_list = []
        vocab = set()

        progress = st.progress(0)
        for i, text in enumerate(texts):
            if method == 'nltk':
                tokens = nltk_tokenize(text, language)
            elif method == 'razdel':
                tokens = razdel_tokenize(text, language)
            elif method == 'spacy':
                tokens = spacy_tokenize(text, language, spacy_nlp)
            elif method == 'nltk_snowball':
                tokens = snowball_stem(nltk_tokenize(text, language), language)
            elif method == 'spacy_lem':
                tokens = spacy_lemmatize(nltk_tokenize(text, language), language, spacy_nlp)
            else:
                tokens = []

            if tokens:
                tokens_list.append(tokens)
                vocab.update(tokens)
            progress.progress((i + 1) / len(texts))

        if not tokens_list:
            st.error("Ошибка обработки: токены не получены!")
            return

        # Вычисление метрик
        metrics = compute_metrics(tokens_list, vocab)

        # Визуализация
        st.subheader("Визуализация результатов")

        # Распределение длин токенов
        fig1 = px.histogram(metrics['token_lengths'], nbins=50, title="Распределение длин токенов")
        st.plotly_chart(fig1)
        fig1.write_image("token_lengths.png")

        # Частотность токенов
        token_freq_df = pd.DataFrame(metrics['token_freq'].items(), columns=['Токен', 'Частота'])
        fig2 = px.bar(token_freq_df, x='Токен', y='Частота', title="Частотность токенов (топ-10)")
        st.plotly_chart(fig2)

        # Доля OOV
        fig3 = go.Figure(data=[
            go.Bar(name='OOV', x=['OOV'], y=[metrics['oov_percentage']]),
            go.Bar(name='In-Vocab', x=['In-Vocab'], y=[100 - metrics['oov_percentage']])
        ])
        fig3.update_layout(title="Доля OOV", barmode='stack')
        st.plotly_chart(fig3)

        # Генерация отчёта
        report = generate_report(metrics, method, language)
        st.markdown(report)

        # Экспорт отчёта
        st.subheader("Экспорт отчёта")
        report_html = f"<html><body>{report}</body></html>"
        with open("report.html", "w", encoding='utf-8') as f:
            f.write(report_html)
        st.download_button("Скачать HTML", report_html, file_name="report.html", mime="text/html")

        try:
            pdfkit.from_file("report.html", "report.pdf")
            with open("report.pdf", "rb") as f:
                st.download_button("Скачать PDF", f, file_name="report.pdf", mime="application/pdf")
        except Exception as e:
            st.warning(f"Не удалось создать PDF: {str(e)[:100]}")

if __name__ == '__main__':
    main()

