In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
from datetime import datetime

#Настройки
date = "10.04.2025"
project = "rbcnews"
material = "article"
page_limit = 2
exclude_categories = ["Политика", "Экономика", "Общество", "Спорт"]

def build_url(page):
    return (
        f"https://www.rbc.ru/search/ajax/?"
        f"project={project}&category=&dateFrom={date}&dateTo={date}"
        f"&page={page}&query=&material={material}"
    )

def parse_article_text(url):
    try:
        html = requests.get(url).text
        soup = BeautifulSoup(html, "lxml")
        paragraphs = soup.find_all("p")
        return " ".join(p.text.strip() for p in paragraphs if p.text.strip())
    except:
        return ""

#Сбор данных
all_articles = []

for page in range(page_limit):
    response = requests.get(build_url(page))
    if response.status_code != 200:
        break
    items = response.json().get("items", [])
    if not items:
        break
    for item in items:
        cat = item.get("category")
        if cat and cat in exclude_categories:
            continue
        all_articles.append(item)

#В таблицу
df = pd.DataFrame(all_articles)
df["publish_date"] = pd.to_datetime(df["publish_date"])
df["text"] = ""

#Результат
print(f"Скачано статей: {len(df)}")
df[["title", "category", "publish_date", "fronturl", "text"]].head()


Скачано статей: 7


Unnamed: 0,title,category,publish_date,fronturl,text
0,Роскомнадзор рекомендовал отказаться от иностр...,Технологии и медиа,2025-04-10 23:38:22+03:00,https://www.rbc.ru/rbcfreenews/67f824f29a79475...,
1,Вертолёт рухнул в реку Гудзон у города Джерси-...,,2025-04-10 23:03:59+03:00,https://www.rbc.ru/?video_id=67f824609a7947856...,
2,Первая кабинетная встреча Трампа после объявле...,,2025-04-10 20:58:46+03:00,https://www.rbc.ru/?video_id=67f807299a7947aac...,
3,Мужчина укусил военкома за ногу в Ивано-Франко...,,2025-04-10 20:14:46+03:00,https://www.rbc.ru/?video_id=67f7fc9c9a7947ce0...,
4,Медведев назвал угрозой мигрантов с неснятой и...,,2025-04-10 19:47:01+03:00,https://www.rbc.ru/?video_id=67f7f6279a7947163...,


In [None]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
from datetime import datetime, timedelta

#Настройки
date_from = "27.06.2024"
date_to = "12.04.2025"
project = "rbcnews"
material = "article"
page_limit = 2
exclude_categories = ["Политика", "Экономика", "Общество", "Спорт", "Технологии и медиа", "Финансы", "Бизнес"]

def build_url(date, page):
    return (
        f"https://www.rbc.ru/search/ajax/?"
        f"project={project}&category=&dateFrom={date}&dateTo={date}"
        f"&page={page}&query=&material={material}"
    )

def parse_article_text(url):
    try:
        html = requests.get(url).text
        soup = BeautifulSoup(html, "lxml")
        paragraphs = soup.find_all("p")
        return " ".join(p.text.strip() for p in paragraphs if p.text.strip())
    except:
        return ""

#Сбор данных за период
all_articles = []

start = datetime.strptime(date_from, "%d.%m.%Y")
end = datetime.strptime(date_to, "%d.%m.%Y")

while start <= end:
    current_date = start.strftime("%d.%m.%Y")
    print(f"🔎 Обработка {current_date}")

    for page in range(page_limit):
        response = requests.get(build_url(current_date, page))
        if response.status_code != 200:
            break
        items = response.json().get("items", [])
        if not items:
            break
        for item in items:
            cat = item.get("category")
            if cat and cat in exclude_categories:
                continue
            all_articles.append(item)

    start += timedelta(days=1)

#В таблицу
df = pd.DataFrame(all_articles)
df["publish_date"] = pd.to_datetime(df["publish_date"], errors="coerce")
df["text"] = ""

#Результат
print(f"Скачано статей: {len(df)}")
df[["title", "category", "publish_date", "fronturl", "text"]].head(20)


🔎 Обработка 27.06.2024
🔎 Обработка 28.06.2024
🔎 Обработка 29.06.2024
🔎 Обработка 30.06.2024
🔎 Обработка 01.07.2024
🔎 Обработка 02.07.2024
🔎 Обработка 03.07.2024
🔎 Обработка 04.07.2024
🔎 Обработка 05.07.2024
🔎 Обработка 06.07.2024
🔎 Обработка 07.07.2024
🔎 Обработка 08.07.2024
🔎 Обработка 09.07.2024
🔎 Обработка 10.07.2024
🔎 Обработка 11.07.2024
🔎 Обработка 12.07.2024
🔎 Обработка 13.07.2024
🔎 Обработка 14.07.2024
🔎 Обработка 15.07.2024
🔎 Обработка 16.07.2024
🔎 Обработка 17.07.2024
🔎 Обработка 18.07.2024
🔎 Обработка 19.07.2024
🔎 Обработка 20.07.2024
🔎 Обработка 21.07.2024
🔎 Обработка 22.07.2024
🔎 Обработка 23.07.2024
🔎 Обработка 24.07.2024
🔎 Обработка 25.07.2024
🔎 Обработка 26.07.2024
🔎 Обработка 27.07.2024
🔎 Обработка 28.07.2024
🔎 Обработка 29.07.2024
🔎 Обработка 30.07.2024
🔎 Обработка 31.07.2024
🔎 Обработка 01.08.2024
🔎 Обработка 02.08.2024
🔎 Обработка 03.08.2024
🔎 Обработка 04.08.2024
🔎 Обработка 05.08.2024
🔎 Обработка 06.08.2024
🔎 Обработка 07.08.2024
🔎 Обработка 08.08.2024
🔎 Обработка

Unnamed: 0,title,category,publish_date,fronturl,text
0,В Коми укладывают новый путь на месте ЧП с пое...,,2024-06-27 22:02:47+03:00,https://www.rbc.ru/?video_id=667db77f9a794732c...,
1,Павел Дуров приехал в Астану,,2024-06-27 19:43:56+03:00,https://www.rbc.ru/?video_id=667d96f49a7947710...,
2,Крупный пожар на западе Москвы,,2024-07-01 21:48:01+03:00,https://www.rbc.ru/?video_id=6682f9fc9a79479a4...,
3,"Молния попала в ""Лахта Центр"" в Санкт-Петербурге",,2024-07-01 21:34:21+03:00,https://www.rbc.ru/?video_id=6682f6d69a794720d...,
4,Летевший в Уругвай самолет экстренно сел в Бра...,,2024-07-01 20:35:55+03:00,https://www.rbc.ru/?video_id=6682e9129a7947dd0...,
5,Ураган и ливень в Петербурге,,2024-07-01 19:24:50+03:00,https://www.rbc.ru/?video_id=6682d86b9a794737f...,
6,Болельщики встречают сборную Грузии,,2024-07-02 22:54:14+03:00,https://www.rbc.ru/?video_id=66845c749a79477e8...,
7,Массовая гибель креветок на берегу Владивостока,,2024-07-02 20:03:15+03:00,https://www.rbc.ru/?video_id=668432ed9a7947c8a...,
8,В Москве начался ливень с грозой,,2024-07-03 22:05:47+03:00,https://www.rbc.ru/?video_id=6685a11c9a7947bd6...,
9,Тренера молодёжной сборной по борьбе задержали...,,2024-07-03 20:48:05+03:00,https://www.rbc.ru/?video_id=66858e639a7947eac...,


In [None]:
df["publish_date"] = df["publish_date"].dt.tz_localize(None)
df.to_excel("rbc_parsed.xlsx", index=False)