<a href="https://colab.research.google.com/github/Olyaq/-/blob/main/Untitled17.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import datetime as dt
import requests
from bs4 import BeautifulSoup
import pandas as pd

BASE = "https://lenta.ru"
def parse_full_text(url: str) -> str:
    """Парсинг полного текста новости по ссылке."""
    try:
        r = requests.get(url, timeout=5)
        soup = BeautifulSoup(r.content, "html.parser")

        #Ищем параграфы с текстом
        blocks = soup.find_all("p", class_=lambda x: x and "body" in x)
        if not blocks:
            blocks = soup.find_all("div", class_=lambda x: x and "body" in x)

        text = " ".join(b.get_text(strip=True) for b in blocks)
        return text[:500]
    except Exception:
        return ""


def parse_news(news_count=10, date_str: str | None = None) -> pd.DataFrame:
    if date_str:
        y, m, d = map(int, date_str.split("-"))
        url = f"{BASE}/news/{y:04d}/{m:02d}/{d:02d}/"
    else:
        url = BASE + "/"

    r = requests.get(url)
    soup = BeautifulSoup(r.content, "html.parser")
    news = []

    if date_str:
        # Все ссылки, относящиеся к этой дате
        prefix = f"/news/{y:04d}/{m:02d}/{d:02d}/"
        items = [a for a in soup.find_all("a", href=True)
                 if a["href"].startswith(prefix)]
    else:
        # Карточки новостей на главной
        items = soup.find_all("a", class_=lambda x: x and ("card" in x or "toptitle" in x))

    for a in items:
        if len(news) >= news_count:
            break

        # заголовок
        title_elem = a.find(["h3", "span"]) or a
        title = title_elem.get_text(strip=True)
        if not title:
            continue

        # ссылка
        link = a.get("href")
        if link and not link.startswith("http"):
            link = BASE + link

        full_text = parse_full_text(link) if link else ""

        news.append({
            "date": date_str or dt.date.today().isoformat(),
            "title": title,
            "link": link,
            "full_text": full_text
        })

    return pd.DataFrame(news)


if __name__ == "__main__":
    date_input = input("Введите дату YYYY-MM-DD (или Enter, чтобы не использовать дату): ").strip()

    if date_input:
        n = int(input("Сколько новостей собрать для этой даты: "))
        df = parse_news(news_count=n, date_str=date_input)
    else:
        n = int(input("Сколько новостей собрать с главной страницы: "))
        df = parse_news(news_count=n)

    print(f"\nСобрано новостей: {len(df)}")
    for i, row in df.iterrows():
        print(f"{i+1}. {row['title']}")
        if row["full_text"]:
            print("   Текст:", row["full_text"][:100], "...")
        print()

    df.to_csv("news.csv", index=False, encoding="utf-8")
    print("Данные сохранены в 'news.csv'")


Введите дату YYYY-MM-DD (или Enter, чтобы не использовать дату): 2005-07-04
Сколько новостей собрать для этой даты: 4

Собрано новостей: 4
1. В Волгоградской области двое рабочих подорвались на минометной мине
   Текст: Два человека погибли в результате взрыва боеприпаса времен Великой Отечественной войны в Волгоградск ...

2. Христенко обещает "ничего не делать с правым рулем"
   Текст: Правительство России не собирается запрещать автомобили с правым рулем. Об этом в воскресенье вечеро ...

3. Назарбаев собирается вновь стать президентом
   Текст: Президент Казахстана Нурсултан Назарбаев заявил в воскресенье о своей готовности баллотироваться на  ...

4. Министерство туризма облегчит россиянам въезд в Израиль
   Текст: В воскресенье специальная комиссия, образованная министром туризма Израиля Авраамом Гиршзоном, предс ...

Данные сохранены в 'news.csv'
