<a href="https://colab.research.google.com/github/KattyDan/hw.friday1/blob/main/untitled3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:

!pip install requests beautifulsoup4 pandas lxml

import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
import time
import re

# Настройки
BASE_URL = 'https://ria.ru'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0 Safari/537.36'
}

def parse_ria_date(date_str):
    """Парсинг даты: поддержка 'Сегодня', 'Вчера', '5 ноября 2025' и т.д."""
    if not date_str:
        return None
    now = datetime.now()
    date_str = date_str.strip().replace('\xa0', ' ')

    if 'Сегодня' in date_str:
        time_part = re.search(r'\d{1,2}:\d{2}', date_str)
        if time_part:
            h, m = map(int, time_part.group().split(':'))
            return now.replace(hour=h, minute=m, second=0, microsecond=0)
        return now
    elif 'Вчера' in date_str:
        time_part = re.search(r'\d{1,2}:\d{2}', date_str)
        if time_part:
            h, m = map(int, time_part.group().split(':'))
            return (now - timedelta(days=1)).replace(hour=h, minute=m, second=0, microsecond=0)
        return now - timedelta(days=1)
    else:
        months = {
            'января': '01', 'февраля': '02', 'марта': '03', 'апреля': '04',
            'мая': '05', 'июня': '06', 'июля': '07', 'августа': '08',
            'сентября': '09', 'октября': '10', 'ноября': '11', 'декабря': '12'
        }
        for ru, num in months.items():
            date_str = date_str.replace(ru, num)
        try:

            date_str = re.sub(r'[^\d\s:]', ' ', date_str)
            date_str = re.sub(r'\s+', ' ', date_str).strip()
            parts = date_str.split()
            if len(parts) >= 3:
                day, month, year = parts[0], parts[1], parts[2]
                hour, minute = ('00', '00')
                if len(parts) >= 5:
                    hour, minute = parts[3], parts[4]
                dt_str = f"{day} {month} {year} {hour}:{minute}"
                return datetime.strptime(dt_str, "%d %m %Y %H:%M")
            else:
                # Если нет года — добавляем текущий
                day, month = parts[0], parts[1]
                hour, minute = ('00', '00')
                if len(parts) >= 4:
                    hour, minute = parts[2], parts[3]
                dt_str = f"{day} {month} {now.year} {hour}:{minute}"
                return datetime.strptime(dt_str, "%d %m %Y %H:%M")
        except Exception as e:
            print(f"Ошибка парсинга даты '{date_str}': {e}")
            return None

def get_news_list(max_news=None, since_date=None):
    """Парсит список новостей с главной страницы RIA.RU (актуально на ноябрь 2025)."""
    print("Загрузка главной страницы RIA.RU...")
    response = requests.get(BASE_URL, headers=HEADERS)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'lxml')

    # Новые селекторы: ищем все ссылки внутри article или с классом, похожим на новость
    news_links = soup.select('a[href^="/"]:has(span), a[href^="https://ria.ru/"]:has(span)')

    if not news_links:
        # Резервный вариант: все ссылки с / и длиной > 20
        news_links = [a for a in soup.find_all('a', href=True)
                      if a['href'].startswith('/') and len(a['href']) > 20 and '/tags/' not in a['href']]

    print(f"Найдено потенциальных новостей: {len(news_links)}")

    parsed = []
    for a in news_links:
        if max_news and len(parsed) >= max_news:
            break

        title_tag = a.find('span')
        if not title_tag:
            continue
        title = title_tag.get_text(strip=True)
        if not title or len(title) < 10:  # пропускаем короткие заголовки
            continue

        href = a['href']
        url = href if href.startswith('http') else BASE_URL + href

        # Ищем дату — часто рядом с заголовком или в родительском блоке
        date_str = None
        date_candidate = a.find_next(string=re.compile(r'(Сегодня|Вчера|\d+\s+\w+)'))
        if date_candidate:
            date_str = date_candidate.strip()
        else:
            # Проверяем родительские элементы
            parent = a.find_parent()
            if parent:
                date_elem = parent.find(string=re.compile(r'(Сегодня|Вчера|\d+\s+\w+)'))
                if date_elem:
                    date_str = date_elem.strip()

        pub_date = parse_ria_date(date_str)

        # Фильтр по дате
        if since_date and pub_date and pub_date < since_date:
            if max_news is None:
                break

        parsed.append({
            'title': title,
            'url': url,
            'date_str': date_str,
            'date': pub_date
        })

    print(f"Отобрано новостей: {len(parsed)}")
    return parsed

def get_article_text(url):
    """Парсинг текста статьи на RIA.RU."""
    try:
        resp = requests.get(url, headers=HEADERS, timeout=10)
        soup = BeautifulSoup(resp.text, 'lxml')
        # Текст статьи — в <div class="article__body"] или <div class="content"]
        text_blocks = soup.select('div.article__body > div:not([class])') or \
                      soup.select('div.article__text') or \
                      soup.select('div[data-type="text"]') or \
                      soup.select('div.content > p')

        if not text_blocks:
            # Если не нашли — попробуем все параграфы в основном контенте
            main_content = soup.select_one('div.article__body, div.content')
            if main_content:
                text_blocks = main_content.find_all('p')

        text = '\n'.join([p.get_text(strip=True) for p in text_blocks if p.get_text(strip=True)])
        return text if text else "Текст не найден"
    except Exception as e:
        return f"Ошибка загрузки текста: {str(e)}"

MAX_NEWS = 7
SINCE_DATE_STR = None

#  запуск

since_date = datetime.strptime(SINCE_DATE_STR, "%Y-%m-%d") if SINCE_DATE_STR else None

if SINCE_DATE_STR:
    print(f"Парсинг новостей с {SINCE_DATE_STR}")
else:
    print(f"Парсинг {MAX_NEWS} последних новостей")

news_list = get_news_list(max_news=MAX_NEWS, since_date=since_date)

results = []
for i, news in enumerate(news_list, 1):
    print(f"[{i}/{len(news_list)}] {news['title'][:60]}...")
    text = get_article_text(news['url'])
    results.append({
        'title': news['title'],
        'url': news['url'],
        'date': news['date'],
        'text': text
    })
    time.sleep(0.8)

# Создание DataFrame
df = pd.DataFrame(results)

# Вывод результата
print("\n Результат:")
display(df[['title', 'date', 'url']].fillna(''))

# Сохранение
df.to_csv("ria_news.csv", index=False, encoding='utf-8-sig')


Парсинг 7 последних новостей
Загрузка главной страницы RIA.RU...
Найдено потенциальных новостей: 56
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Ошибка парсинга даты '67': list index out of range
Отобрано новостей: 7
[1/7] Происшествия...
[2/7] Провалы на фронте должны убедить Киев договариваться сейчас,...
[3/7] Глава ФНС доложил Путину о росте налоговых доходов...
[4/7] ВС России сорвали попытки ВСУ вырваться из окружения в Димит...
[5/7] Гарантии безопасности США для Украины не включают военную по...
[6/7] Индийский истребитель разбился на авиашоу в Дубае...
[7/7] Украина изменила один из пунктов плана США по Украине, пишет...

 Результат:


Unnamed: 0,title,date,url
0,Происшествия,,https://ria.ru/incidents/
1,Провалы на фронте должны убедить Киев договари...,,https://ria.ru/20251121/peskov-2056593106.html
2,Глава ФНС доложил Путину о росте налоговых дох...,,https://ria.ru/20251121/putin-2056577231.html
3,ВС России сорвали попытки ВСУ вырваться из окр...,,https://ria.ru/20251121/okruzhenie-2056571517....
4,Гарантии безопасности США для Украины не включ...,,https://ria.ru/20251121/ssha-2056633596.html
5,Индийский истребитель разбился на авиашоу в Дубае,,https://ria.ru/20251121/istrebitel-2056573888....
6,Украина изменила один из пунктов плана США по ...,,https://ria.ru/20251121/ukraina-2056496234.html


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

def parse_news(news_count=5):
    base_url = "https://lenta.ru"
    news_list = []
    page = 0

    while len(news_list) < news_count:
        url = f"{base_url}/parts/news/{page}/" if page > 0 else f"{base_url}/parts/news/"

        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        news_cards = soup.find_all('a', class_=['card-full-news', 'card-mini-news', 'card-big-news'])

        for card in news_cards:
            if len(news_list) >= news_count:
                break

            # Извлекаем заголовок и добавляем пробелы
            title = card.get('title', '').strip()
            if not title:
                title = card.get_text(' ', strip=True)  # Добавляем пробелы между элементами

            link = card.get('href', '')
            if link and not link.startswith('http'):
                link = base_url + link

            if title:
                text = get_news_text(link)
                news_list.append({'title': title, 'link': link, 'text': text})

        page += 1

    return pd.DataFrame(news_list)

def get_news_text(url):
    try:
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')

        content = soup.find('div', class_='topic-body__content') or soup.find('article')
        if content:
            paragraphs = content.find_all('p')
            text = ' '.join([p.get_text(' ', strip=True) for p in paragraphs])  # Добавляем пробелы

            # Дополнительная обработка: добавляем пробелы между словами, идущими подряд без пробелов
            text = re.sub(r'([а-яёa-z])([А-ЯЁA-Z])', r'\1 \2', text)
            return text

    except:
        pass

    return ""

# Парсим новости
df = parse_news(5)

# Вывод результата
print("Последние новости с Lenta.ru:")
for i, row in df.iterrows():
    print(f"{i+1}. ЗАГОЛОВОК: {row['title']}")
    print(f"   ССЫЛКА: {row['link']}")
    print(f"   ТЕКСТ: {row['text'][:200]}..." if len(row['text']) > 200 else f"   ТЕКСТ: {row['text']}")
    print("-" * 80)

Последние новости с Lenta.ru:
1. ЗАГОЛОВОК: Якубович нашел новую работу 17:53 Интернет и СМИ
   ССЫЛКА: https://lenta.ru/news/2025/11/21/instructor/
   ТЕКСТ: Ведущий программы «Поле чудес» Леонид Якубович нашел новую работу. Об этом он сообщил в разговоре с MK.RU. Якубович рассказал, что начал работать инструктором на авиатренажере в Москве . «Просто мне э...
--------------------------------------------------------------------------------
2. ЗАГОЛОВОК: Бунт в партии Зеленского перешел в новую фазу 17:52 Бывший СССР
   ССЫЛКА: https://lenta.ru/news/2025/11/21/bunt-v-partii-zelenskogo-pereshel-v-novuyu-fazu/
   ТЕКСТ: Депутаты Верховной Рады от правящей партии «Слуга народа» продолжили бунт против президента Украины и лидера политической силы Владимира Зеленского . Об этом сообщил депутат украинского парламента Але...
--------------------------------------------------------------------------------
3. ЗАГОЛОВОК: Внезапное нашествие макак погубило политика 17:52 Из жизни
   ССЫЛКА: https: