In [1]:
# Написать приложение и функцию, которые собирают основные новости с сайта на выбор dzen.ru, 
# lenta.ru, mail.ru . Для парсинга использовать XPath
# Структура данных должна содержать:
# * название источника
# * наименование новости
# * ссылку на новость
# * дата публикации

In [2]:
import requests
from lxml import html
from datetime import datetime

In [3]:
# dzen.ru
url_dzen = 'https://sso.dzen.ru/install?uuid=787727f4-c3c5-49cc-b7f7-412a1217f941'

headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
    'Chrome/110.0.0.0 Safari/537.36'
}

response_dzen = requests.get(url_dzen, headers=headers)
dom_dzen = html.fromstring(response_dzen.text)
news_dzen = dom_dzen.xpath('//li/a')

In [4]:
news_dict = {}
for new in news_dzen:
    
    news_source = new.xpath('./div/@title')[0]
    news_name = new.xpath('./div/span/text()')[0]
    news_link = new.xpath('./@href')[0]
    # дата публикации не указывается в информации о новости
    
    news_dict[news_name] = {
        'source': news_source, 
        'link': news_link,
    }
    # структура словаря не позволяет создавать объекты с одинаковыми ключами, поэтому новости 
    # будут дублироваться только в том случае, если они представляют собой разные объекты,
    # например, напечатаны в разных источниках

day = datetime.today().day
print(f'Новости на dzen.ru за {day} февраля 2023\n')
for new in news_dict:
    print(f'{new}\nИсточник: {news_dict[new]["source"]}\nСсылка: {news_dict[new]["link"]}\n')

Новости на dzen.ru за 17 февраля 2023

Захарова рекомендовала Нуланд заняться темой неопознанных объектов над США, а не Украиной
Источник: ТАСС
Ссылка: https://dzen.ru/news/story/Zakharova_rekomendovala_Nuland_zanyatsya_temoj_neopoznannykh_obektov_nadSSHA_a_ne_Ukrainoj--ce2b39e7c130de4fbee1ad39a48c3122?lang=ru&from=rub_portal&wan=1&stid=__KlYhHYQAUo7Ffx5i0N&t=1676630136&persistent_id=2016160795&story=b10c8f6d-81e9-5a87-992d-37a7a9dcc3d8&issue_tld=ru&utm_referrer=dzen.ru

Силуанов: Минфин РФ готовит поправки, чтобы бизнес внёс 300 млрд рублей в бюджет
Источник: REGNUM
Ссылка: https://dzen.ru/news/story/Siluanov_Minfin_RF_gotovit_popravki_chtoby_biznes_vnyos_300_mlrd_rublej_vbyudzhet--a7b4d7b65abff2eb664e45da37e854ed?lang=ru&from=main_portal&fan=1&stid=I3ld9O_grp4kbsP3tAsD&t=1676630136&persistent_id=2010168157&story=c60ae67d-67b1-55cc-9b69-9a0668bf9e0f&issue_tld=ru&utm_referrer=dzen.ru

Журналист Сеймур Херш предупредил США о последствиях подрыва «Северных потоков»
Источник: RT на русско

In [5]:
# lenta.ru
url_lenta = 'https://lenta.ru/'

response_lenta = requests.get(url_lenta, headers=headers)
dom_lenta = html.fromstring(response_lenta.text)
news_lenta = dom_lenta.xpath('//section/div/div/div/a')


In [6]:
news_dict = {}
for new in news_lenta:
    # в партнерских новостях издание указано изображением, спарсить его буквами - сложная 
    # задача  
    news_name = new.xpath('./div/span/text()')[0]
    news_name = news_name[1:] if news_name.startswith(' ') else news_name
    news_link = new.xpath('./@href')[0]
    news_link = news_link if news_name.startswith('http') else f'https://lenta.ru{news_link}'

    news_dict[news_name] = {
        'link': news_link,
    }

print(f'Новости на lenta.ru за {day} февраля 2023\n')
for new in news_dict:
    print(f'{new}\nСсылка: {news_dict[new]["link"]}\n')

Новости на lenta.ru за 17 февраля 2023

Российский военкор оценил смену командующего Центральным военным округом
Ссылка: https://lenta.ru/news/2023/02/17/mor/

Блогерша сделала пластику век за почти 300 тысяч рублей и разозлила подписчиков
Ссылка: https://lenta.ru/news/2023/02/17/razozlila/

Обнаружено космическое облако-«головастик»
Ссылка: https://lenta.ru/news/2023/02/17/hole/

В российских школах появится должность советника по воспитанию
Ссылка: https://lenta.ru/news/2023/02/17/vospitanie/

Умер концертный директор и близкий друг Филиппа Киркорова
Ссылка: https://lenta.ru/news/2023/02/17/rybak_died/

Стало известно о состоянии Романа Костомарова
Ссылка: https://lenta.ruhttps://moslenta.ru/news/lyudi/sostoyanie-kostomarova-17-02-2023.htm

УЕФА прокомментировал отсутствие у России баллов в рейтинге за сезон-2022/2023
Ссылка: https://lenta.ru/news/2023/02/17/uefa/

Росгвардия нашла в ДНР замаскированные схроны украинских военных
Ссылка: https://lenta.ru/news/2023/02/17/rosgvvv/

Финл