In [None]:
from pprint import pprint
from lxml import html
import requests

In [None]:
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
URL_YANDES_NEWS = 'https://yandex.ru/news'
URL_LENTA_NEWS = 'https://lenta.ru/'

In [None]:
headers = {
    'User-Agent': USER_AGENT,
}

In [None]:
def get_content_dom_from_html_text(url, headers=None, params=None):
    response = requests.get(url, headers=headers, params=params)
    content_dom = html.fromstring(response.text)
    
    return content_dom


def parser_yandex_news(content_dom):
    news_container = content_dom.xpath("//section//div[contains(@class, 'mg-grid__item')]")

    yandex_news = []
    for new_container in news_container:
        new_source = new_container.xpath(".//div[@class='mg-card-footer__left']//a/text()")[0]
        new_text = new_container.xpath(".//h2/a/text()")[0].replace('\xa0', ' ')
        new_url = new_container.xpath(".//h2/a/@href")[0]
        new_date = new_container.xpath(".//span[@class='mg-card-source__time']/text()")[0]
        
        news_dict = {
            'new_source': new_source,
            'new_text': new_text,
            'new_url': new_url,
            'Дата new_date': new_date,
        }
        
        yandex_news.append(news_dict)
        
    return yandex_news


def parser_lenta_news(content_dom):
    news_container = content_dom.xpath("//a[contains(@class, 'card-')]")

    lenta_news = []
    for new_container in news_container:
        new_source = new_container.xpath(".//*[name()='svg']/*[name()='use']/attribute::*")
        if len(new_source) == 1:
            new_source = new_source[0].split('ui-label_')
            if len(new_source) == 2:
                new_source = new_source[1]
            else:
                new_source = 'Lenta.ru'
        else:
            new_source = 'Lenta.ru'

            
        new_text = new_container.xpath(".//span[contains(@class, 'card-')]/text()")
        if len(new_text) == 1:
            new_text = new_text[0]
        else:
            new_text = None
            
        new_url = URL_LENTA_NEWS + new_container.xpath("./@href")[0]
        
        new_date = new_container.xpath(".//time/text()")
        if len(new_date) == 1:
            new_date = new_date[0]
        else:
            new_date = None
        
        news_dict = {
            'new_source': new_source,
            'new_text': new_text,
            'new_url': new_url,
            'Дата new_date': new_date,
        }
        
        lenta_news.append(news_dict)
        
    return lenta_news


def get_news(content_dom, parser_name='yandex'):
    result = None
    
    if parser_name == 'yandex':
        result = parser_yandex_news(content_dom)
    if parser_name == 'lenta':
        result = parser_lenta_news(content_dom)
    
    return result

In [None]:
dom = get_content_dom_from_html_text(URL_YANDES_NEWS, headers=headers)

In [None]:
get_news(dom, 'yandex')

[{'new_source': 'Lenta.ru',
  'new_text': 'Дипломат Беляев заявил, что заморозка активов России в Британии приведет к нестабильности',
  'new_url': 'https://yandex.ru/news/story/Diplomat_Belyaev_zayavil_chto_zamorozka_aktivov_Rossii_vBritanii_privedet_knestabilnosti--49500e894c0aa339d34ce5915d228c29?lang=ru&rubric=index&fan=1&stid=kdwxAQxuQXwULh1wFY-Q&t=1662441365&tt=true&persistent_id=221775207&story=3205fef0-21d4-543f-b3b5-f163c912b6c8',
  'Дата new_date': '08:13'},
 {'new_source': 'РИА Новости',
  'new_text': 'Япония направила России протест из-за отмены безвизового режима посещения Курил',
  'new_url': 'https://yandex.ru/news/story/YAponiya_napravila_Rossii_protest_iz-zaotmeny_bezvizovogo_rezhima_poseshheniya_Kuril--9eac6378e206dff7289568fde3a7617a?lang=ru&rubric=index&fan=1&stid=F5A7ybOFk4YwDAt7xOQR&t=1662441365&tt=true&persistent_id=221773409&story=0dc68916-9510-532e-b3aa-c6d04250cf26',
  'Дата new_date': '07:56'},
 {'new_source': 'Lenta.ru',
  'new_text': 'Спасатели вертолетом э

In [None]:
dom, response = get_content_dom_from_html_text(URL_LENTA_NEWS, headers=headers)

In [None]:
get_news(dom, 'lenta')

[{'new_source': 'Lenta.ru',
  'new_text': None,
  'new_url': 'https://lenta.ru//news/2022/09/06/actives/',
  'Дата new_date': '08:08'},
 {'new_source': 'Lenta.ru',
  'new_text': 'Путин прибыл на учения «Восток-2022»',
  'new_url': 'https://lenta.ru//news/2022/09/06/putinnn/',
  'Дата new_date': '08:21'},
 {'new_source': 'Lenta.ru',
  'new_text': 'В РСПП назвали доллар токсичной валютой',
  'new_url': 'https://lenta.ru//news/2022/09/06/dollar/',
  'Дата new_date': '08:21'},
 {'new_source': 'Lenta.ru',
  'new_text': 'Двух россиян завалило землей в яме',
  'new_url': 'https://lenta.ru//news/2022/09/06/zemlia/',
  'Дата new_date': '08:17'},
 {'new_source': 'Lenta.ru',
  'new_text': 'Москвич рассказал о своем разочаровании от работы в Сочи',
  'new_url': 'https://lenta.ru/https://moslenta.ru/news/lyudi/rabota-v-sochi-06-09-2022.htm/',
  'Дата new_date': '08:09'},
 {'new_source': 'Lenta.ru',
  'new_text': 'Репортерша испугалась ворвавшейся в эфир пчелы и насмешила зрителей',
  'new_url': 'ht