### ДЗ 2


Написать приложение или функцию, которое собирает основные новости с сайта на выбор lenta.ru или yandex-новости. Для парсинга использовать xpath. Структура данных должна содержать:

название источника,
наименование новости,
ссылку на новость,
дата публикации

In [1]:
from lxml import html
import requests
from datetime import datetime

In [2]:
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'
}

LENTA_URL = 'https://lenta.ru'

In [3]:
def load_data(url, headers=None):
    response = requests.get(url, headers=headers)
    dom = html.fromstring(response.text)    
    return dom

In [20]:
def get_item_from_node(node):
    if len(node) == 1:
        return node[0]
    else:
        return None  

In [30]:
def get_news_from_lenta(content_dom, url):
    
    # Новостями являются все ссылки, которые содержат класс, начинающийся с card-
    news = content_dom.xpath("//a[contains(@class, 'card-')]")
    
    # Список с результатами парсинга. Каждый элемент - отдельная новость.
    result = []
    
    # Формируем данные каждой новости.
    for item in news:
        
        # Заголовок новости.
        text = item.xpath(".//span[contains(@class, 'card-')]/text()")        
        text = get_item_from_node(text)
        
        # Ссылка на новость.
        link = url + item.xpath("./@href")[0]
        
        # Дата публикации.
        date = item.xpath(".//time/text()")
        date = get_item_from_node(date)
        
        result_item = {
            'source': url,
            'text': text,
            'link': link,
            'date': date,
        }
        
        result.append(result_item)
        
    return result

In [31]:
content_from_lenta = load_data(LENTA_URL, HEADERS)

In [32]:
get_news_from_lenta(content_from_lenta, LENTA_URL)

[{'source': 'https://lenta.ru',
  'text': None,
  'link': 'https://lenta.ru/news/2022/12/21/shoigu_vozrast/',
  'date': '16:42'},
 {'source': 'https://lenta.ru',
  'text': 'Еще одна страна разрешила высвободить часть средств россиян из-под блокировки',
  'link': 'https://lenta.ru/news/2022/12/21/vusvobod/',
  'date': '18:11'},
 {'source': 'https://lenta.ru',
  'text': 'Подсчитаны потери Великобритании из-за Брексита',
  'link': 'https://lenta.ru/news/2022/12/21/brexithurts/',
  'date': '18:09'},
 {'source': 'https://lenta.ru',
  'text': 'Предложение об изменении призывного возраста в России объяснили',
  'link': 'https://lenta.ru/news/2022/12/21/shvtkn/',
  'date': '18:08'},
 {'source': 'https://lenta.ru',
  'text': 'Сервис «Яндекс.Еда» признали потерпевшим по делу об утечке данных',
  'link': 'https://lenta.ru/news/2022/12/21/yandex/',
  'date': '18:08'},
 {'source': 'https://lenta.ru',
  'text': 'Стали известны подробности возможного ухода Мбаппе из ПСЖ',
  'link': 'https://lenta.ru/