In [1]:
from bs4 import BeautifulSoup
import requests
import json
from lxml import etree
from pymongo import MongoClient
from datetime import datetime, timedelta

## football24.ru

ивлекаем новости, отправляем в mongo

используем xpath

In [2]:
# соединение с базой
client = MongoClient('mongodb://admin:secret@localhost:27017/')
# Access a database named 'lxml_db'
db = client.lxml_db
# Access a collection named 'articles_collection'
db_collection = db.articles_collection


In [3]:
# удалим все записи в коллекции
db_collection.delete_many({})

DeleteResult({'n': 20, 'ok': 1.0}, acknowledged=True)

In [4]:
def load_mongo(db_collection) -> tuple[int,int]:
    '''
    возвращвем кол-во новых записей и 
    кол-во записей обнаруженных на страничках сайта
    '''

    ins_cnt : int = 0;
    all_cnt : int = 0;

    headers = {
        "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36"
    }

    ## странички со списком новостей
    for p in range(1,2):
        resp = requests.get(f'https://football24.ru/articles/page/{p}/',headers=headers)

        assert resp.status_code == 200

        soap = BeautifulSoup(resp.text, 'lxml')
        dom = etree.HTML(str(soap))

        # парсим страничку
        for post in dom.xpath('//div[@class="post"]'):

            url = post.xpath('.//h2[@itemprop="headline"]/a/@href')
            url_text = post.xpath('.//h2[@itemprop="headline"]/a/text()')
            date_pub = post.xpath('.//time[@itemprop="datePublished"]/@datetime')
            descr = post.xpath('.//p[@itemprop="description"]/text()')

            url = str(url[0])

            all_cnt += 1            
            
            # проверяем, существует ли уже запись с таким url
            if db_collection.find_one({'url': url}) is None:

                ins_cnt += 1

                # Insert a single document
                db_collection.insert_one({
                    'url': url,
                    'title': str(url_text[0]),
                    'date_published': str(date_pub[0]),
                    'description': str(descr[0])
                })
    
    return ins_cnt, all_cnt

In [5]:
ins_cnt, all_cnt = load_mongo(db_collection)
print(f'Новых записей : {ins_cnt}')
print(f'Статей на страницах сайта : {all_cnt}')

Новых записей : 20
Статей на страницах сайта : 20


In [6]:
# проверим, сколько записей в базе
rec_cnt = db_collection.count_documents({}) 
print(f'Записей в базе : {rec_cnt}')

Записей в базе : 20


In [7]:
# удалим пять записей и повторим загрузку
to_delete = db_collection.find({}, {'_id': 1}).limit(5)
ids_to_delete = [doc['_id'] for doc in to_delete]
# Delete the documents based on their IDs
result = db_collection.delete_many({'_id': {'$in': ids_to_delete}})

In [8]:
# проверим, сколько записей в базе
rec_cnt = db_collection.count_documents({}) 
print(f'Записей в базе : {rec_cnt}')

Записей в базе : 15


In [9]:
ins_cnt, all_cnt = load_mongo(db_collection)
print(f'Новых записей : {ins_cnt}')
print(f'Статей на страницах сайта : {all_cnt}')

Новых записей : 5
Статей на страницах сайта : 20


In [10]:
# перечислим статьи за последние два дня
current_datetime = datetime.now()
last_datetime = current_datetime - timedelta(days=2)
last_datetime

datetime.datetime(2025, 11, 5, 0, 43, 51, 873080)

In [11]:
for doc in db_collection.find({"date_published": {"$gte": last_datetime.isoformat()}}):
    print(doc['date_published'], doc['title'])


2025-11-06T12:00 В «Балтике» – первый особенный игрок. Справедливо ли Карпин игнорирует Петрова?
2025-11-05T12:10 У Сафонова – жизнь-мечта в «ПСЖ»: выучил язык, нашел баню, посмотрел Голливуд, встретился с Водяновой


In [12]:
# Close the connection
client.close()