In [1]:
from bs4 import BeautifulSoup
import requests
import json
from lxml import etree
import psycopg2
from psycopg2.extras import NamedTupleCursor
from datetime import datetime, timedelta

## football24.ru

ивлекаем новости, отправляем в postgres

используем xpath

создана схема и пользователь spider  
в схеме spider создана табличка fb24_articles  

postgres:  
create user spider with password 'secret';  
create schema spider authorization spider;   

spider:  
create table fb24_articles(  
    url varchar(1000) primary key,  
    title varchar(5000) not null,  
    date_published date not null,  
    description varchar(32000)  
);


In [2]:
# соединение с базой
conn = psycopg2.connect(
            host="localhost",
            database="study24",
            user="spider",
            password="secret"
        )
# или так
# conn = psycopg2.connect('postgresql://user:password@host:port/database_name')

In [3]:
print(f'{conn.autocommit=} {conn.isolation_level=}')

conn.autocommit=False conn.isolation_level=None


In [4]:
# The cursor is used to execute SQL queries and fetch results
cur = conn.cursor()

In [5]:
# удалим все записи из таблички
cur.execute('delete from fb24_articles')
conn.commit()

In [6]:
cur.execute('select count(*) cnt from fb24_articles')
print(cur.fetchone())
cur.close()

(0,)


In [7]:
# можно вернуть именованный кортеж
cur = conn.cursor(cursor_factory=NamedTupleCursor)
cur.execute('select count(*) cnt from fb24_articles')
sel= cur.fetchone()
print(f'{sel=} {sel.cnt=}')
cur.close()

sel=Record(cnt=0) sel.cnt=0


In [8]:
def load_pg(conn) -> tuple[int,int]:
    '''
    возвращвем кол-во новых записей и 
    кол-во записей обнаруженных на страничках сайта
    '''
    
    ins_cnt : int = 0;
    all_cnt : int = 0;

    headers = {
        "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/140.0.0.0 Safari/537.36"
    }

    with conn.cursor(cursor_factory=NamedTupleCursor) as cur:

        ## странички со списком новостей
        for p in range(1,2):
            resp = requests.get(f'https://football24.ru/articles/page/{p}/',headers=headers)

            assert resp.status_code == 200

            soap = BeautifulSoup(resp.text, 'lxml')
            dom = etree.HTML(str(soap))

            # парсим страничку
            for post in dom.xpath('//div[@class="post"]'):

                url = post.xpath('.//h2[@itemprop="headline"]/a/@href')
                url_text = post.xpath('.//h2[@itemprop="headline"]/a/text()')
                date_pub = post.xpath('.//time[@itemprop="datePublished"]/@datetime')
                descr = post.xpath('.//p[@itemprop="description"]/text()')

                url = str(url[0])

                all_cnt += 1            
                
                # проверяем, существует ли уже запись с таким url
                cur.execute('select count(*) cnt from fb24_articles where url=%s',(url,))
                sel = cur.fetchone()
                if sel.cnt == 0:

                    ins_cnt += 1

                    # Insert a single document
                    cur.execute(
                        'insert into fb24_articles (url,title,date_published,description) values(%s,%s,%s,%s)',
                        (url,
                        str(url_text[0]),
                        str(date_pub[0]),
                        str(descr[0])
                        )
                    )
                    conn.commit()
    
    return ins_cnt, all_cnt

In [9]:
ins_cnt, all_cnt = load_pg(conn)
print(f'Новых записей : {ins_cnt}')
print(f'Статей на страницах сайта : {all_cnt}')

Новых записей : 20
Статей на страницах сайта : 20


In [10]:
# проверим, сколько записей в базе
with conn.cursor(cursor_factory=NamedTupleCursor) as cur:
    cur.execute('select count(*) cnt from fb24_articles')
    sel= cur.fetchone()

    print(f'Записей в базе : {sel.cnt}')

Записей в базе : 20


In [11]:
# удалим пять записей и повторим загрузку
with conn.cursor() as cur:
    cur.execute('''
        delete from fb24_articles 
         where url in (select url from fb24_articles limit 5)
        ''')
    conn.commit()

In [12]:
# проверим, сколько записей в базе
with conn.cursor(cursor_factory=NamedTupleCursor) as cur:
    cur.execute('select count(*) cnt from fb24_articles')
    sel= cur.fetchone()

    print(f'Записей в базе : {sel.cnt}')

Записей в базе : 15


In [13]:
ins_cnt, all_cnt = load_pg(conn)
print(f'Новых записей : {ins_cnt}')
print(f'Статей на страницах сайта : {all_cnt}')

Новых записей : 5
Статей на страницах сайта : 20


In [18]:
# перечислим статьи за последние четыре дня
current_datetime = datetime.now()
last_datetime = current_datetime - timedelta(days=4)
last_datetime

datetime.datetime(2025, 11, 4, 19, 46, 18, 445894)

In [19]:
with conn.cursor(cursor_factory=NamedTupleCursor) as cur:
    cur.execute('''
        select date_published
             , title
          from fb24_articles 
         where date_published>%s
        ''',(last_datetime,))
    
    for doc in cur.fetchall():
        print(doc.date_published, doc.title)


2025-11-07 Восемь интриг до 15-го тура РПЛ: «Спартак» под прицелом Черчесова, «Зенит» организует отставку, «Локо» – тонет
2025-11-06 В «Балтике» – первый особенный игрок. Справедливо ли Карпин игнорирует Петрова?
2025-11-05 У Сафонова – жизнь-мечта в «ПСЖ»: выучил язык, нашел баню, посмотрел Голливуд, встретился с Водяновой


In [20]:
# Close the connection
conn.close()