In [2]:
import time
import numpy as np
import pandas as pd
import pickle
import datetime

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup
import json
import dateparser
from tqdm import tqdm

In [3]:
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--incognito')
options.add_argument('headless')    
service = Service('./chromedriver')
driver = webdriver.Chrome(service=service, options=options)

In [4]:
class InterfaxParser:
    
    def __init__(self, driver: webdriver, dates=None):
        self.driver = driver
        self.dates = dates
        
    def create_dates(self, start_date=datetime.date(2019,1,1), end_date=datetime.date.today()):
        dates = []
        # тесты на дебила :)
        if start_date > end_date:
            start_date, end_date = end_date, start_date
            
        if end_date > datetime.date.today():
            end_date = datetime.date.today()
            
        if start_date < datetime.date(2000,1,1):
            start_date = datetime.date(2000,1,1)
            
        # формируем даты
        start_days = start_date.strftime('%d.%m.')
        for year in range(start_date.year, end_date.year+1):
            dates.append(start_days+str(year)) # например ['03.07.2021, 03.07.2022'], если стартовая дата 03.07.2021
            
        # если наша конечная дата не вошла в список
        if pd.to_datetime(dates[-1], dayfirst=True).date() < end_date:
            dates.append(end_date.strftime('%d.%m.%Y'))
        # или если последний элемент списка превышает нашу конечную дату
        elif pd.to_datetime(dates[-1], dayfirst=True).date() > end_date:
            dates[-1] = end_date.strftime('%d.%m.%Y')

        self.dates = dates
        return dates
    
    
    def __get_page_content(self, url, sleep_time=1) -> BeautifulSoup:
        '''Открывает ссылку, парсит html'''
        while True:
            try:
                self.driver.get(url) # открываем ссылку
                time.sleep(sleep_time) # даем прогрузиться
                break
            except TimeoutException:
                time.sleep(1)
                continue
        page_source = self.driver.page_source # берем страницу
        soup = BeautifulSoup(page_source, 'lxml') # парсим

        return soup
    
    
    def __get_article(self, url):
        soup = self.__get_page_content(url, 0.5)
        
        try:
            time_div = soup.find('div', class_="d-flex align-items-sm-start align-items-center mb-20 flex-sm-column flex-md-row")
            text_dic = soup.find('div', class_='editor-content')
            ps = text_dic.find_all('p')
        except Exception as e:
            print(e.__class__)
            print(url)
            print(soup)
        
        date = time_div.find_all('meta')[-1]['content'].split('T')[0]
        text = ' '.join([p.text.strip('\t') for p in ps]).strip()
        
        return date, text
    
    
    def __parse_page(self, soup: BeautifulSoup) -> list:
        
        update_news = []
        
        ul = soup.find('ul', class_='list-unstyled lenta-all-news')
        news = ul.find_all('a', class_='d-block mb-0')
        
        for i in tqdm(range(len(news))):
            item = news[i]
            cur_news = {}
            cur_news['url'] = item['href']
            cur_news['title'] = item.text
            cur_news['date'], cur_news['text'] = self.__get_article(cur_news['url'])
            update_news.append(cur_news)

        return update_news
    
    
    def download_news(self, news=[]) -> list:
        
        if not self.dates:
            self.create_dates()
        
        for i in range(len(self.dates)-1):
            start, end = self.dates[i], self.dates[i+1]
            url = f'https://www.interfax-russia.ru/ural/news?from={start}&to={end}&per-page=20000'
            soup = self.__get_page_content(url, 5)
            update_news = self.__parse_page(soup=soup)
            news.extend(update_news)
            with open(f'./interfax_news/interfax_ural_{start}_{end}', 'wb') as f:
                pickle.load(update_news, f)
            with open(f'./interfax_news/buffer_interfax', 'wb') as f:
                pickle.load(news, f)
            print(f'Updated news from {start} up to {end}!')
            
        return news       

In [208]:
parser = InterfaxParser(driver)
parser.create_dates(datetime.date(2023,7,6), datetime.date(2021,7,1))

['01.07.2021', '23.06.2022']

In [209]:
news = []

In [210]:
dates = parser.download_news(news=news)

  1%|▍                                                                             | 30/5372 [00:56<2:47:03,  1.88s/it]


KeyboardInterrupt: 

In [45]:
' '.join([p.text.strip('\t') for p in ps]).strip()

'Тюмень. 31 декабря. ИНТЕРФАКС-УРАЛ - В Тюменской области с 9 по 11 января состоится I российский фестиваль духовного театра имени сибирского святителя Филофея Тобольского. Как сообщила в четверг пресс-служба Тюменского драматического театра, в фестивале примут участие Русский духовный театра "ГЛАС" из Москвы и Екатеринбургский православный театр "Лаборатория драматического искусства имени Михаила Чехова". На сцене Тюменского драматического театра зрители увидят спектакли "ГЛАСА" - "Великая княгиня Елисавета Феодоровна" ("Возвращение"), "Ванька, не зевай" (по мотивам рассказов Шукшина) и пасхальную детскую сказку "У Бога - всего много" по пьесе православного священника о.Андрея Кононова. "Зрители увидят и два спектакля Екатеринбургского православного театра - литературно-драматическую композицию "И жизнь, и слёзы, и любовь...", посвященную истории любви Александры Федоровны и Николая II. И драматическую импровизацию "Матрёнин двор" на тему рассказа Солженицына "Не живёт село без правед

In [174]:
with open('interfax_ural', 'rb') as f:
    news = pickle.load(f)

In [184]:
news

[]