## Importing libs

In [140]:
import time
import numpy as np
import pandas as pd
import os

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
import json

### Set up selenium browser

In [165]:
options = webdriver.ChromeOptions()
options.add_argument('--ignore-certificate-errors')
options.add_argument('--incognito')
options.add_argument('headless')                        
driver = webdriver.Chrome(executable_path='./chromedriver', options=options)

## Web scraping TASS

In [167]:
def get_content(driver: selenium.webdriver, api: str) -> json:
    '''Open a link by selenium webdriver, scrap the page and returns result with proposed news in json format'''
    driver.get(api) # открываем ссылку
    time.sleep(3) # даем прогрузиться
    
    page_source = driver.page_source # берем страницу
    soup = BeautifulSoup(page_source, 'html.parser') # парсим
    data = json.loads(soup.body.text) # достаем текст и превращаем в формат json
    
    return data


def update_news(news: list, data: json):
    '''Download news from Tass ural (/ural-news) and add to the existing list of news
    '''
    new_news = [] # список всех распарсенных новостей
    for item in data['result']: # идем по каждой новости
        cur_news = {} 
        cur_news['conmposite_id'] = item['composite_id']
        cur_news['title'] = item['title']
        cur_news['subtitle'] = item['subtitle']
        cur_news['lead'] = item['lead']
        cur_news['url'] = 'https://tass.ru' + item['url']
        cur_news['rubrics'] = []
        for rubric in item['rubrics']:
            cur_news['rubrics'].append(rubric['name'])
        cur_news['tags'] = []
        for tag in item['tags']:
            cur_news['tags'].append(tag['name'])
        cur_news['es_updated_dt'] = item['es_updated_dt']
        cur_news['published_date'] = item['es_updated_dt'].split('T')[0]
        new_news.append(cur_news)
        
    news.extend(new_news) # расширяем существующий список новыми новостями
    pass

In [168]:
# загружаем новости со стартовой страницы
api = 'https://tass.ru/tbp/api/v1/content?limit=18&offset=0&lang=ru&rubrics=/ural-news&sort=-es_updated_dt'
data = get_content(driver, api)

In [169]:
data['result'][0] # так выглядит новость

{'id': 14971095,
 'composite_id': '14971095',
 'type': 'news',
 'status': 'published',
 'title': 'В Екатеринбурге возбудили дело после того, как мужчина выбросил сына из окна',
 'subtitle': '',
 'lead': 'По данным следствия, отец был пьян',
 'url': '/proisshestviya/14971095',
 'lang': 'ru',
 'urgency': 'normal',
 'main_media': {'gallery': None, 'image': None, 'video': None},
 'main_rubric_id': 27,
 'rubrics': [{'id': 27,
   'name': 'Происшествия',
   'url': '/proisshestviya',
   'type': 'rubric'},
  {'id': 4731,
   'name': 'Новости Урала',
   'url': '/ural-news',
   'type': 'rubric'}],
 'tags': [{'id': 3929, 'name': 'Россия', 'url': '/rossiya'},
  {'id': 8974,
   'name': 'Свердловская область',
   'url': '/sverdlovskaya-oblast'}],
 'published_dt': '2022-06-20T07:12:11',
 'publish_updated_dt': '2022-06-20T07:12:11',
 'updated_dt': '2022-06-20T07:12:11',
 'es_updated_dt': '2022-06-20T07:12:11.030087',
 'meta_title': 'В Екатеринбурге возбудили дело после того, как мужчина выбросил сына из

In [170]:
news = []
update_news(news, data)

In [171]:
news[0] # так выглядит каждая новость

{'conmposite_id': '14971095',
 'title': 'В Екатеринбурге возбудили дело после того, как мужчина выбросил сына из окна',
 'subtitle': '',
 'lead': 'По данным следствия, отец был пьян',
 'url': 'https://tass.ru/proisshestviya/14971095',
 'rubrics': ['Происшествия', 'Новости Урала'],
 'tags': ['Россия', 'Свердловская область'],
 'es_updated_dt': '2022-06-20T07:12:11.030087',
 'published_date': '2022-06-20'}

In [172]:
pd.DataFrame.from_records(news) # можно сделать датафреймом

Unnamed: 0,conmposite_id,title,subtitle,lead,url,rubrics,tags,es_updated_dt,published_date
0,14971095,"В Екатеринбурге возбудили дело после того, как...",,"По данным следствия, отец был пьян",https://tass.ru/proisshestviya/14971095,"[Происшествия, Новости Урала]","[Россия, Свердловская область]",2022-06-20T07:12:11.030087,2022-06-20
1,14970709,В УрФУ разработают лекарства с благородными ме...,,Специалисты вуза также займутся разработкой пр...,https://tass.ru/obschestvo/14970709,"[Общество, Новости Урала, Сибирь]","[Россия, Свердловская область]",2022-06-20T06:10:48.846746,2022-06-20
2,14970605,Автобус столкнулся с грузовиком в Челябинской ...,,Информация о пострадавших уточняется,https://tass.ru/proisshestviya/14970605,"[Происшествия, Новости Урала]","[Россия, Челябинская область]",2022-06-20T05:51:39.747223,2022-06-20
3,14970533,Автомобиль сбил двух подростков в одном из сел...,,Пострадавших доставили в больницу,https://tass.ru/proisshestviya/14970533,"[Происшествия, Новости Урала]","[Россия, Свердловская область]",2022-06-20T05:27:31.607031,2022-06-20
4,14969993,"ЯНАО, Москва и Магаданская область возглавили ...",,Всего в рейтинг вошел 41 регион,https://tass.ru/ekonomika/14969993,"[Общество, Экономика и бизнес, Северо-Запад, Н...",[Россия],2022-06-20T00:39:00.676491,2022-06-20
5,14969787,Площадь лесных пожаров в России выросла на 7 т...,,За прошлые сутки в стране ликвидировали 41 воз...,https://tass.ru/proisshestviya/14969787,"[Происшествия, Северо-Запад, Новости Урала, Си...","[Россия, Лесные пожары в России, Камчатский кр...",2022-06-19T23:10:03.121547,2022-06-19
6,14968873,"""Новые люди"" выдвинули депутата Госдумы Демина...",,Выборы пройдут 11 сентября,https://tass.ru/politika/14968873,"[Политика, Новости Урала, Внутренняя политика]","[Россия, Свердловская область]",2022-06-19T16:55:02.352722,2022-06-19
7,14968819,УрФУ планирует увековечить память Бурбулиса со...,,Политик умер на 77-м году жизни,https://tass.ru/obschestvo/14968819,"[Общество, Новости Урала]","[Россия, Свердловская область]",2022-06-19T16:10:52.817181,2022-06-19
8,14968359,"В Екатеринбурге из-за пожара в ""Леруа Мерлен"" ...",,В результате пожара никто не пострадал,https://tass.ru/proisshestviya/14968359,"[Происшествия, Новости Урала]","[Россия, Свердловская область]",2022-06-19T12:46:32.706099,2022-06-19
9,14967945,Замначальника полиции УМВД по Магнитогорску ар...,,"По версии следствия, он получил деньги за то, ...",https://tass.ru/proisshestviya/14967945,"[Происшествия, Новости Урала]","[Россия, Челябинская область]",2022-06-19T10:54:55.165014,2022-06-19


In [None]:
i = 0
while True:
    time.sleep(10)
    i += 1
    last_es_updated_dt = news[-1]['es_updated_dt']
    iter_api = f'https://tass.ru/tbp/api/v1/content?limit=15&last_es_updated_dt={last_es_updated_dt}&lang=ru&rubrics=/ural-news&sort=-es_updated_dt'
    data = get_content(driver, iter_api)
    update_news(news, data)
    if i == 100:
        pd.Series(news).to_csv(path_or_buf='tass.csv', header=False, index=False)
        i = 0

In [164]:
driver.close()

In [186]:
len(news)

12888

In [187]:
pd.Series(news).to_csv(path_or_buf='tass.csv', header=False, index=False)