In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

URL = 'https://habr.com/ru/search/'

KEYWORDS = ['python', 'парсинг']

def get_all_habr_links(URL, query):
    params = {'q': query}
    req = requests.get(URL, params)
    soup = BeautifulSoup(req.text, 'html.parser')
    news_titles = soup.find_all('h2', class_='post__title')
    all_links = list(map(lambda x: x.find('a').get('href'), news_titles))
    return all_links

all_links = get_all_habr_links(URL, KEYWORDS)

def get_habr_news(links):
    habr_news = pd.DataFrame()
    for link in all_links:
        soup = BeautifulSoup(requests.get(link).text, 'html.parser')
        if soup.find('span', class_='post__time'):
            date = pd.to_datetime(soup.find('span', class_='post__time').get('data-time_published'), dayfirst=True).date()
        if soup.find('h1', class_='post__title post__title_full'): 
            title = soup.find('h1', class_='post__title post__title_full').get_text(strip=True)
            link = link
            text = soup.find('div', class_='post__body post__body_full').get_text(strip=True)
        row = {'date': date, 'title': title, 'link': link, 'text': text}
        habr_news = pd.concat([habr_news, pd.DataFrame([row])])  
    return habr_news
    
habr_news = get_habr_news(all_links)  
habr_news

Unnamed: 0,date,title,link,text
0,2019-04-03,"Правда про парсинг сайтов, или «все интернет-м...",https://habr.com/ru/post/446488/,В этой статье я постараюсь наиболее просто рас...
0,2017-10-17,Парсинг сайтов: как с точки зрения закона выгл...,https://habr.com/ru/post/340302/,Попробуем рассмотреть один из лучших способов ...
0,2019-05-07,Парсинг сайтов — а это вообще легально в России?,https://habr.com/ru/post/450834/,По одному из определений парсинг есть синтакси...
0,2020-10-01,Как выбрать решение для парсинга сайтов: класс...,https://habr.com/ru/post/521646/,Парсинг или как его еще иногда называют web sc...
0,2016-12-01,Пример использования Product API от Fetchee дл...,https://habr.com/ru/company/fetchee/blog/316558/,"В этой инструкции мы расскажем о том, как с по..."
0,2016-03-03,Теория и практика парсинга исходников с помощь...,https://habr.com/ru/company/pt/blog/210772/,В нашем проектеPT Application Inspectorреализо...
0,2018-06-18,Парсинг и работа с Codable в Swift 4,https://habr.com/ru/post/414221/,"Формат JSON приобрел большую популярность, име..."
0,2019-08-28,Парсинг и анализ семантики для SEO: 5 бесплатн...,https://habr.com/ru/company/click/blog/465277/,"Когда работаешь с семантикой, постепенно «обра..."
0,2011-06-14,Парсинг на Pуthon. Как собрать архив Голубятен,https://habr.com/ru/post/121815/,Статья описывает разработку скрипта на языкеPy...
0,2015-03-18,Продвинутый парсинг веб-сайтов с Mechanize,https://habr.com/ru/post/253439/,"В продолжение темыпарсинга сайтов на Ruby, я р..."


*Примечание к Avast Hack Check:*

datePublish в post-ответе не соответствует реальному времени утечки (есть в описании) для ранних утечек (вероятно, до 2016 года). Но в письме, которое приходит на почту после проверки, дата утечки соответствует datePublish. Поэтому в таблицу внесены обе даты.

In [81]:
import json
import re

URL = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

headers = {
    'Vaar-Version': '0', 
    'Vaar-Status': '0',
    'Vaar-Header-App-Product': 'hackcheck-web-avast'
}

email_list = ['ittalika@gmail.com', 'xxx@gmail.com']

def find_breaches(EMAIL):
    req = requests.post(URL, headers=headers, json={'emailAddresses': EMAIL.split()})
    json_req = req.json()
    breaches = json_req['breaches'].values()
    email_breaches = pd.DataFrame()
    for breach in breaches:
        source = breach['site']
        text = breach['description']
        date = ', '.join(set((re.findall(r'\d{4}', breach['description']))))
        publish_date = breach['publishDate'][0:10]
        email = ''.join(EMAIL)
        row = {'почта': email, 'дата утечки': date, 'дата публикации': publish_date, 'источник утечки': source, 'описание утечки': text}
        email_breaches = pd.concat([email_breaches, pd.DataFrame([row])]).sort_values('дата утечки')
    return email_breaches

def find_all_breaches(email_list):
    all_breaches = pd.DataFrame()
    for email in email_list:
        all_breaches = pd.concat([all_breaches, find_breaches(email)])
    return all_breaches
         
find_all_breaches(email_list)

Unnamed: 0,почта,дата утечки,дата публикации,источник утечки,описание утечки
0,ittalika@gmail.com,2011,2016-11-01,qip.ru,"In 2011, Russian instant messaging service pro..."
0,ittalika@gmail.com,2013,2016-10-21,adobe.com,"In October of 2013, criminals penetrated Adobe..."
0,ittalika@gmail.com,2015,2017-01-16,fl.ru,"In February 2015, FL.ru's entire site database..."
0,ittalika@gmail.com,"2016, 2012",2016-10-24,dropbox.com,Cloud storage company Dropbox suffered a major...
0,ittalika@gmail.com,"2016, 2013",2016-10-21,myspace.com,"Shortly before the 2016 Memorial Day weekend, ..."
...,...,...,...,...,...
0,xxx@gmail.com,2020,2020-07-30,swvl.com,"In July 2020, the Egyptian ride-sharing app sw..."
0,xxx@gmail.com,2020,2020-07-30,promo.com,In July 2020 the brand content creation servi...
0,xxx@gmail.com,2020,2020-08-27,unicocampania.it,"In January 2020, the Italian travel website Un..."
0,xxx@gmail.com,2020,2020-05-14,unacademy.com,"In May 2020, the hacking group “ShinyHunters” ..."
