# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

In [1]:
import requests
import time
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
keywords = ['python', 'парсинг']
url = 'https://habr.com/ru/all/'

In [3]:
def news(url, keywords):
    r = requests.get(url)
    time.sleep(0.2)
    soup = BeautifulSoup(r.text, 'html.parser')
    articles = soup.find_all('article', class_='post post_preview')
    
    filtered = [a for a in articles for k in keywords if k in a.text.lower()]         
    blocks = [f.find('a', class_='post__title_link') for f in filtered]
    dates = [f.find('span', class_='post__time').text for f in filtered]
    links = [b.attrs.get('href') for b in blocks]
    titles = [b.text for b in blocks]

    df = pd.DataFrame(list(zip(dates, titles, links)), columns=['дата', 'заголовок', 'ссылка'])
    
    return df

In [4]:
news(url, keywords)

Unnamed: 0,дата,заголовок,ссылка
0,сегодня в 17:01,Конвертеры маршрутов в Django 2.0+ (path conve...,https://habr.com/ru/company/yandex_praktikum/b...


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [1]:
import requests
import json
import pandas as pd

In [2]:
email = ['xxx@x.ru', 'yyy@y.com']
url = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

In [6]:
func(url, email)

Unnamed: 0,почта,дата утечки,источник утечки,описание утечки
0,xxx@x.ru,2017-02-14T00:00:00Z,parapa.mail.ru,"In July and August 2016, two criminals execute..."
1,xxx@x.ru,2016-10-21T00:00:00Z,adobe.com,"In October of 2013, criminals penetrated Adobe..."
2,xxx@x.ru,2017-01-31T00:00:00Z,cdprojektred.com,"In March 2016, CDProjektRed.com.com's forum da..."
3,xxx@x.ru,2020-01-03T00:00:00Z,azcentral.com,"At an unconfirmed date, online Arizona newspap..."
4,xxx@x.ru,2016-10-21T00:00:00Z,linkedin.com,"In 2012, online professional networking platfo..."
5,xxx@x.ru,2016-10-24T00:00:00Z,dropbox.com,Cloud storage company Dropbox suffered a major...
6,xxx@x.ru,2020-05-28T00:00:00Z,wishbone.io,"In January 2020, the online poll website Wishb..."
7,xxx@x.ru,2017-03-24T00:00:00Z,youku.com,Youku is a large Chinese video content company...
8,xxx@x.ru,2017-11-04T00:00:00Z,myheritage.com,"In October 2017, a customer database belonging..."
9,xxx@x.ru,2017-03-01T00:00:00Z,rayli.com.cn,"On an unconfirmed date, Chinese gossip site Ra..."


In [5]:
def func(url, email):   
    params = {'emailAddresses': email}
    headers={'Vaar-Version': '0', 'Vaar-Header-App-Product': 'hackcheck-web-avast'}
    r = requests.post(url, json=params, headers=headers)
    rj = r.json()
    results = {}
    list_ = []
    for x in rj['data']:
        d = rj['data'][x]
        em = next(iter(d))
        id = rj['data'][x][em][0]['breachId']
        list_.append(id)
        results[em] = list_

    email_col = []
    date_col = []
    descr_col = []
    site_col = []
    for es, ids in results.items():
        for i in ids:
            email_col.append(es)
            date_col.append(rj['breaches'][str(i)]['publishDate'])
            descr_col.append(rj['breaches'][str(i)]['description'])
            site_col.append(rj['breaches'][str(i)]['site'])

    df = pd.DataFrame(list(zip(email_col, date_col, site_col, descr_col)), columns=['почта', 'дата утечки', 'источник утечки', 'описание утечки'])
    return df