# Домашняя работа по лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`


In [1]:
import requests
import time
import pandas as pd
import json
from bs4 import BeautifulSoup

In [2]:
#Решение по Заданию 1

# определяем список хабов, которые нам интересны
KEYWORDS = ['python', 'парсинг']

# Функция для получения заголовков страницы habr
# в качестве пераметра soup объект анализируемлй страницы
# и список ключевых слов для отбора

def get_post_habr(soup_, list_key_word):
    list_ = []
    row   = []
    #Получаем содержимое класса
    posts = soup_.find_all('li', class_='content-list__item content-list__item_post shortcuts_item')
    #Интерируемся по постам
    for post in posts:
        try:
            post_id = post.attrs.get('id')
            #Проверка поста на наличие идентифицируемой статьи
            if 'post' in str(post_id):
                #Находим требуемые элементы: дата время; заголовок; ссылка
                #!!! На хабре приcутствуют статьи? оформелнные классом с префиксом preview
                tmp1_ = post.find('span', class_ = ["post__time", "preview-data__time-published"])
                tmp2_ = post.find('a', class_= ["post__title_link", "preview-data__title-link"])
                if any([word.lower() in tmp2_.string.lower()  for word in list_key_word]) or len(list_key_word) == 0:
                    row = [tmp1_.string, tmp2_.string, tmp2_.attrs.get('href')] 
                    list_.append(row)
        except AttributeError:
            pass
    return(list_)

rez_list = []
#На сайте https://habr.com/ru/all доступно 50 страниц, перебираем все страницы с 1 по 50
#каждую страницу парсим функцией get_post_habr результат накаплаваем в списке rez_list
for page in range(50):
    url = f'https://habr.com/ru/all/page{page + 1}/'
    #Отправляем GET-запрос по URL
    req = requests.get(url)
    soup = BeautifulSoup(req.text, 'html.parser')
    rez_list += get_post_habr(soup, KEYWORDS)

df = pd.DataFrame(rez_list, columns = ('Dt', 'Title', 'Href') )
df

Unnamed: 0,Dt,Title,Href
0,14 декабря 2020 в 12:46,"TeamCity 2020.2: вход через OAuth, интеграция ...",https://habr.com/ru/company/JetBrains/blog/532...
1,12 декабря 2020 в 22:50,Conways Game of life на Python,https://habr.com/ru/post/532732/
2,12 декабря 2020 в 15:22,Написание WinLocker'а на Python,https://habr.com/ru/post/532684/
3,11 декабря 2020 в 10:14,Brython: заменяем JavaScript на Python на фрон...,https://habr.com/ru/company/piter/blog/532454/
4,10 декабря 2020 в 23:57,Простой парсинг XML в Qt,https://habr.com/ru/post/532436/
5,10 декабря 2020 в 23:08,"Сравним C++, JS, Python, Python + numba, PHP7,...",https://habr.com/ru/post/532432/
6,10 декабря 2020 в 11:02,Ультимативный гайд по поиску утечек памяти в P...,https://habr.com/ru/company/domclick/blog/532030/
7,9 декабря 2020 в 14:28,PuLP-MiA: Мультииндексный аддон для PuLP (pyth...,https://habr.com/ru/post/532126/
8,8 декабря 2020 в 19:13,Клиент-серверный IPC на Python multiprocessing,https://habr.com/ru/post/531994/
9,8 декабря 2020 в 11:33,Книга «Простой Python. Современный стиль прогр...,https://habr.com/ru/company/piter/blog/528880/


In [3]:
#Решение по Заданию 1 (неробязательная часть)
#Функция для получения текста статьи
def get_art(url):
    req = requests.get(url)
    soup = BeautifulSoup(req.text, 'html.parser')
    post = soup.find_all('div', class_ = ['post__text post__text-html post__text_v1', 'post__text post__text_v2'])
    return(str(post[0].contents))

df['Art'] =  df['Href'].apply(get_art)

df.head()

Unnamed: 0,Dt,Title,Href,Art
0,14 декабря 2020 в 12:46,"TeamCity 2020.2: вход через OAuth, интеграция ...",https://habr.com/ru/company/JetBrains/blog/532...,"[<figure class=""full-width""><img height=""400"" ..."
1,12 декабря 2020 в 22:50,Conways Game of life на Python,https://habr.com/ru/post/532732/,"[<p>Это мой первый пост, где я хочу рассказать..."
2,12 декабря 2020 в 15:22,Написание WinLocker'а на Python,https://habr.com/ru/post/532684/,"[<h2>Внимание!</h2>, <p>Данная статья была соз..."
3,11 декабря 2020 в 10:14,Brython: заменяем JavaScript на Python на фрон...,https://habr.com/ru/company/piter/blog/532454/,"['Привет, Хабр!', <br/>, '\n', <br/>, '\r\nК о..."
4,10 декабря 2020 в 23:57,Простой парсинг XML в Qt,https://habr.com/ru/post/532436/,['Достаточно часто в проекте нужно создать кон...


## Задание 2. 

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [2]:
#Решение (1) по Заданию 2.

#Адрес для направления POST-запроса для проверки Email 
URL   = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

#Проверяемые адреса
EMAIL = ['xxx@x.ru', 'yyy@y.com']

#Передаваемый заголовок 
headers = {'Accept':'application/json',
'Accept-Encoding':'gzip, deflate, br',
'Accept-Language':'ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7',
'Connection':'keep-alive',
'Content-Length':'32',
'Content-Type':'application/json;charset=UTF-8',
'Host':'identityprotection.avast.com',
'Origin':'https://www.avast.com',
'Referer':'https://www.avast.com/',
'Sec-Fetch-Dest':'empty',
'Sec-Fetch-Mode':'cors',
'Sec-Fetch-Site':'same-site',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
'Vaar-Header-App-Product':'hackcheck-web-avast',
'Vaar-Version':'0'}

#Параметры POST-запроса, передаем в него список проверяемых адресов электронной почты
params = {'emailAddresses': EMAIL}

#Отправление POST-запроса с параметрами и заголовком
req = requests.post(URL, json = params, headers = headers)

#Если ответ получен
if (req.status_code == 200) & (len(req.text)) > 0:
    #Преобразауем полученный запрос в словарь
    dict_ = json.loads(req.text)
    rezult = []

    df_hack_columns = ('mail', 'dt', 'source', 'descript')
    df_hack = pd.DataFrame(columns = df_hack_columns)

    #Формируем результирующий датафрйем с учетом структуры ответа
    for item_mail in EMAIL:
        for item in dict_['summary'][item_mail]['breaches']:
            row_ = [item_mail,\
                    dict_['breaches'][str(item)]['publishDate'],\
                    dict_['breaches'][str(item)]['site'],\
                    dict_['breaches'][str(item)]['description']]
            df_hack = df_hack.append( pd.DataFrame([row_], columns = df_hack_columns), ignore_index = True )
    print(df_hack)
else:
    print('Забанили!!!')


         mail                    dt            source  \
0    xxx@x.ru  2017-02-14T00:00:00Z    parapa.mail.ru   
1    xxx@x.ru  2016-10-29T00:00:00Z            vk.com   
2    xxx@x.ru  2016-10-21T00:00:00Z         adobe.com   
3    xxx@x.ru  2017-02-14T00:00:00Z     cfire.mail.ru   
4    xxx@x.ru  2017-01-31T00:00:00Z  cdprojektred.com   
5    xxx@x.ru  2016-10-23T00:00:00Z         imesh.com   
6   yyy@y.com  2020-01-03T00:00:00Z     azcentral.com   
7   yyy@y.com  2020-05-28T00:00:00Z       wishbone.io   
8   yyy@y.com  2017-11-04T00:00:00Z    myheritage.com   
9   yyy@y.com  2019-06-13T00:00:00Z         canva.com   
10  yyy@y.com  2016-10-24T00:00:00Z       dropbox.com   
11  yyy@y.com  2016-10-21T00:00:00Z      linkedin.com   
12  yyy@y.com  2017-03-01T00:00:00Z      rayli.com.cn   
13  yyy@y.com  2019-10-17T00:00:00Z         zynga.com   
14  yyy@y.com  2016-10-21T00:00:00Z         adobe.com   
15  yyy@y.com  2018-02-18T00:00:00Z        netlog.com   
16  yyy@y.com  2017-03-15T00:00

In [25]:
#Решение (2) по Заданию 2.
df = pd.DataFrame(req.json()['breaches']).T.reset_index() 
df = df[['site', 'description', 'publishDate']]
df['email'] = [', '.join(el.keys()) for el in list(req.json()['data'].values())]

df

Unnamed: 0,site,description,publishDate,email
0,azcentral.com,"At an unconfirmed date, online Arizona newspap...",2020-01-03T00:00:00Z,xxx@x.ru
1,wishbone.io,"In January 2020, the online poll website Wishb...",2020-05-28T00:00:00Z,"xxx@x.ru, yyy@y.com"
2,myheritage.com,"In October 2017, a customer database belonging...",2017-11-04T00:00:00Z,xxx@x.ru
3,canva.com,"In May 2019, graphic-design site Canva's datab...",2019-06-13T00:00:00Z,yyy@y.com
4,parapa.mail.ru,"In July and August 2016, two criminals execute...",2017-02-14T00:00:00Z,yyy@y.com
5,dropbox.com,Cloud storage company Dropbox suffered a major...,2016-10-24T00:00:00Z,yyy@y.com
6,linkedin.com,"In 2012, online professional networking platfo...",2016-10-21T00:00:00Z,yyy@y.com
7,rayli.com.cn,"On an unconfirmed date, Chinese gossip site Ra...",2017-03-01T00:00:00Z,yyy@y.com
8,zynga.com,"In September 2019, the game developer Zynga wa...",2019-10-17T00:00:00Z,yyy@y.com
9,vk.com,Popular Russian social networking platform VKo...,2016-10-29T00:00:00Z,yyy@y.com
