# Домашнее задание №15.
## Основы веб-скрапинга и работы с API
**Выполнил: Шармашкеев Б.В.**

In [2]:
import requests
import time
from bs4 import BeautifulSoup

import re
import pandas as pd

### Задание 1.
#### 1.1. Обязательная часть
Будем парсить страницу со свежеми новостям на habr.com/ru/all/.

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

KEYWORDS = ['python', 'парсинг']

Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы).

В итоге должен формироваться датафрейм вида: <дата> - <заголовок> - <ссылка>

In [18]:
# Определяем список ключевых слов
keywords = ['ETH', 'стенд', 'новость']

In [19]:
# Страница с постами
req = requests.get('https://habr.com/ru/all/')
soup = BeautifulSoup(req.text, 'html.parser')

In [20]:
# Посты на странице
posts = soup.find_all('article', class_='post')

In [5]:
# Библиотека для парсинга даты и времени =)
import dateparser

In [6]:
def links_by_keywords(posts, keywords):
    links = pd.DataFrame()
    for post in posts:
        post_id = post.parent.attrs.get('id')
        if not post_id:
            continue
        post_id = int(post_id.split('_')[-1])
        date = dateparser.parse(post.find('span', class_='post__time').text)
        href = post.find('a', class_='post__title_link').get('href')
        post_title = post.find('a', class_='post__title_link').text
        post_preview = post.find('div', class_='post__text').text
        for kw in keywords:
            if re.search(kw, post_title) or re.search(kw, post_preview):              
                row = {'Дата': date, 'Заголовок': post_title, 'Ссылка': href}
                links = pd.concat([links, pd.DataFrame([row])])  
    return links

In [21]:
links01 = links_by_keywords(posts, keywords)
links01

Unnamed: 0,Дата,Заголовок,Ссылка
0,2020-12-07 20:28:00,Security Week 50: zero-click уязвимость в iPho...,https://habr.com/ru/company/kaspersky/blog/531...
0,2020-12-07 17:14:00,ETH: новая модель денег,https://habr.com/ru/post/531762/


#### 1.2. Дополнительная часть (необязательная)
Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.

Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст_статьи>

In [8]:
# Поиск в полном тексте поста
def pars_full_text(link):
    r = requests.get(link)
    s = BeautifulSoup(r.text, 'html.parser')
    return s.find('div', class_='post__text').text 

In [23]:
def links_with_text(posts, keywords):
    links = pd.DataFrame()
    for post in posts:
        post_id = post.parent.attrs.get('id')
        if not post_id:
            continue
        post_id = int(post_id.split('_')[-1])
        date = dateparser.parse(post.find('span', class_='post__time').text)
        href = post.find('a', class_='post__title_link').get('href')
        post_title = post.find('a', class_='post__title_link').text
        full_text = pars_full_text(href)
        for kw in keywords:
            if re.search(kw, post_title) or re.search(kw, full_text):              
                row = {'Дата': date, 'Заголовок': post_title, 'Ссылка': href, 'Текст': full_text}
                links = pd.concat([links, pd.DataFrame([row])])            
    return links

In [22]:
links02 = links_with_text(posts, keywords)
links02

Unnamed: 0,Дата,Заголовок,Ссылка,Текст
0,2020-12-07 20:28:00,Security Week 50: zero-click уязвимость в iPho...,https://habr.com/ru/company/kaspersky/blog/531...,Главная новость прошлой недели посвящена уже з...
0,2020-12-07 18:00:00,Как использовать объектное S3-хранилище Mail.r...,https://habr.com/ru/company/mailru/blog/530756/,LogiMap ASRS Unit by Vidom\n\r\nVeeam Backup &...
0,2020-12-07 17:14:00,ETH: новая модель денег,https://habr.com/ru/post/531762/,"Уважаемые криптоэнтузиасты.Не знаю как вас, но..."


### Задание 2.
#### 2.1. Обязательная часть
Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса Avast Hack Ckeck. Список email-ов задаем переменной в начале кода:
EMAIL = [xxx@x.ru, yyy@y.com]

В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>

Подсказка: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [114]:
import json
from datetime import datetime, date

In [104]:
emails = ["bulia.54rus@gmail.com", "sh-family@yandex.ru"]

In [105]:
url = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

In [106]:
payload = {"emailAddresses": emails}

headers = {
    'Vaar-Version': '0',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.185 YaBrowser/20.11.2.78 Yowser/2.5 Safari/537.36',
    'Vaar-Header-App-Product': 'hackcheck-web-avast'
}

In [109]:
res = requests.post(url, headers=headers, data=json.dumps(payload))
res.json()

{'breaches': {'16372': {'breachId': 16372,
   'site': 'bookmate.com',
   'recordsCount': 7775238,
   'description': 'In July 2018, Bookmate was allegedly breached. The stolen data contains usernames, passwords, salts, email addresses and additional personal information. This data has been sold on at least one dark web market and is also being privately shared among several criminal networks.\r\n',
   'publishDate': '2019-03-20T00:00:00Z',
   'statistics': {'usernames': 7775230,
    'passwords': 2547574,
    'emails': 3822191}},
  '17609': {'breachId': 17609,
   'site': 'vk.com',
   'recordsCount': 42536910,
   'description': 'At some time in 2020, the Russian social networking website vKontakte was allegedly breached. The stolen data contains email addresses and additional personal information. This breach is being privately shared on the internet.',
   'publishDate': '2020-05-21T00:00:00Z',
   'statistics': {'usernames': 0, 'passwords': 0, 'emails': 20549631}},
  '14357': {'breachId':

In [122]:
breaches = pd.DataFrame()
for email in res.json()['summary'].keys():
    for breach in res.json()['summary'][email]['breaches']:
        for b_id in res.json()['breaches']:
            row = {'e-mail': email,
                   'Дата утечки': res.json()['breaches'][b_id]['publishDate'],
                  'Источник утечки': res.json()['breaches'][b_id]['site'],
                  'Описание': res.json()['breaches'][b_id]['description']}
            breaches = pd.concat([breaches, pd.DataFrame([row])]) 
breaches['Дата утечки'] = pd.to_datetime(breaches['Дата утечки']).dt.date
breaches

Unnamed: 0,e-mail,Дата утечки,Источник утечки,Описание
0,bulia.54rus@gmail.com,2019-03-20,bookmate.com,"In July 2018, Bookmate was allegedly breached...."
0,bulia.54rus@gmail.com,2020-05-21,vk.com,"At some time in 2020, the Russian social netwo..."
0,bulia.54rus@gmail.com,2018-06-19,storelp.ru,"At an unconfirmed date, StoreLP.ru's database ..."
0,bulia.54rus@gmail.com,2017-04-10,google.com/gmail,This collection of compromised Gmail users con...
0,bulia.54rus@gmail.com,2017-06-14,nnm-club.me,"In September 2013, Russian torrent tracker NNM..."
0,bulia.54rus@gmail.com,2019-03-20,bookmate.com,"In July 2018, Bookmate was allegedly breached...."
0,bulia.54rus@gmail.com,2020-05-21,vk.com,"At some time in 2020, the Russian social netwo..."
0,bulia.54rus@gmail.com,2018-06-19,storelp.ru,"At an unconfirmed date, StoreLP.ru's database ..."
0,bulia.54rus@gmail.com,2017-04-10,google.com/gmail,This collection of compromised Gmail users con...
0,bulia.54rus@gmail.com,2017-06-14,nnm-club.me,"In September 2013, Russian torrent tracker NNM..."


#### 2.2. Дополнительная часть (необязательная)
Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.
Документация к API VK: https://vk.com/dev/methods , вам поможет метод wall.get

GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ
В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>