# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

### Задание 1.
Парсинг страницы со свежеми новостям на 'habr.com/ru/all/'.
Необходимо собрать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово.
Эти слова определяем в начале кода в переменной, например:

KEYWORDS = ['python', 'парсинг']

Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы).
В итоге должен формироваться датафрейм вида: <дата> - <заголовок> - <ссылка>

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.
Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.
Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст_статьи>

In [2]:
from bs4 import BeautifulSoup
import requests
import time
import pandas as pd

In [3]:
KEYWORDS = ['python', 'парсинг']
URL = 'https://habr.com/ru/all/'

In [4]:
def get_all_links(url, q):
    """Возвращает список ссылок на нужные посты.
    """
    all_refs = []
    res = requests.get(URL)
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'html.parser')
    posts = soup.find_all('article', class_='post')
    t_list = list(map(lambda x: x.find('a', class_='post__title_link'), posts))
    a_list = list(map(lambda x: x.get('href'), t_list))
    all_refs = list(map(lambda x: 'https://habr.com/ru/' + x, a_list))

    return a_list

all_links = get_all_links(URL, KEYWORDS)

In [5]:
def get_habr_posts(links):
    """Возвращает df вида: <дата> - <заголовок> - <ссылка> - <текст_статьи>
    """
    habr_posts = pd.DataFrame()
    for link in all_links:
        soup = BeautifulSoup(requests.get(link).text, 'html.parser')
        time.sleep(0.3)
        date = pd.to_datetime(soup.find('span', class_='post__time').get('data-time_published')).date()
        
        title = soup.find('h2', class_='post__title_full')
            
        text = soup.find('div', class_='post__text').text
        
        row = {'date': date, 'title': title, 'link': link, 'text': text}
        habr_posts = pd.concat([habr_posts, pd.DataFrame([row])])  
    return habr_posts
get_habr_posts(all_links)

Unnamed: 0,date,title,link,text
0,2021-04-23,,https://habr.com/ru/company/otus/blog/554078/,При поиске из Kibana вы обычно вводите фактиче...
0,2021-04-23,,https://habr.com/ru/post/554076/,Предлагаю ознакомиться с ранее размещенными ма...
0,2021-04-23,,https://habr.com/ru/company/kaspersky/blog/554...,Начало двадцать первого века — время больших э...
0,2021-04-23,,https://habr.com/ru/company/itsoft/blog/554062/,История сети I2P берет свое начало в 2003 году...
0,2021-04-23,,https://habr.com/ru/post/554060/,Грамотная архитектура играет ключевую роль при...
0,2021-04-23,,https://habr.com/ru/company/madrobots/blog/553...,"К 35 годам я начал задумываться о том, на каки..."
0,2021-04-23,,https://habr.com/ru/company/ruvds/blog/554046/,"Возможно, вы уже в курсе, что сейчас в России ..."
0,2021-04-23,,https://habr.com/ru/company/selectel/blog/553372/,\r\nСреди одноплатников пополнение — появилась...
0,2021-04-23,,https://habr.com/ru/company/timeweb/blog/554056/,"Ученые доказали, что существуют особые простые..."
0,2021-04-23,,https://habr.com/ru/company/ibm/blog/554048/,В общих чертах рассмотрим два подхода к анализ...


### Задание 2.
1. Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса Avast Hack Check. Список email-ов задаем переменной в начале кода:

    EMAIL = [xxx@x.ru, yyy@y.com]

В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>

Внимательно изучить post-запросы.

In [31]:
import json

In [221]:
EMAIL = ['xxx@x.ru', 'yyy@y.com']
URL ='https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

params = {
    'emailAddresses': ['xxx@x.ru']
}
headers = {
    'Vaar-Version': '0',
    'Vaar-Header-App-Product': 'hackcheck-web-avast',
    'Vaar-Header-App-Product-Name': 'hackcheck-web-avast',
    'Vaar-Header-App-Build-Version': '1.0.0'
}


In [222]:
res = requests.post(URL, json=params, headers=headers)
res

<Response [200]>

In [225]:
res.json()

{'breaches': {'16613': {'breachId': 16613,
   'site': 'verifications.io',
   'recordsCount': 677914246,
   'description': 'Big data e-mail verification platform verifications.io leaked a database containing sensitive PII belonging to over 600 million victims. The breach was discovered by a security researcher who found an unsecured 150GB MongoDB database, which he was able to track to an email verification service called Verifications.io. The leaked database contained information such as physical addresses, phone numbers, email addresses, dates of birth, gender, employer and job information, geographic location and IP addresses.\r\n\r\n',
   'publishDate': '2019-03-28T00:00:00Z',
   'statistics': {'usernames': 0, 'passwords': 0, 'emails': 677914246}},
  '17609': {'breachId': 17609,
   'site': 'vk.com',
   'recordsCount': 42536910,
   'description': 'At some time in 2020, the Russian social networking website vKontakte was allegedly breached. The stolen data contains email addresses and

In [301]:
for x in res.json()['breaches'].values():
    print(pd.to_datetime(x['publishDate']).date())  

2019-03-28
2020-05-21
2017-02-14
2016-10-29
2016-10-21
2017-02-14
2017-01-31
2016-10-23


2. Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.
Документация к API VK: 'https://vk.com/dev/methods ' , поможет метод 'wall.get'.

GROUP = 'netology'  
В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>