# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

In [None]:
import requests
import time

In [None]:
from datetime import datetime

In [None]:
from bs4 import BeautifulSoup

In [None]:
import pandas as pd

# Задание 1

In [None]:
# Будем парсить страницу со свежеми новостям на habr.com/ru/all/.

# Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. 
# Эти слова определяем в начале кода в переменной, например:

# KEYWORDS = ['python', 'парсинг']

# Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы).

# В итоге должен формироваться датафрейм вида: <дата> - <заголовок> - <ссылка>

In [None]:
KEYWORDS = ['Selectel', 'производительность']

In [None]:
URL = 'https://habr.com/ru/all/'

In [None]:
res = requests.get('https://habr.com/ru/all/')

In [None]:
soup = BeautifulSoup(res.text, 'html.parser')

In [None]:
posts = soup.find_all('article', class_='post')

In [None]:
post_titles = []
post_dates = []
post_links = []

for post in posts:
    # Убираем не посты
    post_id = post.parent.attrs.get('id')
    if not post_id:
        continue
    # Находим текстовую часть поста
    texts = post.find_all('div', class_='post__text')
    # Проходим циклом непосредственно по содержанию превью поста
    for text_body in texts:
        text_body = text_body.text
        if any([desired in text_body for desired in KEYWORDS]):
            # Находим дату и время поста и добавляем в список релевантных постов
            post_date = post.find('span', class_='post__time')
            post_dates.append(post_date.text)
            # Находим заголовок поста и добавляем в список релевантных постов
            post_title = post.find('h2', class_='post__title')
            post_titles.append(post_title.text.strip())
            # Находим ссылку на пост и добавляем в список релевантных постов
            post_link = post.find('a', class_='post__title_link')
            post_links.append(post_link.attrs.get('href'))


In [None]:
# Создаем датафрейм вида: <дата> - <заголовок> - <ссылка>
habr_new_posts = pd.DataFrame(
    {
        'дата': post_dates,
        'заголовок': post_titles,
        'ссылка': post_links
    }
)

# Дополнительная часть (необязательная)¶

In [None]:
# Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

# Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.

# Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст_статьи>

In [None]:
def get_all_links(url):
    all_refs = []
    res = requests.get(url)
    time.sleep(0.3)
    
    soup = BeautifulSoup(res.text, 'html.parser')
    hub_blocks = soup.find_all('article', class_='post')
    all_refs = list(map(lambda x: x.find('a', class_='post__title_link').get('href'), hub_blocks))
    
    return all_refs

all_links = get_all_links(URL)
all_links

In [None]:
post_titles = []
post_dates = []
post_links = []
post_texts = []

for link in all_links:
    soup = BeautifulSoup(requests.get(link).text, 'html.parser')
    time.sleep(0.3)
    text_body = soup.find('div', class_='post__text')
    if any([desired in text_body.text for desired in KEYWORDS]):
        # Находим дату и время поста и добавляем в список релевантных постов
        post_date = soup.find('span', class_='post__time')
        post_dates.append(post_date.text)
        # Находим заголовок поста и добавляем в список релевантных постов
        post_title = soup.find('span', class_='post__title-text')
        post_titles.append(post_title.text.strip())
        # Добавляем ссылку в список релевантных постов
        post_links.append(link)
        # Берем весь текст статьи
        post_texts.append(text_body.text.strip())
    

In [None]:
# Оформляем результаты в датафрейм - в каждой строке будут прибавляться последовательно элементы 
#соответствующих списков, в которые были включены результаты скрапинга - post_titles, post_dates, post_links и post_texts
habr_new_posts_amd = pd.DataFrame(
    {
        'дата': post_dates,
        'заголовок': post_titles,
        'ссылка': post_links,
        'текст_статьи': post_texts
    }
)

# Задание 2

In [None]:
# Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса Avast Hack Ckeck. 
# Список email-ов задаем переменной в начале кода:
# EMAIL = [xxx@x.ru, yyy@y.com]

# В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>

# Подсказка: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [None]:
# Данные, которые будут передаваться в POST запрос
EMAIL = ['xxx@x.ru', 'yyy@y.com']
URL = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
headers = {
    'Vaar-Version': '0', 
    'Vaar-Header-App-Product': 'hackcheck-web-avast'
}
payload = {'emailAddresses': EMAIL}

In [None]:
# Делаем POST запрос к "скрытому" API
response = requests.post(URL, json=payload, headers=headers)
response

In [None]:
# Создаем датафрейм с информацией по "утечкам": дата утечки, источник утечки, описание утечки и id утечки 
# id утечки нужен для последующего объединения с датафреймом по почтам
emails_leaks = pd.DataFrame()

for breach, descr in response.json()['breaches'].items():
    date = pd.to_datetime(descr['publishDate'], dayfirst=True).date()
    row = {'breach_id': int(breach), 'дата утечки': date, 'источник утечки': descr['site'], 'описание утечки': descr['description']}
    emails_leaks = pd.concat([emails_leaks, pd.DataFrame([row])])

In [None]:
# Создаем датафрейм с информацией по "email": id утечки и соответствующий email
emails_ids = pd.DataFrame()

for email, value in response.json()['summary'].items():
    for breach in value['breaches']:
        # Каждую итерацию добавляем 'breach_id' и соответствующий email
        row = {'breach_id': int(breach), 'emails': email}
        # Переводим row в датафрейм и присоединяем его к созданному датафрейму "emails_ids"
        emails_ids = pd.concat([emails_ids, pd.DataFrame([row])])

In [None]:
# Объединяем датафреймы - к emails_ids присоединяем emails_leaks по столбцу "breach_id"
merged_email_leak_info = emails_ids.merge(emails_leaks, how='left', on='breach_id')

In [None]:
# Убираем столбец "breach_id"
merged_email_leak_info.drop(['breach_id'], axis='columns', inplace=True)

# Дополнительная часть (необязательная)

In [None]:
# Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.
# Документация к API VK: https://vk.com/dev/methods , вам поможет метод wall.get

# GROUP = 'netology'  
# TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ
# В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>

In [None]:
# Адрес API вконтакте
POSTS_FEED = 'https://api.vk.com/method/wall.get?'
# Параметры запроса
GROUP = 'netology'
TOKEN = 'XXXXX'
VERSION = 5.126

In [None]:
# Параметры запроса к API
params = {
    'domain': GROUP,
    'access_token': TOKEN,
    'v': VERSION,
    'count': 50
}

In [None]:
# Запрос к API вконтакте, по которому получаем 50 последних записей на стене группы "Нетология"
res = requests.get(POSTS_FEED, params)
res

In [None]:
# Создаем датафрейм с объектами результата запроса
df = pd.DataFrame(res.json()['response']['items'])

In [None]:
# Выбрасываем ненужные данные и оставляем только date и text
df.drop(['id', 'from_id', 'owner_id', 'marked_as_ads', 'post_type', 'is_pinned',
         'attachments', 'comments', 'likes', 'reposts', 'views', 'is_favorite', 'donut',
         'short_text_rate', 'carousel_offset', 'edited'
        ], axis='columns', inplace=True)

In [None]:
# Переименовываеми колонки "date" и "text" в "дата поста" и "текст поста" соответственно
df.columns = ['дата поста', 'текст поста']

In [None]:
# Функция для перевода даты поста из формата unixtime в формат дд-мм-гггг
def date_(row):
    date = datetime.fromtimestamp(row).strftime('%d-%m-%Y')
    return date

In [None]:
# Переводим дату поста из формата unixtime в формат дд-мм-гггг
df['дата поста'] = df['дата поста'].apply(date_)