# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`


In [13]:
import requests
import pandas as pd
import datetime

KEYWORDS = ['python','data','stm32f4']

habr = requests.get('https://habr.com/ru/all/')

In [2]:
from bs4 import BeautifulSoup

In [3]:
soup = BeautifulSoup(habr.text, 'html.parser')

In [4]:
posts = soup.find_all('article', class_='post')
posts

[<article class="post post_preview" lang="ru">
 <header class="post__meta">
 <a class="post__user-info user-info" href="https://habr.com/ru/users/samoreklam/" title="Автор публикации">
 <span class="default-image_mini default-image_green">
 <svg aria-hidden="true" class="icon-svg" height="24" role="img" version="1.1" viewbox="0 0 24 24" width="24"><path d="M21.5 24h-19c-1.379 0-2.5-1.122-2.5-2.5v-19c0-1.379 1.122-2.5 2.5-2.5h19c1.379 0 2.5 1.122 2.5 2.5v19c0 1.379-1.122 2.5-2.5 2.5zm-19-23c-.827 0-1.5.673-1.5 1.5v19c0 .827.673 1.5 1.5 1.5h19c.827 0 1.5-.673 1.5-1.5v-19c0-.827-.673-1.5-1.5-1.5h-19zM15.598 12.385zM19.438 15.417l-.002-.005v-.001c-.875-2.226-2.484-3.054-3.445-3.549l-.273-.143c.029-.497-.025-1.034-.167-1.599l-.128.032.123-.044c-.765-2.152-1.757-2.585-2.632-2.967l-.006-.003-.535-2.121c.357-.065.628-.375.628-.752.001-.423-.342-.765-.765-.765s-.766.342-.766.765c0 .358.248.657.581.74l-.825 1.654-.014-.003-.024-.003c-1.053-.033-1.842.369-2.5.947-.633-.322-1.515-.729-2.158-1.814.

In [26]:
hub_all = pd.DataFrame()
for post in posts:
    post_id = post.parent.attrs.get('id')
    if not post_id:
        continue
    post_id = int(post_id.split('_')[-1])
    preview = post.find_all('p')
    for prew in preview:
        prew_lower = prew.text.lower().split(' ')
        for keys in KEYWORDS:
            for low_prew in prew_lower:
                if low_prew == keys:
                    #print(post_id)
                    title_element = post.find('a', class_='post__title_link')
                    #print(title_element.text, title_element.attrs.get('href'))
                    date =  datetime.datetime.today()
                    title = title_element.text
                    href = title_element.attrs.get('href')
                    row = {'date': date.strftime("%d-%m-%Y"), 'title': title, 'href': href}
                    #print(row)
                    hub_all = pd.concat([hub_all, pd.DataFrame([row])])  
hub_all

Unnamed: 0,date,title,href
0,22-02-2021,АЦП преобразования в указанные моменты времени...,https://habr.com/ru/post/543686/
0,22-02-2021,"Pythonista. Привет, Python",https://habr.com/ru/post/543650/
0,22-02-2021,"Pythonista. Привет, Python",https://habr.com/ru/post/543650/


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [38]:
URL = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36',

    'Vaar-Header-App-Product': 'hackcheck-web-avast',
    'Vaar-Version': '0',
}
PAYLOAD = {
    'emailAddresses': ['isugak@yandex.ru']
}
r = requests.post(URL, headers=HEADERS, json=PAYLOAD)
EMAIL = ['isugak@yandex.ru', 'yyy@y.com']

In [40]:
r.json()

{'breaches': {'26098': {'breachId': 26098,
   'site': 'april.nnov.ru',
   'recordsCount': 4908,
   'description': 'In November 2020, a collection of over 23,000 breached sites was leaked on several hacking forums and Telegram channels. These breached sites originated from Cit0Day, a now-defunct private subscription service marketed towards criminals. The leaked data primarily includes email addresses and passwords that Cit0Day offered for a daily or monthly subscription fee.',
   'publishDate': '2020-12-03T00:00:00Z',
   'statistics': {'usernames': 0, 'passwords': 4809, 'emails': 4908}},
  '5': {'breachId': 5,
   'site': 'twitter.com',
   'recordsCount': 27329821,
   'description': "Login credentials for over 32 Million Twitter users were discovered for sale on a dark web marketplace for a price of 10 bitcoin each. It's widely suspected that these credentials weren't the result of a breach of Twitter itself, but rather of information gleaned directly from botnet infected hosts.",
   'p

### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)  
```
GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ  
```

В итоге должен формироваться датафрейм со столбцами: `<дата поста> - <текст поста>`

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
