# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`


In [1]:
import requests
from bs4 import BeautifulSoup
import time
import pandas as pd

In [2]:
KEYWORDS = ['python', 'парсинг','физике']
# pages = 5

In [3]:
url = 'https://habr.com/ru/all/'
req = requests.get(url)
# req = []
# for i in range(1, pages+1):
#     res = requests.get(url+f'page{pages}/')
#     req.append(res)

In [4]:
res = BeautifulSoup(req.text, 'html.parser')

In [5]:
posts = res.find_all('article', class_ = 'post post_preview')

In [7]:
?BeautifulSoup.find_all

In [8]:
news = pd.DataFrame()
for post in posts:
    text = post.find('div', class_ = 'post__text').text
    if any([keyword in text for keyword in KEYWORDS]):
        title = post.find('a', class_ = 'post__title_link')
        date = post.find('span', class_ = 'post__time').text
        row = {'date':date, 'headline':title.text, 'link':title.get('href')}
        news = pd.concat([news, pd.DataFrame([row])])
news

## Задание 2.

In [24]:
EMAIL = ['arseniy1004@gmail.com', 'sasha@gmail.com']
import json

In [58]:
url = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
headers = {'Vaar-Version': '0', 'Vaar-Header-App-Product': 'hackcheck-web-avast'
}

In [83]:
res = pd.DataFrame({})
for email in EMAIL:
    data = {'emailAddresses': [email]}
    req = requests.post(url, json = data, headers=headers)
    df = pd.DataFrame(req.json()['breaches']).transpose()
    df.loc[:,'email'] = email
    res = pd.concat(df, res)

TypeError: first argument must be an iterable of pandas objects, you passed an object of type "DataFrame"

In [78]:
df

Unnamed: 0,site,recordsCount,description,publishDate,column,email
16878,stockx.com,6845808,"In May 2019, online sneaker and fashion retail...",2019-08-15T00:00:00Z,arseniy1004@gmail.com,arseniy1004@gmail.com
17863,havenly.com,1362160,"In June 2020, the online interior design servi...",2020-08-06T00:00:00Z,arseniy1004@gmail.com,arseniy1004@gmail.com
16768,canva.com,137434012,"In May 2019, graphic-design site Canva's datab...",2019-06-13T00:00:00Z,arseniy1004@gmail.com,arseniy1004@gmail.com


### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)  
```
GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ  
```

В итоге должен формироваться датафрейм со столбцами: `<дата поста> - <текст поста>`

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
