# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import json

In [2]:
habr = requests.get('https://habr.com/ru/all/')
habr

<Response [200]>

In [3]:
KEYWORDS = ['python', 'парсинг', 'movement', 'AmCharts', 'Хабр', 'водород', 'скорость', 'SQL']

In [4]:
soup = BeautifulSoup(habr.text, 'html.parser')

In [5]:
posts = soup.find_all('article', class_='post post_preview')

In [6]:
dc_review = {'data': [], 'title': [], 'url': []}
dc_full = {'data': [], 'title': [], 'url': [], 'text': []}

for post in posts:
    post_title = post.contents[3].contents[1].contents[0]
    post_url = post.contents[3].contents[1]['href']
    post_time = post.contents[1].contents[3].contents[0]
    
    # search in full   
    post_full = requests.get(post_url)
    post_text = BeautifulSoup(post_full.text, 'html.parser').select('div.post__text')[0].get_text().strip()
    # search in review
#     post_text = post.find_all('div', class_='post__text')
    if any(word.lower() in str(post_text).lower() for word in KEYWORDS):
       # in review
#         dc_review['data'].append(post_time)
#         dc_review['title'].append(post_title)
#         dc_review['url'].append(post_url)
        # in full
        dc_full['data'].append(post_time)
        dc_full['title'].append(post_title)
        dc_full['url'].append(post_url)
        dc_full['text'].append(post_text)
        
df = pd.DataFrame(dc_full)
df.head(30)


Unnamed: 0,data,title,url,text
0,сегодня в 00:15,Гетерогенный поиск в ассоциативных контейнерах...,https://habr.com/ru/post/523668/,Ассоциативные контейнеры в C++ работают с конк...
1,вчера в 21:57,[Личный опыт] Разработчик на ремоуте: как иска...,https://habr.com/ru/company/gms/blog/523632/,"Поработать с зарубежными заказчиками хочется, ..."
2,вчера в 21:49,Как я за вечер написал быструю CMS для статиче...,https://habr.com/ru/post/523664/,Не Wordpress-ом единым\n\r\nРынок CMS длительн...
3,вчера в 20:36,Механики для реализации платформера на Godot e...,https://habr.com/ru/post/523226/,"Здравствуйте, это уже 3-я часть сборника механ..."
4,вчера в 20:05,Важнейшие вехи в истории развития систем видео...,https://habr.com/ru/company/wd/blog/523652/,Функции современных систем наблюдения давно вы...
5,вчера в 20:00,Как в мире регулируют криптовалюту,https://habr.com/ru/company/moneypipe/blog/523...,"В 2015–2017, когда разные страны ещё только вы..."
6,вчера в 19:41,DataArt запустил бесплатную платформу Kiddo — ...,https://habr.com/ru/company/dataart/blog/523602/,Пополнить базу собственными задачами может люб...
7,вчера в 18:20,Как DDD помог нам построить новые ревизии в пи...,https://habr.com/ru/company/dododev/blog/523540/,В пиццериях важно выстраивать систему учёта и ...
8,вчера в 18:06,Чеклисты в помощь QA,https://habr.com/ru/company/otus/blog/523644/,"Привет, Хабр! Анастасия Асеева-Нгуен (эксперт ..."
9,вчера в 17:31,Фильтр Калмана — это легко,https://habr.com/ru/company/singularis/blog/51...,"Много людей, в первый раз сталкивающихся в раб..."


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [25]:
email_adresses = ['best@hotmail.com', 'emmawatson913@hotmail.com',
'Rupert@RupertGrint.co.uk']

dc_email = {'email': [], 'data': [], 'source': [], 'text': []}

for email in email_adresses:
    url = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
    headers = {'Vaar-Header-App-Product': 'hackcheck-web-avast', 'Vaar-Version': '0'}
    body = {"emailAddresses":[email]}
    req = requests.post(url, headers=headers, data=json.dumps(body))
    data = req.json()
    for breach in data['breaches']:
        dc_email['email'].append(email)
        dc_email['data'].append(data['breaches'][breach]['publishDate']) 
        dc_email['source'].append(data['breaches'][breach]['site'])
        dc_email['text'].append(data['breaches'][breach]['description'])          

pd.DataFrame(dc_email)

Unnamed: 0,email,data,source,text
0,best@hotmail.com,2020-01-30T00:00:00Z,lekoolgames.com,"At an unconfirmed date, the online gaming site..."
1,best@hotmail.com,2019-03-07T00:00:00Z,dubsmash.com,"In December 2018, Dubsmash's database was alle..."
2,best@hotmail.com,2019-11-14T00:00:00Z,toondo.com,"In July 2019, the online comic creation site T..."
3,best@hotmail.com,2020-07-23T00:00:00Z,wattpad.com,"In June 2020, the online writing community Wat..."
4,best@hotmail.com,2020-05-14T00:00:00Z,startribune.com,"In May 2020, the hacking group “ShinyHunters” ..."
5,best@hotmail.com,2019-05-16T00:00:00Z,shein.com,"In June 2018, fast-fashion retailer Shein's da..."
6,best@hotmail.com,2019-01-10T00:00:00Z,chulabook.com,"In October 2018, Chula Book's database was all..."
7,best@hotmail.com,2019-02-28T00:00:00Z,d3scene.com,"In January 2019, D3Scene's database was allege..."
8,best@hotmail.com,2019-02-28T00:00:00Z,8fit.com,"In July 2018, 8fit's database was allegedly br..."
9,best@hotmail.com,2019-10-17T00:00:00Z,omgpop.com,"In September 2019, now-defunct game studio OMG..."


### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)  
```
GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ  
```

В итоге должен формироваться датафрейм со столбцами: `<дата поста> - <текст поста>`

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
