# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм со столбцами: <дата> - <заголовок> - <ссылка>.

In [1]:
import requests

In [2]:
from bs4 import BeautifulSoup

In [3]:
import time

KEYWORDS = ['python', 'парсинг']
pages = 50
URL_list = ['https://habr.com/ru/all/'] + ['https://habr.com/ru/all/page'+str(x+2)+'/' for x in range(pages-1)]

a_list = []
articles_intro = []
articles_head = []
dates = []

for URL in URL_list:
    req = requests.get(URL)
    time.sleep(0.3)
    soup = BeautifulSoup(req.text, 'html.parser')
    posts = soup.find_all('article', class_='post post_preview')

    articles_head_with_href = list(map(lambda x: x.find('a', class_='post__title_link'), posts))
    a_list += list(map(lambda x: x.get('href'), articles_head_with_href))
    articles_intro += list(map(lambda x: x.find('div', class_='post__body post__body_crop').text, posts))
    articles_head += list(map(lambda x: x.text, articles_head_with_href))
    dates += list(map(lambda x: x.find('span', class_='post__time').text, posts))


In [3]:
import pandas as pd

In [11]:
news = pd.DataFrame({'date': dates, 'header':articles_head, 'intro':articles_intro, 'a': a_list})
news.head()

Unnamed: 0,date,header,intro,a
0,сегодня в 00:31,Всё о проекте «Спутниковый интернет Starlink»....,\n\nЧасть 1 ‣ Часть2 \n\r\nКосмические аппарат...,https://habr.com/ru/post/526204/
1,сегодня в 00:20,"Динамика квадро-, гекса- и октокоптеров. Модел...","\n\n Продолжение статьи ""Введение в модел...",https://habr.com/ru/post/525620/
2,вчера в 23:28,Как подружить .NET и IDA Pro (о дружбе C# и C++),"\n\n\nПриветствую,\nСначала о проблеме/задаче:...",https://habr.com/ru/post/526196/
3,вчера в 23:16,Как в enterprise при помощи R применять технол...,"\n\nКак-то так получилось, что в 2020 году воз...",https://habr.com/ru/post/526194/
4,вчера в 22:40,Kotlin Android Extensions deprecated. Что дела...,"\n\n Возможно, вы уже слышали, что Kotlin...",https://habr.com/ru/post/526192/


In [6]:
len(news)

996

In [7]:
table = pd.DataFrame()
for word in KEYWORDS:
    table1 = news[(news.header.str.contains(word)) | (news.intro.str.contains(word))]
    table = pd.concat([table, table1])
    
table

Unnamed: 0,date,header,intro,a
922,15 октября 2020 в 15:25,Разработка онлайн-сервиса для инвесторов на py...,\n\n Цель настоящей статьи — поделиться о...,https://habr.com/ru/post/523612/
392,26 октября 2020 в 20:29,ZoomX. Меняем правила шаблонизации в MODX Revo...,"\n\n Привет, друзья! Хорошая новость для ...",https://habr.com/ru/post/525158/
586,22 октября 2020 в 11:47,Мелкая питонячая радость #11: реактивное прогр...,"\n\n\nНа этой неделе мы посмотрим, как можно р...",https://habr.com/ru/post/523878/
750,19 октября 2020 в 16:01,Spark schemaEvolution на практике,"\n\n Уважаемые читатели, доброго дня!\n\r...",https://habr.com/ru/company/neoflex/blog/524080/


In [9]:
del table['intro']

In [10]:
table

Unnamed: 0,date,header,a
922,15 октября 2020 в 15:25,Разработка онлайн-сервиса для инвесторов на py...,https://habr.com/ru/post/523612/
392,26 октября 2020 в 20:29,ZoomX. Меняем правила шаблонизации в MODX Revo...,https://habr.com/ru/post/525158/
586,22 октября 2020 в 11:47,Мелкая питонячая радость #11: реактивное прогр...,https://habr.com/ru/post/523878/
750,19 октября 2020 в 16:01,Spark schemaEvolution на практике,https://habr.com/ru/company/neoflex/blog/524080/


### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.

Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст статьи>

## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>.

In [56]:
import json
headers = {
    'Accept' :'application/json, text/plain, */*',
    'User-Agent':'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:82.0) Gecko/20100101 Firefox/82.0',
    'Content-Type':'application/json;charset=utf-8',
    'Accept-Encoding' : 'gzip, deflate, br' ,
    'Accept-Language' : 'ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3' ,
    'Connection' : 'keep-alive',
    'Content-Length' :'31',
    'Content-Type' : 'application/json;charset=utf-8',
    'Host' : 'identityprotection.avast.com',
    'Origin' : 'https://www.avast.com',
    'Referer' : 'https://www.avast.com/hackcheck/',
    'User-Agent' : 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:82.0) Gecko/20100101 Firefox/82.0',
    'Vaar-Header-App-Product' : 'hackcheck-web-avast',
    'Vaar-Version': '0'
}
emails = ['xxx@x.ru', 'yyy@y.com']
URL = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'

table = pd.DataFrame()

for email in emails:
    response = requests.post(URL, headers=headers, json = {"emailAddresses":[email]})
    for breach_value in response.json()['breaches'].values():
        
        row = {'email': email, 'publishDate': breach_value['publishDate'], 'site': breach_value['site'], 'description': breach_value['description'] }
        table = pd.concat([table, pd.DataFrame([row])])  
        
table

Unnamed: 0,email,publishDate,site,description
0,xxx@x.ru,2019-03-28T00:00:00Z,verifications.io,Big data e-mail verification platform verifica...
0,xxx@x.ru,2020-05-21T00:00:00Z,vk.com,"At some time in 2020, the Russian social netwo..."
0,xxx@x.ru,2017-02-14T00:00:00Z,parapa.mail.ru,"In July and August 2016, two criminals execute..."
0,xxx@x.ru,2016-10-29T00:00:00Z,vk.com,Popular Russian social networking platform VKo...
0,xxx@x.ru,2016-10-21T00:00:00Z,adobe.com,"In October of 2013, criminals penetrated Adobe..."
0,xxx@x.ru,2017-02-14T00:00:00Z,cfire.mail.ru,"In July and August of 2016, two criminals carr..."
0,xxx@x.ru,2017-01-31T00:00:00Z,cdprojektred.com,"In March 2016, CDProjektRed.com.com's forum da..."
0,xxx@x.ru,2016-10-23T00:00:00Z,imesh.com,"In June 2016, a cache of over 51 million user ..."
0,yyy@y.com,2020-01-03T00:00:00Z,azcentral.com,"At an unconfirmed date, online Arizona newspap..."
0,yyy@y.com,2020-05-28T00:00:00Z,wishbone.io,"In January 2020, the online poll website Wishb..."


### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)```
GROUP = 'netology'
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ
```

В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>.

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
