# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

In [18]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [19]:
res = requests.get('http://habr.com/ru/all/').text

In [20]:
KEYWORDS = ['python', 'парсинг']

In [21]:
soup = BeautifulSoup(res)

In [22]:
articles = soup.find_all('article', class_='tm-articles-list__item')
articles

[<article class="tm-articles-list__item" data-navigatable="" id="567152" tabindex="0"><div class="tm-article-snippet"><div class="tm-article-snippet__meta-container"><div class="tm-article-snippet__meta"><span class="tm-user-info tm-article-snippet__author"><a class="tm-user-info__userpic" href="/ru/users/ru_vds/" title="ru_vds"><div class="tm-entity-image"><img alt="" class="tm-entity-image__pic" height="24" loading="lazy" src="//habrastorage.org/r/w32/getpro/habr/avatars/e36/812/d3d/e36812d3de38eb3d479d7a13228717ef.png" width="24"/></div></a><span class="tm-user-info__user"><a class="tm-user-info__username" href="/ru/users/ru_vds/">
       ru_vds
     </a></span></span><span class="tm-article-snippet__datetime-published"><time datetime="2021-07-18T14:01:01.000Z" title="2021-07-18, 17:01">сегодня в 17:01</time></span></div><!-- --></div><h2 class="tm-article-snippet__title tm-article-snippet__title_h2"><a class="tm-article-snippet__title-link" data-article-link="" href="/ru/company/ru

In [23]:
articles_data = pd.DataFrame(columns=['date', 'header', 'link'])
for article in articles:
    article_id = article.attrs.get('id')
    if not article_id:
        continue
    if any([word in str(article).lower() for word in KEYWORDS]):
        date = pd.to_datetime(article.time.get('title'))
        header = article.h2.string
        link = 'https://habr.com' + article.h2.a.get('href')
        row = {'date': date, 'header': header, 'link': link}
        articles_data = pd.concat([articles_data, pd.DataFrame([row])]) 
articles_data

Unnamed: 0,date,header,link
0,2021-07-18 16:01:00,Модели глубоких нейронных сетей sequence-to-se...,https://habr.com/ru/post/568304/
0,2021-07-18 11:09:00,Обзор Databrick. Что облачный продукт может да...,https://habr.com/ru/post/568276/
0,2021-07-18 07:37:00,Как победить несбалансированность датасета: ме...,https://habr.com/ru/post/568266/


### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`


In [24]:
articles = soup.find_all('article', class_='tm-articles-list__item')

In [25]:
articles_improved_data = pd.DataFrame(columns=['date', 'header', 'link', 'article_text'])

In [26]:
for article in articles:
    link = 'https://habr.com' + article.h2.a.get('href')
    res_article = requests.get(link).text
    soup_article = BeautifulSoup(res_article)
    article_text = soup_article.find('div', class_='tm-article-body').text.strip().replace('\n', ' ')
    if any([word in str(article_text).lower() for word in KEYWORDS]):
        date = pd.to_datetime(article.time.get('title'))
        header = article.h2.string
        row = {'date': date, 'header': header, 'link': link, 'article_text':article_text}
        articles_improved_data = pd.concat([articles_improved_data, pd.DataFrame([row])])
articles_improved_data

Unnamed: 0,date,header,link,article_text
0,2021-07-18 16:55:00,Открытые библиотеки для обучения байесовских с...,https://habr.com/ru/company/spbifmo/blog/566842/,В одном из предыдущих материалов мы рассказали...
0,2021-07-18 16:01:00,Модели глубоких нейронных сетей sequence-to-se...,https://habr.com/ru/post/568304/,6 - Attention is All You NeedВ этом разделе мы...
0,2021-07-18 11:09:00,Обзор Databrick. Что облачный продукт может да...,https://habr.com/ru/post/568276/,"Добрый день, уважаемые читатели! Данная публик..."
0,2021-07-18 07:37:00,Как победить несбалансированность датасета: ме...,https://habr.com/ru/post/568266/,Upsampling dataДанная статья рассчитана для но...


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [12]:
import json

In [13]:
EMAIL = ["xxx@x.ru", "yyy@y.com"]

In [14]:
url_post = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
headers = {
    "Accept": "application/json, text/plain, */*",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "en-GB,en-US;q=0.9,en;q=0.8,ru;q=0.7",
    "Connection": "keep-alive",
    "Content-Length": "36",
    "Content-Type": "application/json;charset=UTF-8",
    "DNT": "1",
    "Host": "identityprotection.avast.com",
    "Origin": "https://www.avast.com",
    "Referer": "https://www.avast.com/",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
    "Vaar-Header-App-Build-Version": "1.0.0",
    "Vaar-Header-App-Product": "hackcheck-web-avast",
    "Vaar-Header-App-Product-Name": "hackcheck-web-avast",
    "Vaar-Version": "0"
}
dict_ = {"emailAddresses": EMAIL}
payload = json.dumps(dict_)
req = requests.post(url_post, data=payload, headers=headers)

In [15]:
result = req.json()
result

{'breaches': {'2': {'breachId': 2,
   'site': 'linkedin.com',
   'recordsCount': 158591429,
   'description': "In 2012, online professional networking platform LinkedIn fell victim to a breach of its members' passwords. Four years later, 117 million email and password combinations from that breach appeared for sale on a dark web marketplace. \n\nThe leaked passwords had only been protected by unsalted SHA-1 cryptographic hashing, which prompted LinkedIn to enforce salted hashing after the breach. Russian national Yevgeniy Nikulin was accused of the breach and was extradited from the Czech Republic to the United States as of March 2018.",
   'publishDate': '2016-10-21T00:00:00Z',
   'statistics': {'usernames': 0,
    'passwords': 111975337,
    'emails': 158591429}},
  '3': {'breachId': 3,
   'site': 'adobe.com',
   'recordsCount': 152046506,
   'description': "In October of 2013, criminals penetrated Adobe's corporate network and the stole source code for several of its software produc

In [16]:
leak = pd.DataFrame(columns=['email', 'date', 'source', 'description'])
for i in EMAIL:
    email = i
    for j in result['summary'][i]['breaches']:
        description = result['breaches'][str(j)]['description']
        source = result['breaches'][str(j)]['site']
        date = pd.to_datetime(result['breaches'][str(j)]['publishDate'], format='%Y.%m.%d').date()
        row = {'email': email, 'description': description, 'source': source, 'date':date}
        leak = pd.concat([leak, pd.DataFrame([row])]) 

In [17]:
leak

Unnamed: 0,email,date,source,description
0,xxx@x.ru,2016-10-21,adobe.com,"In October of 2013, criminals penetrated Adobe..."
0,xxx@x.ru,2016-10-29,vk.com,Popular Russian social networking platform VKo...
0,xxx@x.ru,2016-10-23,imesh.com,"In June 2016, a cache of over 51 million user ..."
0,xxx@x.ru,2017-01-31,cdprojektred.com,"In March 2016, CDProjektRed.com.com's forum da..."
0,xxx@x.ru,2017-02-14,cfire.mail.ru,"In July and August of 2016, two criminals carr..."
0,xxx@x.ru,2017-02-14,parapa.mail.ru,"In July and August 2016, two criminals execute..."
0,yyy@y.com,2016-10-21,linkedin.com,"In 2012, online professional networking platfo..."
0,yyy@y.com,2016-10-21,adobe.com,"In October of 2013, criminals penetrated Adobe..."
0,yyy@y.com,2016-10-23,imesh.com,"In June 2016, a cache of over 51 million user ..."
0,yyy@y.com,2016-10-24,dropbox.com,Cloud storage company Dropbox suffered a major...


### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)  
```
GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ  
```

В итоге должен формироваться датафрейм со столбцами: `<дата поста> - <текст поста>`

#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
