# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм со столбцами: <дата> - <заголовок> - <ссылка>.

### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.

Итоговый датафрейм формировать со столбцами: <дата> - <заголовок> - <ссылка> - <текст статьи>

In [1]:
import requests
import time
from bs4 import BeautifulSoup
import pandas as pd

In [2]:
def get_all_links(url, query):
    """Собирает ссылки на статьи в результатах поиска"""
    links_list = []
    params = {
        'q': query,
        'order_by': 'relevance'
    }
    res = requests.get(URL, params)
    time.sleep(0.3)
    soup = BeautifulSoup(res.text, 'html.parser')
    search_blocks = soup.find_all('h2', class_='post__title')
    links_list = list(map(lambda x: x.find('a').get('href'), search_blocks))
    return links_list

KEYWORDS = ['python', 'парсинг']
URL = 'https://habr.com/ru/search/'
all_links = []
for word in KEYWORDS:
    links = get_all_links(URL, word)
    all_links = all_links + links

In [3]:
habr_search = pd.DataFrame()
for links in all_links:
    soup = BeautifulSoup(requests.get(links).text, 'html.parser')
    time.sleep(0.3)
    date = soup.find('span', class_='post__time').text
    title = soup.find('span', class_='post__title-text').text
    article_text = soup.find('div', class_='post__text post__text-html post__text_v1').text
    row = {'date': date, 'title': title, 'link': links, 'article_text': article_text}
    habr_search = pd.concat([habr_search, pd.DataFrame([row])])  
habr_search

Unnamed: 0,date,title,link,article_text
0,21 апреля 2020 в 18:35,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/t/498364/,"\r\n20 апреля 2020 года, спустя почти десять л..."
0,3 марта 2020 в 13:22,В начале этого года Python сместил Java и стал...,https://habr.com/ru/company/itsumma/news/t/490...,"Согласно отчету RedMonk за январь 2020 года, P..."
0,3 июня 2020 в 09:00,Вышла версия 0.0.2 snakeware — дистрибутива Li...,https://habr.com/ru/news/t/505096/,\n\r\n31 мая 2020 года разработчик Джош Мур (J...
0,31 октября 2019 в 10:02,Создатель Python Гвидо ван Россум ушел из Drop...,https://habr.com/ru/news/t/473926/,\n\r\nСоздатель языка программирования Python ...
0,16 сентября 2020 в 16:48,Астрономам порекомендовали меньше использовать...,https://habr.com/ru/news/t/519414/,\n\r\nАстрономы из Лейденской обсерватории опу...
0,9 июля 2012 в 10:21,Мысли о Python 3,https://habr.com/ru/post/147281/,Предлагаю вашему вниманю пересказ замечательно...
0,9 декабря 2012 в 07:16,Дружим Python 3 с MS Visual C++. Строим мост в...,https://habr.com/ru/post/161931/,Всем доброго {daytime}!\n\r\nСегодня пришла по...
0,3 февраля 2013 в 17:26,Объединяя C++ и Python. Тонкости Boost.Python....,https://habr.com/ru/post/168083/,Boost.Python во всех отношениях замечательная ...
0,10 февраля 2013 в 12:24,Конвертация типов в Boost.Python. Делаем преоб...,https://habr.com/ru/post/168827/,Данная статья не является продолжением повеств...
0,17 февраля 2013 в 17:37,Путешествие исключений между C++ и Python или ...,https://habr.com/ru/post/169639/,В этой главе сказа про дружбу C++ и Python буд...


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: <почта> - <дата утечки> - <источник утечки> - <описание утечки>.

In [4]:
def check_avast(url,emails):
    """Проверяет список e-mail адресов на утечку при помощи сервиса Avast Hack Ckeck"""
    avast_leaks = pd.DataFrame()
    for email in emails:
        post_result = requests.post(url, json={"email" : email})
        for leak in post_result.json()['value']:
            row = {'email': email,
                   'date': leak['leak_info']['date'],
                   'source of leak': leak['leak_info']['title'], 
                   'description': leak['leak_info']['description']}
            avast_leaks = pd.concat([avast_leaks, pd.DataFrame([row])])
    return avast_leaks

URL = "https://digibody.avast.com/v1/web/leaks"
emails = ['xxx@x.ru', 'yyy@y.com', 'zzz@z.com', 'example@example.com']
df = check_avast(URL,emails)
df

Unnamed: 0,email,date,source of leak,description
0,xxx@x.ru,1513900800000,Combolist of 1.4 Billion Credentials,The proliferation of stolen or leaked database...
0,xxx@x.ru,1549411200000,Collection #4 Combo List,"On January 7, 2019, an online user named Sanix..."
0,xxx@x.ru,1485820800000,CD Projekt Red,"In March 2016, CDProjektRed.com.com's forum da..."
0,xxx@x.ru,1487030400000,Parapa,"In July and August 2016, two criminals execute..."
0,xxx@x.ru,1488931200000,Sensitive Source,This source has been marked as sensitive due t...
...,...,...,...,...
0,example@example.com,1595462400000,Wattpad,"In June 2020, the online writing community Wat..."
0,example@example.com,1600905600000,Terabase64 Combo List,The Terabase64 Combo List is a combolist origi...
0,example@example.com,1597881600000,Gaming Combo List,"At an unconfirmed date, an unidentified gaming..."
0,example@example.com,1596672000000,Sensitive Source,This source has been marked as sensitive due t...


### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)```
GROUP = 'netology'
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ
```

В итоге должен формироваться датафрейм со столбцами: <дата поста> - <текст поста>.