In [37]:
import requests
from bs4 import BeautifulSoup
import datetime
import pandas as pd
import numpy as np
import time
import json

# Домашнее задание к лекции "Основы веб-скрапинга и работы с API"

## Задание 1. 

### Обязательная часть

Будем парсить страницу со свежеми новостям на [habr.com/ru/all/](https://habr.com/ru/all/).

Вам необходимо собирать только те статьи, в которых встречается хотя бы одно требуемое ключевое слово. Эти слова определяем в начале кода в переменной, например:

`KEYWORDS = ['python', 'парсинг']`

 Поиск вести по всей доступной preview-информации (это информация, доступная непосредственно с текущей страницы). 
 
В итоге должен формироваться датафрейм вида: `<дата> - <заголовок> - <ссылка>`

In [4]:
KEYWORDS = ['Spark', 'Python', 'Golang', 'Flutter']
PAGE_NUM = 3

In [5]:
def parse_habr(keywords, page_num):
    '''
    Парсинг новостей хабра
    '''
    posts_list = []
    habr_link = 'https://habr.com/ru/all'
    for page in range(1, page_num + 1):
        # для первой страницы в ссылке не указывается ее номер         
        if page > 1:
            habr_link = habr_link + f'/page{page}'
        # получение кода сайта
        res = requests.get(habr_link)
        
        if res.status_code == 200:
            # обработка статей
            soup = BeautifulSoup(res.text, 'html.parser')
            posts = soup.find_all('article', class_='post')
            collect_posts(posts, keywords, posts_list)

        else:
            print('Что-то пошло не так на странице ', page)
        
        # таймаут между переходами по страницам
        time.sleep(3)
    
    # сохранение полученных данных в файле
    posts_data = pd.DataFrame(posts_list)
    posts_data.to_csv('habr_result.csv')
    return posts_data

In [6]:
def collect_posts(posts, keywords, posts_list):
    '''
    Обход постов на странице. Поиск в их описании ключевый слов. 
    Формирование данных постов в формате <дата> - <заголовок> - <ссылка> - <текст_статьи>
    '''
    for post in posts:
        post_id = post.parent.attrs.get('id')
        # если идентификатор не найден, это что-то странное, пропускаем
        if not post_id:
            continue
        post_id = int(post_id.split('_')[-1])
        post_previews = post.find_all('div', class_='post__text') # поиск краткого описания поста
        for preview in post_previews:
            preview_lower = preview.text.lower()
            if any([keyword.lower() in preview_lower for keyword in keywords]): # поиск ключевый слов в описании
                post_title = post.find('a', class_='post__title_link')
                post_link = post_title.attrs.get('href')
                post_date = post.find('span', class_='post__time').text
                # обработка даты поста, приведение к типу datetime                       
                if 'сегодня' in post_date:
                    now = datetime.datetime.now()
                    post_date = post_date.replace('сегодня', now.strftime("%Y-%m-%d"))
                    post_datetime = datetime.datetime.strptime(post_date, '%Y-%m-%d в %H:%M')
                elif 'вчера' in post_date:
                    yesterday = datetime.datetime.now() - datetime.timedelta(1)
                    post_date = post_date.replace('вчера', yesterday.strftime("%Y-%m-%d"))
                    post_datetime = datetime.datetime.strptime(post_date, '%Y-%m-%d в %H:%M')

                # извлечение текста поста                         
                post_text = extract_post_text(post_link)

                # сохранение результата обработки поста в словарь
                post_row = {'date': post_datetime, 'title': post_title.text, 'link': post_link, 'text': post_text}
                posts_list.append(post_row)

                # таймаут между переходами по постам
                time.sleep(3)

In [7]:
def extract_post_text(post_link):
    '''
    Поиск текста статьи по ссылке на статью
    '''
    res = requests.get(post_link)
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, 'html.parser')
        post_text = soup.find('div', class_='post__text')      
        return post_text
    else:
        print('Что-то пошло не так при открытии статьи')
        return None

In [8]:
parse_habr(KEYWORDS, PAGE_NUM)

Unnamed: 0,date,title,link,text
0,2021-06-01 15:00:00,Как учить протоколы без чтения RFC: как сэконо...,https://habr.com/ru/company/macloud/blog/560406/,"[[], [], \n, [], \r\nЕсли вы разрабатывает при..."
1,2021-06-01 12:22:00,Как Apache Spark 3.0 увеличивает производитель...,https://habr.com/ru/company/cloudera/blog/560246/,"[[[], []], [Практически в каждом секторе, рабо..."
2,2021-06-01 11:14:00,Генераторы для самых маленьких,https://habr.com/ru/company/domclick/blog/560300/,"[[Всем привет! В бытность мою, когда я самосто..."


### Дополнительная часть (необязательная)

Улучшить скрипт так, чтобы он анализировал не только preview-информацию статьи, но и весь текст статьи целиком.

Для этого потребуется получать страницы статей и искать по тексту внутри этой страницы.  

Итоговый датафрейм формировать со столбцами: `<дата> - <заголовок> - <ссылка> - <текст_статьи>`


## Задание 2.

### Обязательная часть

Написать скрипт, который будет проверять список e-mail адресов на утечку при помощи сервиса [Avast Hack Ckeck](https://www.avast.com/hackcheck/).
Список email-ов задаем переменной в начале кода:  
`EMAIL = [xxx@x.ru, yyy@y.com]`

В итоге должен формироваться датафрейм со столбцами: `<почта> - <дата утечки> - <источник утечки> - <описание утечки>`  

**Подсказка**: сервис работает при помощи "скрытого" API. Внимательно изучите post-запросы.

In [12]:
def check_email_avast(email_list):
    '''
    Проверка адресов на утечку пароля
    '''
    #   формирование запроса  
    REQ_URL = 'https://identityprotection.avast.com/v1/web/query/site-breaches/unauthorized-data'
    request_body = json.dumps({"emailAddresses":email_list})
    headers = {
        'Vaar-Header-App-Build-Version': '1.0.0',
        'Vaar-Header-App-Product': 'hackcheck-web-avast',
        'Vaar-Header-App-Product-Name': 'hackcheck-web-avast',
        'Vaar-Version': '0',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
    }
    
    # отправка запроса
    res = requests.post(REQ_URL, headers = headers, data = request_body)
    
    # обработка ответа
    if res.status_code == 200:
        response = json.loads(res.text)
        result = extract_response_data(response)
        return result
    else:
        return 'Во время получения данных, что-то пошло не так: ' + res.text

In [38]:
def extract_response_data(response):
    '''
    Обработка результата и выгрузка в формате: 
    <результат обработки> - <почта> - <дата утечки> - <источник утечки> - <описание утечки>
    Значения параметра <результат обработки>: 0 - утечки пароля не было
                                              1 - была утечка
    '''
    result = []
    summary = response['summary']
    breaches = response['breaches']
    for email in summary.keys():
        breaches_id = summary[email]['breaches']
        if len(breaches_id) == 0: # если не было утечек, все равно передаем информацию об обработке почты
            result.append({'result':0, 'email':email, 'breach_date':np.nan, 'sourse':np.nan, 'description':np.nan})
        else:
            for breach in breaches_id: # обход списка источников
                breach_str = str(breach)
                breach_date = breaches[breach_str]['publishDate']
                sourse = breaches[breach_str]['site']
                description = breaches[breach_str]['description']
                result.append({'result':1, 'email':email, 'breach_date':breach_date, 'sourse':sourse, 'description':description})
    
    # сохранение полученных данных в файле
    result_data = pd.DataFrame(result)
    result_data.to_csv('email_check_result.csv')
    return result_data

In [40]:
check_email_avast(EMAIL)

Unnamed: 0,result,email,breach_date,sourse,description
0,0,kate-420@rambler.ru,,,
1,1,kate-42@rambler.ru,2017-02-14T00:00:00Z,parapa.mail.ru,"In July and August 2016, two criminals execute..."
2,1,kate-42@rambler.ru,2016-10-29T00:00:00Z,vk.com,Popular Russian social networking platform VKo...
3,1,kate-42@rambler.ru,2016-10-23T00:00:00Z,rambler.ru,"On February 17, 2012, Russian email provider R..."
4,1,kate-42@rambler.ru,2020-12-10T00:00:00Z,pif-paf.ru,"In November 2020, a collection of over 23,000 ..."


### Дополнительная часть (необязательная)

Написать скрипт, который будет получать 50 последних постов указанной группы во Вконтакте.  
Документация к API VK: https://vk.com/dev/methods
, вам поможет метод [wall.get](https://vk.com/dev/wall.get)  
```
GROUP = 'netology'  
TOKEN = УДАЛЯЙТЕ В ВЕРСИИ ДЛЯ ПРОВЕРКИ, НА GITHUB НЕ ВЫКЛАДЫВАТЬ  
```

В итоге должен формироваться датафрейм со столбцами: `<дата поста> - <текст поста>`

In [32]:
def get_vposts_netology(n):
    '''
    Получение последних "n" постов Вконтакте из группы Нетологии
    '''
    # установка параметров    
    NEWSFEED_REQUEST = 'https://api.vk.com/method/wall.get'
    
    params = {
        'access_token': 'TOKEN',
        'v': '5.131',
        'domain': 'netology',
        'count': n
    }
    
    # отправка запроса    
    res = requests.get(NEWSFEED_REQUEST, params)
    
    # обработка ответа
    if res.status_code == 200:
        response = json.loads(res.text)
        result = extract_vkfeed_data(response)
        return result
    else:
        return 'Во время получения данных, что-то пошло не так: ' + res.text

In [33]:
def extract_vkfeed_data(response):
    result = []
    
    # обработка постов     
    for post in response['response']['items']:
        # дата передается в формате unixtime, поэтому преобразуется в datetime для читаемости
        post_date = pd.to_datetime(post['date'], unit='s') 
        post_text = post['text']
        result.append({'post_date':post_date, 'post_text':post_text})
    
    # сохранение полученных данных в файле
    result_data = pd.DataFrame(result)
    result_data.to_csv('netology_feed_result.csv')
    return result_data

In [34]:
get_vposts_netology(50)

Unnamed: 0,post_date,post_text
0,2021-05-28 14:00:03,Даже супергероям нужно кем-то работать. Поразм...
1,2021-06-01 08:21:00,💼 16 июня пройдёт бесплатная экспресс-конферен...
2,2021-05-31 15:01:00,Онлайн-обучение — возможность сэкономить время...
3,2021-05-31 07:23:00,📚 15 июня стартует курс «Психология: путь к се...
4,2021-05-30 12:15:00,🎁 Запустили страницу с подарками и скидками от...
5,2021-05-30 08:41:00,Поехать в отпуск? Или сделать ремонт? 🤔\n\nРас...
6,2021-05-29 14:19:00,Форум по роботизации процессов и событие для э...
7,2021-05-29 09:01:00,"Собрали подборку статей, чтобы вы разобрались ..."
8,2021-05-28 08:45:00,"Старт новой карьеры — сложное время, разобрать..."
9,2021-05-27 16:01:00,"Многие боятся критики и расстраиваются, когда ..."


#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой на репозиторий [GitHub](https://github.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в slack.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
