# Домашнее задание по теме: "Основы веб-скрапинга"

## Обязательная часть
Вам необходимо написать функцию, которая будет основана на поиске по сайту habr.com. Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

<дата> - <заголовок> - <ссылка на материал>

В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса.

Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.

In [3]:
# импорт библиотек
from bs4 import BeautifulSoup
from datetime import datetime
import pandas as pd
import time
from IPython.display import display, HTML # для отображения полных строк и кликабельных ссылок
from random import random
import requests
import re

In [32]:
def get_posts_df(url, params):
    '''Функция получающая данные из поиска на сайте habr.ru'''
    df = pd.DataFrame()

    res = requests.get(url + f'/ru/search', params=params)
    soup = BeautifulSoup(res.text)

    # полученние объектов с классом tm-articles-list__item
    articles = soup.find_all('article', class_='tm-articles-list__item') 

    # проход в цикле по объектам articles, получение и запись нужных данных в dataframe
    for article in articles:
        date_full = article.find('span', class_='tm-article-snippet__datetime-published').find('time').get('datetime')
        date = datetime.strptime(str(date_full), '%Y-%m-%dT%H:%M:%S.000Z') # изменение формата даты
        title = article.find('a', class_="tm-article-snippet__title-link").text
        link = url + article.find('a', class_="tm-article-snippet__title-link").get('href')
        
        # итоговый словарь для формирования строки
        row = {'date' : date, 'title' : title, 'link' : link}

        # построчное добавление данных в dataframe
        df = pd.concat([df, pd.DataFrame([row])])

    return df

In [33]:
# ссылка и параметры
url = 'https://habr.com'
params = {
   'q': 'python'
}

habr_posts = get_posts_df(url, params)

In [34]:
# проверка количества
len(habr_posts)

20

In [36]:
# проверка содержания
display(HTML(habr_posts.head(10).reset_index(drop=True).to_html(render_links=True, escape=False)))

Unnamed: 0,date,title,link
0,2022-08-29 09:05:02,Логирование в Python: руководство разработчика,https://habr.com/ru/company/wunderfund/blog/683880/
1,2022-01-20 15:37:16,Курс «Python для инженеров». Старт 3 потока 31 января,https://habr.com/ru/company/southbridge/news/t/646825/
2,2020-04-21 15:35:14,"Вышел Python 2.7.18, последний релиз ветки Python 2.x",https://habr.com/ru/news/t/498364/
3,2021-12-13 06:00:03,"Жаждущим автоматизации: открытый урок «ChatOps c Errbot на Python», 21 декабря",https://habr.com/ru/company/southbridge/news/t/595093/
4,2021-07-06 10:29:57,Python Community Meetup 8/07: видео и материалы встречи,https://habr.com/ru/company/raiffeisenbank/news/t/566370/
5,2022-01-13 15:35:30,"Открытый урок «Пишем Custom Prometheus Exporter на Python», 19 января",https://habr.com/ru/company/southbridge/news/t/645485/
6,2020-12-04 18:03:25,Python как компилируемый статически типизированный язык программирования,https://habr.com/ru/news/t/531402/
7,2022-03-08 09:13:52,Вышел мартовский релиз расширения Python для Visual Studio Code,https://habr.com/ru/news/t/654707/
8,2020-03-03 10:22:32,В начале этого года Python сместил Java и стал вторым по популярности языком программирования среди разработчиков,https://habr.com/ru/company/itsumma/news/t/490834/
9,2021-11-16 13:09:46,EPAM разработала бесплатный курс по программированию для детей и подростков «Chatbot on Python. Part 1»,https://habr.com/ru/company/epam_systems/news/t/589555/


## Дополнительная часть (необязательная)
Функция из обязательной части задания должна быть расширена следующим образом:

кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
<дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>

In [6]:
def get_posts_df(url, params, pcount):
    '''Функция получающая данные из поиска на сайте habr.ru'''
    df = pd.DataFrame()

    for page in range(0, pcount):
        res = requests.get(url + f'/ru/search/page{page + 1}', params=params)
        soup = BeautifulSoup(res.text)

        # полученние объектов с классом tm-articles-list__item
        articles = soup.find_all('article', class_='tm-articles-list__item')

        # проход в цикле по объектам articles, получение и запись нужных данных в dataframe
        for article in articles:
            date_full = article.find('span', class_='tm-article-snippet__datetime-published').find('time').get('datetime')
            date = datetime.strptime(str(date_full), '%Y-%m-%dT%H:%M:%S.000Z') # изменение формата даты
            title = article.find('a', class_="tm-article-snippet__title-link").text
            link = url + article.find('a', class_="tm-article-snippet__title-link").get('href')

            # получение текста материала
            # из-за такой https://habr.com/ru/company/epam_systems/news/t/589555/ ссылки в поиске добавил try/except
            try:
                text = BeautifulSoup(requests.get(link).text).find('div', class_='article-formatted-body').text
            except:
                print(f'Редирект или нерабочая ссылка ({link})')
                continue

            # получение лайков и дизлайков
            votes_text = article.find('svg', class_='tm-votes-meter__icon').text
            votes = re.findall(r'\d+', votes_text)
            # если список пустой подстановка нулей
            likes, dislikes = (votes[1], votes[2]) if len(votes) != 0 else (0, 0)

            # итоговый словарь для формирования строки
            row = {'date' : date, 'title' : title, 'link' : link, 'text': text, 'likes': likes, 'dislikes': dislikes}

            # построчное добавление данных в dataframe
            df = pd.concat([df, pd.DataFrame([row])])
  
        # пауза, что бы избежать блокировку
        time.sleep(0) if pcount == 1 else time.sleep(random())

    return df

In [7]:
# ссылка и параметры
url = 'https://habr.com'
params = {
   'q': 'python'
}

# количество страниц
pcount = 5

habr_posts = get_posts_df(url, params, pcount)

Редирект или нерабочая ссылка (https://habr.com/ru/company/epam_systems/news/t/589555/)


In [8]:
# проверка количества
len(habr_posts)

99

In [9]:
# проверка содержания
display(HTML(habr_posts.sample(10).reset_index(drop=True).to_html(render_links=True, escape=False, formatters={'text': lambda x: str(x)[:256]})))

Unnamed: 0,date,title,link,text,likes,dislikes
0,2019-02-26 09:00:01,Управление памятью в Python,https://habr.com/ru/company/ruvds/blog/441568/,"Задумывались ли вы когда-нибудь о том, как данные, с которыми вы работаете, выглядят в недрах Python? О том, как переменные создаются и хранятся в памяти? О том, как и когда они удаляются? Материал, перевод которого мы публикуем, посвящён исследованиям глу",26,3
1,2013-02-17 13:37:02,Путешествие исключений между C++ и Python или «Туда и обратно»,https://habr.com/ru/post/169639/,"В этой главе сказа про дружбу C++ и Python будет на удивление мало использования Boost.Python. Передача исключений туда и обратно является по сути слабым местом данной библиотеки. Будем обходиться родным API языка Python, а где это возможно использовать Bo",36,1
2,2019-10-11 11:18:06,Python vs JavaScript: Which One Can Benefit You The Most?,https://habr.com/ru/post/471134/,"The web development arena is moving at a fast pace and has reached an advanced stage today. Python and Javascript making some significant contributions for almost three decades. Now, being a developer or a business if you are planning to pick one of the",10,2
3,2019-06-27 14:03:20,Что я узнал про оптимизацию в Python,https://habr.com/ru/company/otus/blog/457942/,"Всем привет. Сегодня хотим поделиться еще одним переводом подготовленным в преддверии запуска курса «Разработчик Python». Поехали! Я использовал Python чаще, чем любой другой язык программирования в последние 4-5 лет. Python – преобладающий язык для би",21,2
4,2019-04-24 09:25:59,Изюминки прошедшей Moscow Python Conf++ 2019: трансформация в площадку для общения,https://habr.com/ru/company/oleg-bunin/blog/449200/,"Самыми горячими темами Moscow Python Conf++ оказались асинхронная разработка, а также сопоставление Python, его лучших практик и инструментария с аналогами из других языков, и его место в ландшафте современной разработки. Плюс мы пригласили выступить Бендж",19,0
5,2013-02-06 11:42:41,Объединяя C++ и Python. Тонкости Boost.Python. Часть вторая,https://habr.com/ru/post/168233/,"Данная статья является продолжением первой части. Продолжаем мучить Boost.Python. В этот раз настала очередь класса, который нельзя ни создать, ни скопировать. Обернём почти обычную сишную структуру с необычным конструктором. И поработаем с возвращение",39,1
6,2013-02-10 08:24:48,Конвертация типов в Boost.Python. Делаем преобразование между привычными типами C++ и Python,https://habr.com/ru/post/168827/,"Данная статья не является продолжением повествования об обёртках C++ API. Никаких обёрток сегодня не будет. Хотя по логике это третья часть данного повествования. Сегодня будет море крови, расчленение существующих типов и магическое превращение их в привы",24,1
7,2021-09-22 05:03:44,Открытый вебинар «The Python Packaging»,https://habr.com/ru/news/t/579264/,"23 сентября в 16:30 в рамках цикла открытых технических семинаров компании Xperience AI с докладом выступит Григорий Серебряков (CTO, Xperience AI). Тема доклада - The Python packaging.""The Python packaging has a reputation of a somewhat black box from the",3,0
8,2020-04-03 09:48:57,"Создание Python-обвязки для библиотек, написанных на C/C++, с помощью SIP. Часть 1",https://habr.com/ru/post/495480/,"Иногда во время работы над проектом на языке Python возникает желание использовать библиотеку, которая написана не на Python, а, например, на C или C++. Причины для этого могут быть разные Во-первых, Python — язык замечательный, но в некоторых ситуациях не",8,0
9,2019-06-12 06:53:21,Объектно-ориентированное программирование в Java и Python: сходства и отличия,https://habr.com/ru/post/455796/,"Привет, Хабр! Представляю вашему вниманию перевод статьи “Object-Oriented Programming in Python vs Java” автора Джона Финчера. Реализация объектно-ориентированного программирования (ООП) в языках Java и Python отличается. Принцип работы с объектами, типами",21,2
