In [1]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time

## Домашнее задание к лекции "Основы веб-скрапинга"
### Обязательная часть
Вам необходимо написать функцию, которая будет основана на **поиске** по сайту [habr.com](habr.com). Функция в качестве параметра должна принимать **список** запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по **каждому** запросу, возвращать датафрейм вида:

    <дата> - <заголовок> - <ссылка на материал>
В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.

In [2]:
def get_search_res(list_):
    """
    Функция принимает на вход список поисковых запросов, и возвращает датафрейм с результатами
    первой страницы поиска сайта habr.com в формате <дата> - <заголовок> - <ссылка на материал>
    """
    
    url = 'https://habr.com/ru/search/'
    df = pd.DataFrame()
    
    for search_query in list_:
        params = {
            'q': search_query
        }
        res = requests.get(url, params=params)
        soup = BeautifulSoup(res.text)
        
        time.sleep(0.1)
        
        posts = soup.find_all('article', class_="tm-articles-list__item")
        
        for el in posts:
            date = el.find('time').get('datetime')
            if el.find('a', class_="tm-article-snippet__title-link"):
                title = el.find('a', class_="tm-article-snippet__title-link").text.strip()
                link = 'https://habr.com' + el.find('a', class_="tm-article-snippet__title-link").get('href').strip()
            else:
                title = el.find('a', class_="tm-megapost-snippet__link tm-megapost-snippet__card").text.strip()
                link = 'https://habr.com' + el.find('a', class_="tm-megapost-snippet__link tm-megapost-snippet__card").get('href').strip()
            row = {'date': date, 'title': title, 'link': link}
            df = pd.concat([df, pd.DataFrame([row])])
            
    return df.drop_duplicates(keep='first', subset='link').reset_index(drop=True)

In [3]:
get_search_res(['python', 'анализ данных'])

Unnamed: 0,date,title,link
0,2022-01-20T15:37:16.000Z,Курс «Python для инженеров». Старт 3 потока 31...,https://habr.com/ru/company/southbridge/news/t...
1,2021-12-13T06:00:03.000Z,Жаждущим автоматизации: открытый урок «ChatOps...,https://habr.com/ru/company/southbridge/news/t...
2,2020-04-21T15:35:14.000Z,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/t/498364/
3,2021-07-06T10:29:57.000Z,Python Community Meetup 8/07: видео и материал...,https://habr.com/ru/company/raiffeisenbank/new...
4,2022-01-13T15:35:30.000Z,Открытый урок «Пишем Custom Prometheus Exporte...,https://habr.com/ru/company/southbridge/news/t...
5,2020-12-04T18:03:25.000Z,Python как компилируемый статически типизирова...,https://habr.com/ru/news/t/531402/
6,2022-03-08T09:13:52.000Z,Вышел мартовский релиз расширения Python для V...,https://habr.com/ru/news/t/654707/
7,2020-03-03T10:22:32.000Z,В начале этого года Python сместил Java и стал...,https://habr.com/ru/company/itsumma/news/t/490...
8,2021-11-16T13:09:46.000Z,EPAM разработала бесплатный курс по программир...,https://habr.com/ru/company/epam_systems/news/...
9,2022-08-19T15:07:02.000Z,Осталась неделя до старта 4 потока Python для ...,https://habr.com/ru/company/southbridge/news/t...


### Дополнительная часть (необязательная)
Функция из обязательной части задания должна быть расширена следующим образом:
* кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
* в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:

      <дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>

In [6]:
def get_search_results(list_, pages=1):
    """
    Функция принимает на вход список поисковых запросов и число страниц, и возвращает датафрейм с
    результатами поиска сайта habr.com в формате <дата> - <заголовок> - <ссылка на материал>
    """
    
    df = pd.DataFrame()
    
    for search_query in list_:
        for page in range(pages):
            url = f'https://habr.com/ru/search/page{page+1}'
            params = {
                'q': search_query
            }
            res = requests.get(url, params=params)
            soup = BeautifulSoup(res.text)

            time.sleep(0.1)

            posts = soup.find_all('article', class_="tm-articles-list__item")

            for el in posts:
                date = el.find('time').get('datetime')
                if el.find('a', class_="tm-article-snippet__title-link"):
                    title = el.find('a', class_="tm-article-snippet__title-link").text.strip()
                    link = 'https://habr.com' + el.find('a', class_="tm-article-snippet__title-link").get('href').strip()
                else:
                    title = el.find('a', class_="tm-megapost-snippet__link tm-megapost-snippet__card").text.strip()
                    link = 'https://habr.com' + el.find('a', class_="tm-megapost-snippet__link tm-megapost-snippet__card").get('href').strip()
                res_post = requests.get(link)
                soup_ = BeautifulSoup(res_post.text)
                time.sleep(0.1)
                if soup_.find('div', class_="tm-article-body"):
                    text = soup_.find('div', class_="tm-article-body").text.strip()
                else:
                    text = soup_.find('p', class_="tm-expired-company__text").text.strip()
                likes = el.find('div', class_="tm-votes-meter tm-data-icons__item").text
                row = {'date': date, 'title': title, 'link': link, 'text': text, "likes": likes}
                df = pd.concat([df, pd.DataFrame([row])])

    return df.drop_duplicates(keep='first', subset='link').reset_index(drop=True)

In [7]:
get_search_results(['python', 'анализ данных'], pages=4)

Unnamed: 0,date,title,link,text,likes
0,2022-01-20T15:37:16.000Z,Курс «Python для инженеров». Старт 3 потока 31...,https://habr.com/ru/company/southbridge/news/t...,"Курс нацелен дать максимальную пользу, поэтому...",Всего голосов 14: ↑12 и ↓2 +10
1,2021-12-13T06:00:03.000Z,Жаждущим автоматизации: открытый урок «ChatOps...,https://habr.com/ru/company/southbridge/news/t...,21 декабря Слёрм проведёт открытый урок «ChatO...,Всего голосов 11: ↑10 и ↓1 +9
2,2020-04-21T15:35:14.000Z,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/t/498364/,"20 апреля 2020 года, спустя почти десять лет п...",Всего голосов 19: ↑19 и ↓0 +19
3,2021-07-06T10:29:57.000Z,Python Community Meetup 8/07: видео и материал...,https://habr.com/ru/company/raiffeisenbank/new...,"Первый открытый онлайн-митап сообщества, для к...",Всего голосов 3: ↑3 и ↓0 +3
4,2022-01-13T15:35:30.000Z,Открытый урок «Пишем Custom Prometheus Exporte...,https://habr.com/ru/company/southbridge/news/t...,19 января Слёрм проведёт открытый урок «Пишем ...,Всего голосов 12: ↑11 и ↓1 +10
...,...,...,...,...,...
154,2016-06-24T20:12:24.000Z,"Достучаться до госорганов или что делать, если...",https://habr.com/ru/company/infoculture/blog/3...,источник картинки: southriverrestoration.com/w...,Всего голосов 20: ↑17 и ↓3 +14
155,2017-04-24T10:46:10.000Z,Приглашаем на IV конференцию по практическому ...,https://habr.com/ru/company/flyelephant/blog/3...,Команда FlyElephant приглашает всех 13 мая в О...,Всего голосов 30: ↑26 и ↓4 +22
156,2017-07-10T13:14:45.000Z,Лекция о двух библиотеках Яндекса для работы с...,https://habr.com/ru/company/yandex/blog/332688/,Пару недель назад в Яндексе прошла встреча PyD...,Всего голосов 35: ↑34 и ↓1 +33
157,2018-10-22T10:29:19.000Z,Бизнес на персональных данных: как добиться ус...,https://habr.com/ru/company/digitalrightscente...,«Данные – нефть цифровой экономики» — выражени...,Всего голосов 9: ↑8 и ↓1 +7
