# Обязательная часть
Вам необходимо написать функцию, которая будет основана на поиске по сайту habr.com. Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

<дата> - <заголовок> - <ссылка на материал>
В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.



In [8]:
import pandas as pd
import time
import requests
from bs4 import BeautifulSoup

In [12]:

def get_habr_posts(query):
    habr_articles = pd.DataFrame()
    url = 'https://habr.com/ru/search/'
    pre_link_news = 'https://habr.com'

    for q in query:
        params = {'q': q, 'target_type': 'posts', 'order': 'relevance'}
        req = requests.get(url, params=params).text
        time.sleep(0.3)
        soup = BeautifulSoup(req)
        articles = soup.find_all('article', class_='tm-articles-list__item')
        for i, article in enumerate(articles):
            if article.find('a', 'tm-title__link'):
                title = article.find('a', 'tm-title__link').text
            else:
                title = article.find('h2', 'tm-megapost-snippet__title').text
            date = article.find('time').get('title')
            if article.find('a', 'tm-title__link'):
                link = pre_link_news + article.find('a', 'tm-title__link').get('href')
            else:
                link = pre_link_news + article.find('a', 'tm-megapost-snippet__link').get('href')
            row = {'date': date, 'title': title, 'link': link}
            habr_articles = pd.concat([habr_articles, pd.DataFrame([row])])
    return habr_articles.groupby('link').max().reset_index()

get_habr_posts(['python', 'анализ данных'])

Unnamed: 0,link,date,title
0,https://habr.com/ru/articles/226641/,"2014-06-18, 15:19",Обзор наиболее интересных материалов по анализ...
1,https://habr.com/ru/articles/228187/,"2014-06-30, 23:06",Обзор наиболее интересных материалов по анализ...
2,https://habr.com/ru/articles/232879/,"2014-08-11, 10:47",Обзор наиболее интересных материалов по анализ...
3,https://habr.com/ru/articles/236757/,"2014-09-14, 19:54",Обзор наиболее интересных материалов по анализ...
4,https://habr.com/ru/articles/240139/,"2014-10-13, 14:00",Обзор наиболее интересных материалов по анализ...
5,https://habr.com/ru/articles/298670/,"2016-02-14, 23:32",Почему так много «липовых» специалистов по ана...
6,https://habr.com/ru/articles/756548/,"2023-08-23, 20:26",Разработка RESTful API на Python с помощью HappyX
7,https://habr.com/ru/articles/763942/,"2023-09-27, 19:55",Становясь Пангеей: будущее современного стека ...
8,https://habr.com/ru/articles/774918/,"2023-11-19, 14:05","Змеиная наука: Химия в Python, часть 1"
9,https://habr.com/ru/articles/775440/,"2023-11-21, 17:13",Внедрение Автоматизации в Проект с Python: Шаг...


# Дополнительная часть (необязательная)
Функция из обязательной части задания должна быть расширена следующим образом:

кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
<дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>
ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой Google Colab. Не сможем проверить или помочь, если вы пришлете:


In [10]:


def search_habr (query, pages=1):
    habr_articles = pd.DataFrame()
    url = 'https://habr.com/ru/search/'
    pre_link_news = 'https://habr.com'
    for q in query:
        params = {'q': q, 'target_type': 'posts', 'order': 'relevance'}
        for i in range(1, pages+1):
            url_ = url
            if i > 1:
                url_ = url + f'page{i}'
            req = requests.get(url_, params=params).text
            time.sleep(0.3)
            soup = BeautifulSoup(req)
            articles = soup.find_all('article', class_='tm-articles-list__item')
            for i, article in enumerate(articles):
                if article.find('a', 'tm-title__link'):
                    title = article.find('a', 'tm-title__link').text
                else:
                    title = article.find('h2', 'tm-megapost-snippet__title').text
                date = article.find('time').get('title')
                if article.find('a', 'tm-title__link'):
                    link = pre_link_news + article.find('a', 'tm-title__link').get('href')
                else:
                    link = pre_link_news + article.find('a', 'tm-megapost-snippet__link').get('href')
                likes = article.find('span', 'tm-votes-meter__value').text
                req_full = requests.get(link).text
                time.sleep(0.3)
                soup_full = BeautifulSoup(req_full)
                try:
                    if soup_full.find('div', 'article-formatted-body'):
                        text_full = soup_full.find('div', 'article-formatted-body').text
                    else:
                        text_full = " ".join(soup_full.find('div', 't-records').text.split())
                except:
                    text_full = None 
                row = {'date': date, 'title': title, 'link': link, 'likes': likes, 'text': text_full}
                habr_articles = pd.concat([habr_articles, pd.DataFrame([row])])
    return habr_articles.groupby('link').max().reset_index()

search_habr(['python', 'анализ данных'], 2)


Unnamed: 0,link,date,title,likes,text
0,https://habr.com/ru/articles/226641/,2014-06-18,Обзор наиболее интересных материалов по анализ...,+19,\r\nДанный выпуск дайджеста наиболее интересны...
1,https://habr.com/ru/articles/228187/,2014-06-30,Обзор наиболее интересных материалов по анализ...,+24,\r\nДанный выпуск обзора наиболее интересных м...
2,https://habr.com/ru/articles/231323/,2014-07-28,Обзор наиболее интересных материалов по анализ...,+20,\r\nВ очередном выпуске обзора наиболее интере...
3,https://habr.com/ru/articles/232879/,2014-08-11,Обзор наиболее интересных материалов по анализ...,+23,\r\nПредставляю вашему вниманию очередной выпу...
4,https://habr.com/ru/articles/236757/,2014-09-14,Обзор наиболее интересных материалов по анализ...,+25,\r\nПредставляю вашему вниманию очередной выпу...
...,...,...,...,...,...
75,https://habr.com/ru/news/768702/,2023-10-20,Автор курсов по Python и Pandas жалуется на ве...,+13,\nDALL-E 3\n\r\nПреподаватель языка Python Рев...
76,https://habr.com/ru/news/772872/,2023-11-09,Alchemer совместно с JetBrains и Python Softwa...,+3,Alchemer совместно с JetBrains и Python Softwa...
77,https://habr.com/ru/news/775270/,2023-11-21,"Исследование: ChatGPT работает лучше на Julia,...",0,Исследователь из Массачусетского технологическ...
78,https://habr.com/ru/news/778926/,2023-12-06,«Яндекс» открыл новую площадку Школы анализа д...,+6,«Яндекс» открыл в Санкт‑Петербурге пространств...
