# Обязательная часть
Вам необходимо написать функцию, которая будет основана на поиске по сайту habr.com. Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

<дата> - <заголовок> - <ссылка на материал>
В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.

# Дополнительная часть (необязательная)
Функция из обязательной части задания должна быть расширена следующим образом:

кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
<дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>
ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой Google Colab. Не сможем проверить или помочь, если вы пришлете:

файлы;
архивы;
скриншоты кода.
Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в Discord.

Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:

Что я делаю?
Какого результата я ожидаю?
Как фактический результат отличается от ожидаемого?
Что я уже попробовал сделать, чтобы исправить проблему?
По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.

In [69]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [88]:
import time


def search_habr(query_list):
    habr_posts = pd.DataFrame()
    URL = 'https://habr.com/ru/search/'
    for q in query_list:
        params = {
            'q': q
        }
        req = requests.get(URL, params=params)
        time.sleep(0.3)
        soup = BeautifulSoup(req.text)
        articles = soup.find_all('article', class_='tm-articles-list__item')
        for article in articles:
            title = article.find('h2', class_='tm-title tm-title_h2').text
            link = article.find('h2', class_='tm-title tm-title_h2').find('a').get('href')
            date = article.find('span', class_='tm-article-datetime-published').text
            categories = article.find_all('a', class_='tm-publication-hub__link')
            category_list = [category.text for category in categories] if categories else []
            if not category_list:
                categories = article.find_all('div', class_='tm-publication-hubs__container')
                category_list = [category.text for category in categories] if categories else []
            row = {'date': date, 'title': title, 'link': link, 'category': category_list}
            habr_posts = pd.concat([habr_posts, pd.DataFrame([row])])
    return habr_posts.reset_index(drop=True)


search_habr(['python', 'data science'])




Unnamed: 0,date,title,link,category
0,30 июн 2021 в 09:00,Зачем инженеру эксплуатации знать Python: три ...,/ru/companies/slurm/articles/563802/,[]
1,20 ноя в 12:01,"Две мощных возможности Python, упрощающие код ...",/ru/companies/wunderfund/articles/775052/,[]
2,19 янв 2022 в 09:00,Пишем свои модули для Ansible на Python,/ru/companies/slurm/articles/646147/,[]
3,17 ноя в 09:23,Разработка алгоритмов обработки данных в реаль...,/ru/companies/mvideo/articles/773420/,[]
4,27 ноя в 08:45,"Make It Right! Максимум пользы, минимум пробле...",/ru/companies/gazprommedia/articles/772888/,[]
5,20 ноя в 11:10,Время изменений: депрекация datetime.utcnow() ...,/ru/articles/775024/,[]
6,29 ноя в 11:00,"Вероятно, вы неправильно используете метод __i...",/ru/companies/first/articles/775656/,[]
7,21 апр 2020 в 18:35,"Вышел Python 2.7.18, последний релиз ветки Pyt...",/ru/news/498364/,[]
8,23 ноя в 13:18,Создание фреймворка автоматизации на Python с ...,/ru/articles/775898/,[]
9,17 ноя в 13:22,Асинхронный python без головной боли (часть 3),/ru/articles/774582/,[]


In [92]:
import time
import pandas as pd
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin


def search_habr(query_list, num_pages):
    habr_posts = pd.DataFrame()
    URL = 'https://habr.com/ru/search/'
    for q in query_list:
        for page in range(1, num_pages + 1):
            params = {
                'q': q,
                'page': page
            }
            req = requests.get(URL, params=params)
            time.sleep(0.3)
            soup = BeautifulSoup(req.text)
            articles = soup.find_all('article', class_='tm-articles-list__item')
            for article in articles:
                title_element = article.find('h2', class_='tm-title tm-title_h2')
                if title_element:
                    title = title_element.text
                    link_element = title_element.find('a')
                    if link_element:
                        link = urljoin(URL, link_element.get('href'))
                        date_element = article.find('span', class_='tm-article-datetime-published')
                        if date_element:
                            date = date_element.text
                            likes_element = article.find('span', class_='tm-icon-counter__value')
                            if likes_element:
                                likes = likes_element.text
                                req_post = requests.get(link)
                                time.sleep(0.3)
                                soup_post = BeautifulSoup(req_post.text)
                                post_text_element = soup_post.find('div',
                                                                   class_='article-formatted-body article-formatted-body article-formatted-body_version-1')
                                if post_text_element:
                                    post_text = post_text_element.get_text()
                                    categories = article.find_all('a', class_='tm-publication-hub__link')
                                    category_list = [category.text for category in categories] if categories else []

                                    if not category_list:
                                        categories = article.find_all('a', class_='tm-navigation-menu__link_dark')
                                        category_list = [category.text for category in categories] if categories else []

                                    row = {'date': date, 'title': title, 'link': link, 'text': post_text,
                                           'likes': likes, 'categories': category_list}
                                    habr_posts = pd.concat([habr_posts, pd.DataFrame([row])])
    return habr_posts.reset_index(drop=True)


search_habr(['python', 'data science'], 4)




KeyboardInterrupt: 