# Домашнее задание к лекции "Основы веб-скрапинга"

## Обязательная часть

Вам необходимо написать функцию, которая будет основана на **поиске** по сайту [habr.com](https://habr.com/ru/search/).
Функция в качестве параметра должна принимать **список** запросов для поиска (например, `['python', 'анализ данных']`) и на основе материалов, попавших в результаты поиска по **каждому** запросу, возвращать датафрейм вида:

```
<дата> - <заголовок> - <ссылка на материал>
```

В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.


In [8]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

def scrape_habr_articles(query):
    """
    Извлекает информацию о статьях на странице поиска Habr, удовлетворяющих заданному 
    поисковому запросу.

    Аргументы:
    query (str): Запрос для поиска статей.

    Возвращает:
    list: Список словарей с данными о статьях. Каждый словарь содержит информацию 
    о дате публикации, заголовке и ссылке на статью.
    """

    base_url = 'https://habr.com/ru/search/'

    search_url = f'{base_url}?q={query}'
    response = requests.get(search_url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')

    articles = soup.find_all('article', class_='tm-articles-list__item')

    rows = []

    for article in articles:
        datetime_element = article.find('span', class_='tm-article-snippet__datetime-published')
        if datetime_element is not None:
            date = datetime_element.text
        else:
            date = ""

        title_element = article.find('h2', class_="tm-title tm-title_h2")
        if title_element is not None:
            title = title_element.text
        else:
            title = ""

        link_relative = article.find('h2', class_="tm-title tm-title_h2").find('a').get('href')
        link_full = urljoin(base_url, link_relative)

        row = {'date': date, 'title': title, 'link': link_full}
        rows.append(row)

    return rows


# Пример использования функции
articles = scrape_habr_articles('python')

# Выводим результаты
for article in articles:
    print(article)

{'date': '', 'title': 'Как я проектирую и разрабатываю расширения Python на Rust', 'link': 'https://habr.com/ru/articles/767254/'}
{'date': '', 'title': 'Функциональное программирование в Python: ежедневные рецепты', 'link': 'https://habr.com/ru/companies/kaspersky/articles/762788/'}
{'date': '', 'title': 'Многопоточность в Python: очевидное и невероятное', 'link': 'https://habr.com/ru/articles/764420/'}
{'date': '', 'title': '10 лучших практик логирования в Python', 'link': 'https://habr.com/ru/companies/ruvds/articles/766010/'}
{'date': '', 'title': 'Как работать с процессами и потоками в Python', 'link': 'https://habr.com/ru/companies/simbirsoft/articles/701020/'}
{'date': '', 'title': 'Построение пайплайна обработки данных в реальном времени с использованием Python', 'link': 'https://habr.com/ru/companies/otus/articles/764136/'}
{'date': '', 'title': 'Как настроить сбор статистики и автоматическое отключение пользователей WireGuard в ispmanager с помощью Python и API', 'link': 'htt

## Дополнительная часть (необязательная)

Вам необходимо написать функцию, которая будет основана на **поиске** по сайту [habr.com](https://habr.com/ru/search/).
Функция в качестве параметра должна принимать **список** запросов для поиска (например, `['python', 'анализ данных']`) и на основе материалов, попавших в результаты поиска по **каждому** запросу, возвращать датафрейм вида:

```
<дата> - <заголовок> - <ссылка на материал>
```

В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.


Функция из обязательной части задания должна быть расширена следующим образом:
- кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента `4` необходимо получить материалы с первых 4 страниц результатов;
- в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
```
<дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>
```


#### ПРИМЕЧАНИЕ
Домашнее задание сдается ссылкой [Google Colab](https://colab.research.google.com/).
Не сможем проверить или помочь, если вы пришлете:
- файлы;
- архивы;
- скриншоты кода.

Все обсуждения и консультации по выполнению домашнего задания ведутся только на соответствующем канале в Discord.

##### Как правильно задавать вопросы аспирантам, преподавателям и коллегам?
Прежде чем задать вопрос необходимо попробовать найти ответ самому в интернете. Навык самостоятельного поиска информации – один из важнейших, и каждый практикующий специалист любого уровня это делает каждый день.

Любой вопрос должен быть сформулирован по алгоритму:  
1) Что я делаю?  
2) Какого результата я ожидаю?  
3) Как фактический результат отличается от ожидаемого?  
4) Что я уже попробовал сделать, чтобы исправить проблему?  

По возможности, прикрепляйте к вопросу скриншоты, либо ссылки на код. Оставляйте только проблемный и воспроизводимый участок кода, все решение выкладывать не допускается.
