In [None]:
import numpy as np
import pandas as pd
import requests
from bs4 import BeautifulSoup
import re
import time


✅  **Обязательная часть**

Вам необходимо написать функцию, которая будет основана на поиске по сайту habr.com. Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

<дата> - <заголовок> - <ссылка на материал>
В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.

In [None]:
def get_habr_posts(query):
  """
  Функция возвращает посты из поиcкового запроса с сайта https://habr.com
  """
  habr_rez = pd.DataFrame()
  for q in query:
          URL = 'https://habr.com/ru/search/?q='+q

          req = requests.get(URL)
          soup = BeautifulSoup(req.text)

          articles = soup.find_all('article')
          for article in articles:
              title = article.find('a', 'tm-title__link').text
              l = article.find('a', 'tm-title__link').get('href')
              link = (f'https://habr.com{l}')
              date = article.find('span', 'tm-article-datetime-published').find('time').get('title').split(',')[0]
              row = {'date': date, 'title': title, 'link': link}
              habr_rez = pd.concat([habr_rez, pd.DataFrame([row])])
  return habr_rez.reset_index(drop=True)

In [None]:
res = get_habr_posts(['python', 'data science'])
res

Unnamed: 0,date,title,link
0,2023-09-03,Шаг в астрофизику с помощью Python,https://habr.com/ru/companies/otus/articles/75...
1,2023-08-29,Бесплатный курс VK Education: углублённый Pyth...,https://habr.com/ru/companies/vk/articles/757686/
2,2023-08-22,Microsoft добавила Python в Excel,https://habr.com/ru/news/756266/
3,2023-08-26,Создание красивого Desktop-приложения на Pytho...,https://habr.com/ru/articles/757112/
4,2023-07-27,Приложение Tinkerstellar для обучения Python н...,https://habr.com/ru/news/750782/
5,2023-07-04,Яндекс Практикум запустил буткемп «Python-разр...,https://habr.com/ru/companies/yandex_praktikum...
6,2020-04-21,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/498364/
7,2020-12-04,Python как компилируемый статически типизирова...,https://habr.com/ru/news/531402/
8,2023-08-03,Что нового в Python за июль — обсуждаем в прям...,https://habr.com/ru/news/752190/
9,2020-03-03,В начале этого года Python сместил Java и стал...,https://habr.com/ru/companies/itsumma/news/490...


✅ **Дополнительная часть (необязательная)**

Функция из обязательной части задания должна быть расширена следующим образом:

кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
<дата>:  - <заголовок>  - <ссылка на материал>  - <текст материала> - <количество лайков>

In [None]:
import re

In [None]:
def get_habr_posts(query, page):
"""
Функция возвращает посты с результатами постка с сайта https://habr.com с указанного числа страниц
"""
  habr_rez = pd.DataFrame()

  for q in query:
    for i in range(1, page+1):
      params = {'q': q, 'page': i}
      # params['page'] = i
      URL = 'https://habr.com/ru/search/?q='+q

      req = requests.get(URL, params)
      soup = BeautifulSoup(req.text)

      articles = soup.find_all('article')
      for article in articles:
        title = article.find('a', 'tm-title__link').text
        l = article.find('a', 'tm-title__link').get('href')
        link = (f'https://habr.com{l}')
        date = article.find('span', 'tm-article-datetime-published').find('time').get('title').split(',')[0]
        lik = article.find('div', 'tm-votes-meter tm-data-icons__item').find('title').text
        like = re.search(r'↑\d+', lik)
        try:
          like = like.group().strip('↑')
        except:
          like = 0
        row = {'date': date, 'title': title, 'link': link, 'likes': like}
        habr_rez = pd.concat([habr_rez, pd.DataFrame([row])])

  hr = habr_rez.reset_index(drop=True)
  return hr

In [None]:
res = get_habr_posts(['python', 'анализ данных'], 2)
res

Unnamed: 0,date,title,link,likes
0,2022-10-25,Вышел Python 3.11,https://habr.com/ru/news/695298/,12
1,2008-12-07,"Emacs и Python, Python и Emacs",https://habr.com/ru/articles/46350/,51
2,2019-03-27,6 Essential Python Libraries for Python Progra...,https://habr.com/ru/articles/445482/,3
3,2013-02-03,Объединяя C++ и Python. Тонкости Boost.Python....,https://habr.com/ru/articles/168083/,64
4,2013-02-06,Объединяя C++ и Python. Тонкости Boost.Python....,https://habr.com/ru/articles/168233/,39
...,...,...,...,...
75,2020-04-17,В Яндекс.Облаке открыт доступ к анализу данных...,https://habr.com/ru/companies/yandex/news/497766/,25
76,2019-03-05,«Анализ данных на Python» в двух частях,https://habr.com/ru/companies/JetBrains-educat...,20
77,2019-03-04,Руководство по использованию pandas для анализ...,https://habr.com/ru/companies/ruvds/articles/4...,27
78,2017-08-09,"«Паровозик, который смог!» или «Специализация ...",https://habr.com/ru/articles/335214/,12


In [None]:
def add_full_text(df):
  """
  Функция добавляет к результату функции get_habr_posts() полный текст поста
  """
  i = 0
  for el in df['link']:
    req = requests.get(el).text
    soup = BeautifulSoup(req)
    time.sleep(0.3)
    try:
      full_text = soup.find('div', class_='article-formatted-body article-formatted-body article-formatted-body_version-1').text.strip()
    except:
      try:
        full_text = soup.find('div', class_='article-formatted-body article-formatted-body article-formatted-body_version-2').text.strip()
      except:
        full_text = 'упс'
    df.loc[i, 'text'] = full_text
    i += 1
  return df

In [None]:
full_res = add_full_text(res)
full_res

Unnamed: 0,date,title,link,likes,text
0,2022-10-25,Вышел Python 3.11,https://habr.com/ru/news/695298/,12,Разработчики опубликовали выпуск языка програм...
1,2008-12-07,"Emacs и Python, Python и Emacs",https://habr.com/ru/articles/46350/,51,В сети часто возникают разговоры на тему «Pyth...
2,2019-03-27,6 Essential Python Libraries for Python Progra...,https://habr.com/ru/articles/445482/,3,"Python is a high-level, general-purpose progra..."
3,2013-02-03,Объединяя C++ и Python. Тонкости Boost.Python....,https://habr.com/ru/articles/168083/,64,Boost.Python во всех отношениях замечательная ...
4,2013-02-06,Объединяя C++ и Python. Тонкости Boost.Python....,https://habr.com/ru/articles/168233/,39,Данная статья является продолжением первой час...
...,...,...,...,...,...
75,2020-04-17,В Яндекс.Облаке открыт доступ к анализу данных...,https://habr.com/ru/companies/yandex/news/497766/,25,Сегодня на платформе Яндекс.Облако мы открывае...
76,2019-03-05,«Анализ данных на Python» в двух частях,https://habr.com/ru/companies/JetBrains-educat...,20,Курсы по анализу данных в CS центре читает Вад...
77,2019-03-04,Руководство по использованию pandas для анализ...,https://habr.com/ru/companies/ruvds/articles/4...,27,При использовании библиотеки pandas для анализ...
78,2017-08-09,"«Паровозик, который смог!» или «Специализация ...",https://habr.com/ru/articles/335214/,12,"Ранее в моей прошлой статье, посвящённой обуче..."
