#Домашнее задание к лекции «Основы веб-скрапинга»

Обязательная часть

Вам необходимо написать функцию, которая будет основана на поиске по сайту habr.com. Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

<дата> - <заголовок> - <ссылка на материал>

В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.

In [1]:
import requests
import pandas as pd
from bs4 import BeautifulSoup

In [8]:
#query = ['python', 'анализ данных']
def habr_scrapper_0(query):
  results = []
  for search_word in query:
    base_url = 'https://habr.com'
    params = {'q': search_word,
          'target_type': 'posts',
          'order': 'relevance'}
    resp = requests.get(base_url + '/ru/search', params)
    resp.status_code
    soup = BeautifulSoup(resp.text)
    for article_tag in soup.find_all('article'):
      h2_tag = article_tag.find('h2')
      #print(h2_tag.prettify)
      title = h2_tag.get_text()
      #print(title)
      try:
        link = h2_tag.find('a').get('href')
      except:
        link = 'Ссылка недоступна'
      #print(link)
      date = article_tag.find('time').get('datetime')
      #print(date)
      results.append([date, title, link])
  
  res_df = pd.DataFrame(results, columns = ['date', 'title', 'link'])
  res_df['link'] = base_url + res_df['link']
  res_df['date'] = pd.to_datetime(res_df['date']).dt.date
  res_df.drop_duplicates()
  res_df.reset_index()
      
  return res_df

query = ['python', 'анализ данных']
habr_scrapper_0(query)


Unnamed: 0,date,title,link
0,2022-01-20,Курс «Python для инженеров». Старт 3 потока 31...,https://habr.com/ru/company/southbridge/news/t...
1,2021-12-13,Жаждущим автоматизации: открытый урок «ChatOps...,https://habr.com/ru/company/southbridge/news/t...
2,2020-04-21,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/t/498364/
3,2021-07-06,Python Community Meetup 8/07: видео и материал...,https://habr.com/ru/company/raiffeisenbank/new...
4,2022-01-13,Открытый урок «Пишем Custom Prometheus Exporte...,https://habr.com/ru/company/southbridge/news/t...
5,2020-12-04,Python как компилируемый статически типизирова...,https://habr.com/ru/news/t/531402/
6,2022-03-08,Вышел мартовский релиз расширения Python для V...,https://habr.com/ru/news/t/654707/
7,2020-03-03,В начале этого года Python сместил Java и стал...,https://habr.com/ru/company/itsumma/news/t/490...
8,2021-11-16,EPAM разработала бесплатный курс по программир...,https://habr.com/ru/company/epam_systems/news/...
9,2022-12-26,Positive Technologies открыла доступ по запрос...,https://habr.com/ru/news/t/707698/


#Дополнительная часть (необязательная)

Функция из обязательной части задания должна быть расширена следующим образом:

кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
<дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>

In [10]:
def habr_scrapper(query, page_count):

  #page_count = 1
  results = []
  for pg in range(1, page_count + 1):
    for search_word in query:
      base_url = 'https://habr.com'
      params = {'q': search_word,
                'target_type': 'posts',
                'order': 'relevance'}
      resp = requests.get(base_url + f'/ru/search/page{pg}/', params)
      soup = BeautifulSoup(resp.text)
      for article_tag in soup.find_all('article'):
        h2_tag = article_tag.find('h2')
        #print(h2_tag.prettify)
        title = h2_tag.get_text()
        #print(title)
        try:
          link = h2_tag.find('a').get('href')
        except:
          link = 'Ссылка недоступна'
        #print(link)
        date = article_tag.find('time').get('datetime')
        #print(date)
        rating = article_tag.find('span', attrs = {'class': 'tm-votes-meter__value'}).get_text()
        #print(rating)
        try:
          post_link = base_url + link
          post = requests.get(post_link)
          soup_post = BeautifulSoup(post.text)
          body = soup_post.find('div', attrs = {'class': 'article-formatted-body'}).get_text()
          
        except:
          body = 'Текст недоступен'
        results.append([date, title, link, body, rating])
      
  res_df = pd.DataFrame(results, columns = ['date', 'title', 'link', 'body', 'rating'])
  
  res_df['link'] = base_url + res_df['link']
  res_df['date'] = pd.to_datetime(res_df['date']).dt.date
  
  res_df.drop_duplicates()
  res_df.reset_index()
  return res_df

query = ['python', 'анализ данных']
page_count = 4
final_res_df = habr_scrapper(query, page_count)

In [11]:
final_res_df.head(50)

Unnamed: 0,date,title,link,body,rating
0,2022-01-20,Курс «Python для инженеров». Старт 3 потока 31...,https://habr.com/ru/company/southbridge/news/t...,"Курс нацелен дать максимальную пользу, поэтому...",10
1,2021-12-13,Жаждущим автоматизации: открытый урок «ChatOps...,https://habr.com/ru/company/southbridge/news/t...,21 декабря Слёрм проведёт открытый урок «ChatO...,9
2,2020-04-21,"Вышел Python 2.7.18, последний релиз ветки Pyt...",https://habr.com/ru/news/t/498364/,"\r\n20 апреля 2020 года, спустя почти десять л...",19
3,2021-07-06,Python Community Meetup 8/07: видео и материал...,https://habr.com/ru/company/raiffeisenbank/new...,"Первый открытый онлайн-митап сообщества, для к...",3
4,2022-01-13,Открытый урок «Пишем Custom Prometheus Exporte...,https://habr.com/ru/company/southbridge/news/t...,19 января Слёрм проведёт открытый урок «Пишем ...,10
5,2020-12-04,Python как компилируемый статически типизирова...,https://habr.com/ru/news/t/531402/,По данным широко известного в узких кругах Tio...,16
6,2022-03-08,Вышел мартовский релиз расширения Python для V...,https://habr.com/ru/news/t/654707/,Вышел выпуск расширения Python для Visual Stud...,0
7,2020-03-03,В начале этого года Python сместил Java и стал...,https://habr.com/ru/company/itsumma/news/t/490...,"Согласно отчету RedMonk за январь 2020 года, P...",31
8,2021-11-16,EPAM разработала бесплатный курс по программир...,https://habr.com/ru/company/epam_systems/news/...,Текст недоступен,3
9,2022-12-26,Positive Technologies открыла доступ по запрос...,https://habr.com/ru/news/t/707698/,\n\r\nРазработчик решений для информационной б...,2


In [12]:
final_res_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 160 entries, 0 to 159
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    160 non-null    object
 1   title   160 non-null    object
 2   link    160 non-null    object
 3   body    160 non-null    object
 4   rating  160 non-null    object
dtypes: object(5)
memory usage: 6.4+ KB
