## Project Description:

This project involves developing a web scraper to collect articles from the Habr website based on specific search queries such as "python" and "data analysis." The scraper navigates through the search results pages, extracts the titles, links, publication dates, full text of the articles, and the number of likes or votes. The collected data is organized into a structured pandas DataFrame for further analysis or use. This automation provides a streamlined way to gather information from Habr for research or content aggregation purposes.

In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time

## Определение функции get_habr_posts(query, pages)

Описание: Эта функция выполняет веб-скрапинг статей с сайта Habr по заданным ключевым словам (в query) и возвращает данные в виде таблицы. Для каждого ключевого слова извлекается информация с указанного количества страниц (в pages).

In [1]:
def get_habr_posts(query, pages):
    # Initialize an empty DataFrame to store the results of the scraped data
    habr_blog = pd.DataFrame()
    
    # Iterate over each search query term provided in the 'query' list
    for q in query:
        x = 1
        # Loop through the specified number of pages
        while x <= pages:
            
            # Form the URL for the Habr search page with pagination
            URL = f'https://habr.com/ru/search/page{x}/'
            params = {'q': q}  # Define the search query parameters
            
            # Send a GET request to the Habr search page with the query
            req = requests.get(URL, params=params)
            
            # To avoid being blocked, introduce a slight delay between requests
            time.sleep(0.3)
            
            # Parse the HTML content of the page with BeautifulSoup
            soup = BeautifulSoup(req.text)
            
            # Find all article elements on the page
            articles = soup.find_all('article', class_='tm-articles-list__item')
            
            # Iterate through each article on the current page
            for article in articles:
                # Extract the article's title based on its HTML structure
                if article.find('a', class_='tm-article-snippet__title-link'):
                    title = article.find('a', class_='tm-article-snippet__title-link').find('span').text
                else:
                    title = article.find('h2', class_='tm-megapost-snippet__title').text
                
                # Extract the link to the article
                if article.find('a', class_='tm-article-snippet__title-link'):
                    link = article.find('a', class_='tm-article-snippet__title-link').get('href')
                    link = 'https://habr.com' + link
                else:
                    link = article.find('header', class_='tm-megapost-snippet__header').find('a').get('href')
                    link = 'https://habr.com' + link
                
                # Send a GET request to the full article page to extract the article's text
                req_2 = requests.get(link)
                soup_2 = BeautifulSoup(req_2.text)
                
                # Extract the main body text of the article based on different formats
                if soup_2.find('div', class_="article-formatted-body article-formatted-body article-formatted-body_version-1"):
                    text = soup_2.find('div', class_="article-formatted-body article-formatted-body article-formatted-body_version-1").text.strip()
                elif soup_2.find('div', class_='t-records'):
                    text = soup_2.find('div', class_='t-records').text.strip()
                else:
                    text = soup_2.find('p').text.strip()
                
                # Extract the publication date of the article
                date = article.find('time').get('title')
                
                # Extract the number of votes/likes the article received
                votes = article.find('svg', class_="tm-svg-img tm-votes-meter__icon tm-votes-meter__icon tm-votes-meter__icon_appearance-article").text
                votes = votes[17:]  # Clean the votes data
                
                # Create a dictionary with all the scraped information for the article
                row = {'date': date, 'title': title, 'link': link, 'full text': text, 'likes': votes}
                
                # Append the dictionary as a row to the DataFrame
                habr_blog = pd.concat([habr_blog, pd.DataFrame([row])])

            # Move to the next page of search results
            x = x + 1
    
    # Return the DataFrame with all the collected data, resetting the index
    return habr_blog.reset_index(drop=True)

In [None]:
# Call the function with specific queries and scrape one page of results for each query
df = get_habr_posts(['python','анализ данных'], 1)

In [None]:
# Remove duplicate entries based on the 'link' column
df.drop_duplicates(inplace=True, subset=['link'])

# Sort the DataFrame by the publication date of the articles
df.sort_values(by=['date'], inplace=True)

# Reset the index of the sorted DataFrame
df.reset_index(drop=True, inplace=True)

# Display the first 10 entries of the DataFrame
df.head(10)

Unnamed: 0,date,title,link,full text,likes
0,"2012-07-25, 13:29",Пять лет Школе анализа данных,https://habr.com/ru/company/yandex/blog/148443/,Ровно пять лет назад Яндекс объявил об открыти...,↑25 и ↓4
1,"2014-06-18, 15:19",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/226641/,Данный выпуск дайджеста наиболее интересных ма...,↑22 и ↓3
2,"2014-06-30, 23:06",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/228187/,Данный выпуск обзора наиболее интересных матер...,↑26 и ↓2
3,"2014-07-28, 13:10",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/231323/,В очередном выпуске обзора наиболее интересных...,↑21 и ↓1
4,"2014-08-11, 10:47",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/232879/,Представляю вашему вниманию очередной выпуск о...,↑23 и ↓0
5,"2014-09-14, 19:54",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/236757/,Представляю вашему вниманию очередной выпуск о...,↑26 и ↓1
6,"2014-10-13, 14:00",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/240139/,Представляю вашему вниманию очередной выпуск о...,↑20 и ↓1
7,"2014-11-23, 16:49",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/243967/,Представляю вашему вниманию очередной выпуск о...,↑20 и ↓2
8,"2015-01-18, 18:02",Обзор наиболее интересных материалов по анализ...,https://habr.com/ru/post/248165/,Представляю вашему вниманию очередной выпуск о...,↑17 и ↓0
9,"2017-06-27, 13:51",Использование Python и Excel для обработки и а...,https://habr.com/ru/company/otus/blog/331746/,Если Вы только начинаете свой путь знакомства ...,↑12 и ↓4


## Conclusions

This web scraping project successfully automates the collection of article data from the Habr website. It effectively captures essential details such as the article's title, content, publication date, and user votes. 