## Парсер hh.ru

In [5]:
# Импорт класса BeautifulSoup из библиотеки bs4
from bs4 import BeautifulSoup 
# Импорт модуля requests для отправки HTTP-запросов
import requests  
# Импорт библиотеки numpy для работы с массивами и числами
import numpy as np  
# Импорт библиотеки pandas для работы с данными в виде таблиц
import pandas as pd  
# Импорт модуля re для работы с регулярными выражениями
import re  
# Импорт модуля warnings для управления предупреждениями

import json
import warnings  

# Отключение предупреждений
warnings.filterwarnings('ignore')  


### Необходимо собрать информацию о вакансиях на вводимую должность (используем input или через аргументы получаем должность) с сайта HH. Приложение должно анализировать все страницы сайта.

**Получившийся список должен содержать в себе минимум:**
1. Наименование вакансии.
2. Предлагаемую зарплату (разносим в три поля: минимальная и максимальная и валюта. цифры преобразуем к цифрам).
3. Ссылку на саму вакансию.
4. Сайт, откуда собрана вакансия.
5. По желанию можно добавить ещё параметры вакансии (например, работодателя и расположение).
6. Общий результат можно вывести с помощью dataFrame через pandas. Сохраните в json либо csv.

In [2]:
# Определяем функцию для обработаки вида валюты
def curency(el):
    if el == '₽':
        jobs_info['currency'] = 'RUB'
    elif el == '$':
        jobs_info['currency'] = 'USD'
    elif el == '€':
        jobs_info['currency'] = 'EUR'
    else:
        jobs_info['currency'] = el
    return jobs_info['currency']


# Определяем переменную для хранения данных
PREPARED_FILE_PATH = 'hh_parsed.csv'
PREPARED_JSON_FILE_PATH = 'vacancies.json'

# Заголовки для HTTP-запросов, чтобы представлять себя как обычный веб-браузер
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko)\
    Chrome/114.0.0.0 Safari/537.36'
}

# Ввод интересующей должности
desired_job = input('Введите интересующую должность: ')


# Параметры запроса
params = {
    'text': desired_job,
    'page': 0, # Стартовая страница
    'area': 1, # 'false' если поиск необходимо осуществить по всей Россиии (Москва - 1)
    'search_period': 7 # Период, за который выводятся значения
}

# URL для запроса
url = "https://hh.ru"

# Строка поиска
search_line = '/search/vacancy?'

# Создание сессии для отправки запросов
session = requests.Session()

# Список для хранения информации о вакансиях
job_list = []


while True:
    # Отправка запроса на страницу поиска
    response = session.get(url + search_line, headers=headers, params=params)
    
    # Если вакансий нет, прерываем цикл
    if not response.ok:
        break
        
    # Создание объекта BeautifulSoup для парсинга HTML-кода
    soup = BeautifulSoup(response.text, "html.parser")

    # Поиск всех элементов с классом 'serp-item' (вакансии)
    jobs = soup.find_all('div', {'class': 'serp-item'})

    # Обход каждой вакансии
    for job in jobs:
        # Создание словаря для хранения информации о вакансии
        jobs_info = {}

        # Извлечение названия и ссылки на вакансию
        info = job.find('a', {'class': 'serp-item__title'})
        name = info.text
        link = info.get('href')

        # Извлечение идентификатора вакансии
        start_index = link.find("vacancy/") + len("vacancy/")
        end_index = link.find("?")
        vacancy_id = link[start_index:end_index]

        # Извлечение местоположения вакансии
        location = job.find('div', {'data-qa': "vacancy-serp__vacancy-address"}).text
        
        # Извлечение требуемого опыта работы
        experience = job.find('div', {'data-qa': 'vacancy-serp__vacancy-work-experience'}).text
        

        # Извлечение компании вакансии
        employer_info = job.find('a', {'data-qa': "vacancy-serp__vacancy-employer"})
        
        try:
            # Проверяем наличие информации о компании
            if employer_info is None:
                # Если информации нет, устанавливаем значение работодателя как NaN
                employer = np.nan
            else:
                # Если информация о компании присутствует, извлекаем текст (имя компании) и ссылку на 
                # страницу компании
                employer = employer_info.text
                # Извлечение ссылки на страницу компании
                employer_page = employer_info.get('href')
                employer_page = url + employer_page
        except Exception as e:
            # Обрабатываем возможные ошибки
            print(f"В данном блоке ошибка: {e}")
            pass


        # Добавление информации о вакансии в список
        source_site = url
        jobs_info['job_title'] = name
        jobs_info['experience'] = experience
        jobs_info['location'] = location
        jobs_info['vacancy_id'] = vacancy_id
        jobs_info['source_site'] = source_site
        jobs_info['link'] = link
        
        salary = job.find("span", {"data-qa": "vacancy-serp__vacancy-compensation"})
        try:
            # Проверяем наличие информации о зарплате
            if salary == None:
                # Если информации нет, устанавливаем значения зарплаты и валюты как NaN
                jobs_info['min_salary'] = np.nan
                jobs_info['max_salary'] = np.nan
                jobs_info['currency'] = np.nan
            else:
                # Если информация о зарплате есть, обрабатываем ее
                salary_info = salary.text.replace('\u202f', '').split()
                if any('от' in el for el in salary_info) and any('до' in el for el in salary_info):
                    # Зарплата указана в диапазоне (от ... до ...)
                    jobs_info['min_salary'] = int(salary_info[1])
                    jobs_info['max_salary'] = int(salary_info[3])
                    curency(salary_info[-1])

                elif any('до' in el for el in salary_info):
                    # Зарплата указана максимальной (до ...)
                    jobs_info['min_salary'] = np.nan
                    jobs_info['max_salary'] = int(salary_info[1])
                    curency(salary_info[-1])

                elif any('от' in el for el in salary_info):
                    # Зарплата указана минимальной (от ...)
                    jobs_info['min_salary'] = int(salary_info[1])
                    jobs_info['max_salary'] = np.nan
                    curency(salary_info[-1])

                else:
                    # Зарплата указана точно (от ...  - до ...)
                    jobs_info['min_salary'] = int(salary_info[0])
                    jobs_info['max_salary'] = int(salary_info[2])
                    curency(salary_info[-1])
        except Exception as e:
            # Обрабатываем возможные ошибки
            print(f"В данном блоке ошибка: {e}")
            pass

        
        jobs_info['employer'] = employer
        jobs_info['employer_page'] = employer_page
        
        job_list.append(jobs_info)

    # Вывод номера обработанной страницы
    print(f"Обработана страница №{params['page']}")

    # Увеличение значения параметра 'page' для перехода на следующую страницу
    params['page'] += 1

# Вывод сообщения об окончании цикла обработки
print('Этот этап завершен')

# Создание DataFrame для списка с информацией о должностях
df = pd.DataFrame(job_list)

# Сохранение DataFrame в csv файл
df.to_csv(PREPARED_FILE_PATH, index=False)

Введите интересующую должность: Аналитик
Обработана страница №0
Обработана страница №1
Обработана страница №2
Обработана страница №3
Обработана страница №4
Обработана страница №5
Обработана страница №6
Обработана страница №7
Обработана страница №8
Обработана страница №9
Обработана страница №10
Обработана страница №11
Обработана страница №12
Обработана страница №13
Обработана страница №14
Обработана страница №15
Обработана страница №16
Обработана страница №17
Обработана страница №18
Обработана страница №19
Обработана страница №20
Обработана страница №21
Обработана страница №22
Обработана страница №23
Обработана страница №24
Обработана страница №25
Обработана страница №26
Обработана страница №27
Обработана страница №28
Обработана страница №29
Обработана страница №30
Обработана страница №31
Обработана страница №32
Обработана страница №33
Обработана страница №34
Обработана страница №35
Обработана страница №36
Обработана страница №37
Обработана страница №38
Обработана страница №39
Этот этап

In [6]:
# Save the vacancies to a JSON file
with open(PREPARED_JSON_FILE_PATH, 'w') as file:
    json.dump(job_list, file)