In [43]:
import requests
import json
from pprint import pprint
from bs4 import BeautifulSoup as bs

# Вариант 1

Необходимо собрать информацию о вакансиях на вводимую должность (используем input или через аргументы получаем должность) с сайтов HH(обязательно) и/или Superjob(по желанию). Приложение должно анализировать несколько страниц сайта (также вводим через input или аргументы). Получившийся список должен содержать в себе минимум:
1. Наименование вакансии.
2. Предлагаемую зарплату (разносим в три поля: минимальная и максимальная и валюта. цифры преобразуем к цифрам).
3. Ссылку на саму вакансию.
4. Сайт, откуда собрана вакансия.

По желанию можно добавить ещё параметры вакансии (например, работодателя и расположение). Структура должна быть одинаковая для вакансий с обоих сайтов. Общий результат можно вывести с помощью dataFrame через pandas. Сохраните в json либо csv.

In [47]:
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 YaBrowser/23.1.2.980 Yowser/2.5 Safari/537.36'

vacancy = 'ML'
where = 'Москва'

URL = f'https://spb.hh.ru/search/vacancy?text={vacancy}+{where}&salary=&area=88&ored_clusters=true'

headers = {
    'User-Agent': USER_AGENT
}


In [51]:
def parse_hh(url_page, headers, result=[], index_page=1):
    """
    function for parcing vacancies from hh.ru
    
    url_page: url of vacancy name
    headers: headers for requests
    return list of vacancies information
    """
    
    response = requests.get(url_page, headers=headers)
    if not response.ok:
        print('Парсинг завершен')
        return result
    else:
        print('Cтраница №%d, ссылка: %s'%(index_page, response.url))

    dom = bs(response.content, 'html.parser')
    vacancies = dom.find_all('div', {'class': 'vacancy-serp-item__layout'})
    for vacancy in vacancies:
        result.append(parse_vacancy_hh(vacancy)) # parcing data of one vacancy

    link_next_page = dom.find('a', {'data-qa': 'pager-next'})
    if link_next_page:
        link_next_page =  'https://spb.hh.ru' + link_next_page['href'] # link of the next page
    else:
        print('Парсинг завершен')
        return result

    result = parse_hh(link_next_page, headers, result, index_page+1) # move to the next page
    return result


def parse_vacancy_hh(dom_vacancy):
    """
    function for one vacancy parcing
    
    dom_vacancy: dom object of vacancy
    return dict with main information about vacancy
    """
    
    vacancy_name = dom_vacancy.find('a').text
    vacancy_salary = dom_vacancy.find('span', {'class', 'bloko-header-section-3'})
    if vacancy_salary:
        vacancy_salary = vacancy_salary.text
        min_salary, max_salary, currency_salary = clean_salary(vacancy_salary)
    else:
        min_salary, max_salary, currency_salary = None, None, None

    vacancy_link = dom_vacancy.find('a')['href']
  
    return {
          'vacancy_name': vacancy_name,
          'min_salary': min_salary,
          'max_salary': max_salary,
          'currency_salary': currency_salary,
          'vacancy_link': vacancy_link,
          'vacancy_source': 'hh.ru'
      }


def clean_salary(vacancy_salary_text, min_salary=None, max_salary=None, currency_salary=None):
    """
    function converts salary given by text in numbers
    
    vacancy_salary_text: salary in text view
    return min, max, currrency of salary
    """
    
    list_salary = vacancy_salary_text.replace('\u202f', '').split(' ') # remove space
    for i in range(len(list_salary)-1):
        if list_salary[i] == 'от':
            min_salary = int(list_salary[i+1])
        elif list_salary[i] == 'до':
            max_salary = int(list_salary[i+1])
        elif list_salary[i] == '–':
            min_salary = int(list_salary[i-1])
            max_salary = int(list_salary[i+1])
    currency_salary = list_salary[-1]

    return min_salary, max_salary, currency_salary


In [52]:
result = parse_hh(URL, headers)

Cтраница №1, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true
Cтраница №2, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true&page=1&hhtmFrom=vacancy_search_list
Cтраница №3, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true&page=2&hhtmFrom=vacancy_search_list
Cтраница №4, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true&page=3&hhtmFrom=vacancy_search_list
Cтраница №5, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true&page=4&hhtmFrom=vacancy_search_list
Cтраница №6, ссылка: https://spb.hh.ru/search/vacancy?text=ML+%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0&salary=&area=88&ored_clusters=true&page=5&hhtmFrom=vacancy_search_list
Cтраница №7, ссы

In [53]:
with open(f'hh_ru_parcing_{vacancy}.json', 'w', encoding='UTF-8') as file:
    json.dump(result, file)


In [54]:
with open(f'hh_ru_parcing_{vacancy}.json', 'r', encoding='UTF-8') as file:
    vacancies = json.load(file)


In [55]:
vacancies

[{'vacancy_name': 'Data Scientist / ML-разработчик',
  'min_salary': None,
  'max_salary': None,
  'currency_salary': None,
  'vacancy_link': 'https://spb.hh.ru/vacancy/77725684?from=vacancy_search_list&query=ml',
  'vacancy_source': 'hh.ru'},
 {'vacancy_name': 'Machine Learning Engineer (ML-инженер)',
  'min_salary': None,
  'max_salary': None,
  'currency_salary': None,
  'vacancy_link': 'https://spb.hh.ru/vacancy/77499540?from=vacancy_search_list&query=ml',
  'vacancy_source': 'hh.ru'},
 {'vacancy_name': 'Разработчик ML в Доставку',
  'min_salary': None,
  'max_salary': None,
  'currency_salary': None,
  'vacancy_link': 'https://spb.hh.ru/vacancy/77757048?from=vacancy_search_list&query=ml',
  'vacancy_source': 'hh.ru'},
 {'vacancy_name': 'ML Инженер (NLP)',
  'min_salary': 140000,
  'max_salary': 200000,
  'currency_salary': 'руб.',
  'vacancy_link': 'https://spb.hh.ru/vacancy/77722511?from=vacancy_search_list&query=ml',
  'vacancy_source': 'hh.ru'},
 {'vacancy_name': 'ML Инженер (К