In [1]:
from pprint import pprint
import pandas as pd
import json
from bs4 import BeautifulSoup as bs
import requests
from time import sleep

In [2]:
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'

url_first_page_hh = 'https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=description&text=python&no_magic=true&L_save_area=true&items_on_page=20'

In [3]:
headers = {
    'User-Agent': user_agent,
}

In [4]:
def parse_hh(url_page, headers, result=[], index_page=1):
    response = requests.get(url_page, headers=headers)
    if response.status_code != 200:
      print('Парсинг завершен')
      return result
    else:
      print('Cтраница №%d, ссылка: %s'%(index_page, response.url))
    
    dom = bs(response.content, 'html.parser')
    vacancies = dom.find_all('div', {'class': 'vacancy-serp-item__layout'})
    for vacancy in vacancies:
      result.append(parse_vacancy_hh(vacancy))

    link_next_page = dom.find('a', {'data-qa': 'pager-next'})
    if link_next_page:
      link_next_page =  'https://spb.hh.ru' + link_next_page['href']
    else:
      print('Парсинг завершен')
      return result

    result = parse_hh(link_next_page, headers, result, index_page+1)   
    return result

In [5]:
def parse_vacancy_hh(dom_vacancy):
  sleep(0.1)
  vacancy_name = dom_vacancy.find('a').text

  vacancy_salary = dom_vacancy.find('span', {'class', 'bloko-header-section-3'})
  if vacancy_salary:
    vacancy_salary = vacancy_salary.text
    min_salary, max_salary, currency_salary = clean_salary(vacancy_salary)
  else:
    min_salary, max_salary, currency_salary = None, None, None

  vacancy_link = dom_vacancy.find('a')['href']
  
  return {
      'vacancy_name': vacancy_name,
      'vacancy_salary': vacancy_salary,
      'min_salary': min_salary,
      'max_salary': max_salary,
      'currency_salary': currency_salary,
      'vacancy_link': vacancy_link,
      'vacancy_source': 'hh.ru',
  }

In [6]:
def clean_salary(vacancy_salary_text, min_salary=None, max_salary=None, currency_salary=None):
  list_salary = vacancy_salary_text.replace('\u202f', '').split()
  for i in range(len(list_salary) - 1):
    if list_salary[i] == 'от':
      min_salary = int(list_salary[i + 1])
    elif list_salary[i] == 'до':
      max_salary = int(list_salary[i + 1])
    elif list_salary[i] == '–':
      min_salary = int(list_salary[i - 1])
      max_salary = int(list_salary[i + 1])
  currency_salary = list_salary[-1]

  return min_salary, max_salary, currency_salary

In [7]:
result = parse_hh(url_first_page_hh, headers, result=[]) 
df_hh = pd.DataFrame(result)
with open('hh_data.json', 'w', encoding='utf-8') as a:
        json.dump(result, a, ensure_ascii=False)

print(df_hh.head(20))

Cтраница №1, ссылка: https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=description&text=python&no_magic=true&L_save_area=true&items_on_page=20
Cтраница №2, ссылка: https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=description&text=python&no_magic=true&L_save_area=true&items_on_page=20&page=1&hhtmFrom=vacancy_search_list
Cтраница №3, ссылка: https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=description&text=python&no_magic=true&L_save_area=true&items_on_page=20&page=2&hhtmFrom=vacancy_search_list
Cтраница №4, ссылка: https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=description&text=python&no_magic=true&L_save_area=true&items_on_page=20&page=3&hhtmFrom=vacancy_search_list
Cтраница №5, ссылка: https://spb.hh.ru/search/vacancy?area=88&search_field=name&search_field=company_name&search_field=descripti

1. Развернуть у себя на компьютере/виртуальной машине/хостинге MongoDB и реализовать функцию, которая будет добавлять только новые вакансии/продукты в вашу базу.

In [8]:
from pymongo import MongoClient
from pprint import pprint

In [9]:
client=MongoClient()

In [10]:
db = client.hh_test

In [11]:
db.hh_data.insert_many(result)

<pymongo.results.InsertManyResult at 0x23003bfc128>

In [12]:
def cheak_and_save_vacancies_in_db(vacancies):
    for vacancy in vacancies:
        if not len(list(db.hh_data.find({'vacancy_link': vacancy['vacancy_link']}))):
            db.hh_data.insert_one(vacancy)
cheak_and_save_vacancies_in_db(result)
result_find = list(db.hh_data.find())
len(result_find)

166

2. Написать функцию, которая производит поиск и выводит на экран вакансии с заработной платой больше введённой суммы (необходимо анализировать оба поля зарплаты).

In [13]:
a = float(input("Введите значение заработной платы:"))

Введите значение заработной платы:15000


In [14]:
for document in db.hh_data.find({'$or' : [{'min_salary' : {'$gt' : a}}, {'max_salary' : {'$gt' : a}}]}):
    pprint(document)

{'_id': ObjectId('63fb925e83b31bf9bac53ee4'),
 'currency_salary': 'руб.',
 'max_salary': None,
 'min_salary': 160000,
 'vacancy_link': 'https://spb.hh.ru/vacancy/76115939?from=vacancy_search_list&query=python',
 'vacancy_name': 'Middle Python developer (Казань)',
 'vacancy_salary': 'от 160\u202f000 руб.',
 'vacancy_source': 'hh.ru'}
{'_id': ObjectId('63fb925e83b31bf9bac53ee5'),
 'currency_salary': 'руб.',
 'max_salary': 500000,
 'min_salary': None,
 'vacancy_link': 'https://spb.hh.ru/vacancy/77337810?from=vacancy_search_list&query=python',
 'vacancy_name': 'Lead Python developer',
 'vacancy_salary': 'до 500\u202f000 руб.',
 'vacancy_source': 'hh.ru'}
{'_id': ObjectId('63fb925e83b31bf9bac53ee6'),
 'currency_salary': 'руб.',
 'max_salary': 150000,
 'min_salary': 110000,
 'vacancy_link': 'https://spb.hh.ru/vacancy/76964796?from=vacancy_search_list&query=python',
 'vacancy_name': 'Junior/Middle Backend-разработчик на Ruby',
 'vacancy_salary': '110\u202f000 – 150\u202f000 руб.',
 'vacancy_s

 'vacancy_source': 'hh.ru'}
{'_id': ObjectId('63fb925e83b31bf9bac53f64'),
 'currency_salary': 'руб.',
 'max_salary': 230000,
 'min_salary': 230000,
 'vacancy_link': 'https://spb.hh.ru/vacancy/76505079?from=vacancy_search_list&query=python',
 'vacancy_name': 'Системный администратор серверов Linux (удаленно)',
 'vacancy_salary': '230\u202f000 – 230\u202f000 руб.',
 'vacancy_source': 'hh.ru'}
{'_id': ObjectId('63fb925e83b31bf9bac53f66'),
 'currency_salary': 'руб.',
 'max_salary': None,
 'min_salary': 40000,
 'vacancy_link': 'https://spb.hh.ru/vacancy/76968641?from=vacancy_search_list&query=python',
 'vacancy_name': 'Специалист по тестированию / QA engineer (Junior)',
 'vacancy_salary': 'от 40\u202f000 руб.',
 'vacancy_source': 'hh.ru'}
{'_id': ObjectId('63fb925e83b31bf9bac53f67'),
 'currency_salary': 'руб.',
 'max_salary': 120000,
 'min_salary': 80000,
 'vacancy_link': 'https://spb.hh.ru/vacancy/76767021?from=vacancy_search_list&query=python',
 'vacancy_name': 'DevOps инженер (Junior)',
