In [1]:

import requests
import re
import pandas as pd
from bs4 import BeautifulSoup as bs
from pprint import pprint

In [2]:
URL = 'https://moscow.hh.ru/search/vacancy'
search_query = 'консультант'

# Классы HH.ru

data_div = 'vacancy-serp__results' # container
vacancy_div = 'vacancy-serp-item' # vacancy

name_class = 'resume-search-item__name' # vacancy_name
company_class = 'vacancy-serp-item__meta-info' # company_name link in <a>

# name_class = 'resume-search-item__name' # vacancy_name
name_class = 'bloko-link HH-LinkModifier' # vacancy_name


data = []

In [3]:

def parse_to_data(search_query):    
    params = {
        'text': search_query, \
        'search_field': 'name', \
        'items_on_page': '100', \
        'page': ''
    }

    headers = {
        'User-Agent': \
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
    }

    link = 'https://hh.ru/search/vacancy'

    html = requests.get(link, params=params, headers=headers)

    # page count check

    if html.ok:
        parsed_html = bs(html.text,'html.parser')

        page_block = parsed_html.find('div', {'data-qa': 'pager-block'}) # page switching block
        if not page_block:
            last_page = '1'        
        else:
            last_page = int(page_block.find_all('a', {'class': 'HH-Pager-Control'})[-2].getText())  

        for page in range(0, last_page):    # last_page
            params['page'] = page
            html = requests.get(link, params=params, headers=headers)

            if html.ok:
                parsed_html = bs(html.text,'html.parser')

                vacancy_items = parsed_html.find('div', {'data-qa': data_div}) \
                                            .find_all('div', {'class': vacancy_div})

                for item in vacancy_items:
                    data.append(_parser_vacancy_div(item))
    #                 data.append(item)


In [4]:
def _parser_vacancy_div(item):

    vacancy_data = {}
    
#     pprint(item)
    
    # vacancy_name
    vacancy_name = item.find('a', {'data-qa':"vacancy-serp__vacancy-title"}).text
    
    vacancy_data['vacancy_name'] = vacancy_name
    
    # vacancy_add_time
    vacancy_add_time = item.find('span', {'class':"vacancy-serp-item__publication-date"})
    if vacancy_add_time:
        vacancy_add_time = " ".join(vacancy_add_time.text.split())
    else:
        vacancy_add_time = None
    
    vacancy_data['vacancy_add_time'] = vacancy_add_time
    
    # company_name
    company_name = item.find('a', {'data-qa':"vacancy-serp__vacancy-employer"}).text
    
    vacancy_data['company_name'] = company_name
    
    # city
    city = item.find('span', {'data-qa':"vacancy-serp__vacancy-address"}).text
    city = city.split(',')[0]
    
    vacancy_data['city'] = city
    
    vacancy_data['salary_min'], vacancy_data['salary_max'], vacancy_data['currency'] = get_salarys_and_currency(item)
   
    
    return vacancy_data

In [5]:
def get_salarys_and_currency(item):
    salary = item.find('span', {'data-qa':"vacancy-serp__vacancy-compensation"})
    if salary:
        salary = salary.text.replace('\xa0', '').replace('-', ' ').split()
  

        if salary[0] == 'до':
            salary_min = None
            salary_max = int(salary[1])
        elif salary[0] == 'от':
            salary_min = int(salary[1])
            salary_max = None
        else:
            salary_min = int(salary[0])
            salary_max = int(salary[1])
            
#             compound currency check
            
        try:
            int(salary[-2])
            currency = salary[-1]
        except:
            currency = f'{salary[-2]} {alary[-1]}'


    else:
        salary_min = None
        salary_max = None
        currency = None
    return [salary_min, salary_max, currency,]

Странно, но на HH нет самого очевидного варианта: указать зарплату точно. 100000 руб., например.
Либо "от", либо "до", либо вилка.
 

In [6]:
parse_to_data(search_query)

In [7]:
df = pd.DataFrame(data)

In [8]:
from collections import Counter
c = Counter(df['vacancy_name']).most_common(3)
requests_list = []
for el in c:
    requests_list.append(el[0])
    
# pprint(requests_list)


In [9]:
data = []

for el in requests_list:
    parse_to_data(el)
    


In [10]:
# df = pd.DataFrame(data)


Удалю повторы. В том числе и объявления, поданные несколько раз в разные даты, т.к. речь суть об одном предложении вакансии.

In [11]:
# df.drop_duplicates(subset=['vacancy_name', 'company_name'], keep=False)

# HW3
## mongo DB

In [12]:
from pymongo import MongoClient, errors

import zlib



In [13]:
client = MongoClient('localhost', 27017)
db = client['hh_db']
hh_db = db.vacancies

## 3*)
Написать функцию, которая будет добавлять в вашу базу данных только новые вакансии с сайта

В данном случае буду сопоставлять по хэшу и искать таким образом полные повторы.
Выше закоментировал фильтр с другой логикой. Там за одно считаются объявления, если совпадают организация и должность, даже если объявления были поданы в разное время, речь идет об одном предложении. 

In [14]:
def make_hash(object):
    return zlib.adler32(bytes(repr(object), 'utf-8'))

In [15]:
def save_origin_vacancies_to_db(vacancies_list, return_dup_log = False):
    duplicate_log = []
    for vacancy in vacancies_list:
        vacancy_hash = make_hash(vacancy)
        vacancy["_id"] = vacancy_hash
        
        try:
            hh_db.insert_one(vacancy)
        except errors.DuplicateKeyError:
            duplicate_log.append(vacancy)
            
    if return_dup_log:
        return duplicate_log

## 2) 
Написать функцию, которая производит поиск и выводит на экран вакансии с заработной платой больше введенной суммы

Ограничен во времени сейчас. Так-то 


In [58]:
def get_vacancies_with_salary_higher_than(salary):
    return_list = []
    for vacancy in hh_db.find({'salary_min': {'$gt': salary}} or {'salary_max': {'$gt': salary}}):
        return_list.append(vacancy)
    return return_list

In [59]:
save_origin_vacancies_to_db(data, return_dup_log=True)

[{'vacancy_name': 'Продавец-консультант мебели',
  'vacancy_add_time': '8 июня',
  'company_name': ' ФАБРИКА МЕБЕЛИ 8 МАРТА',
  'city': 'Москва',
  'salary_min': 50000,
  'salary_max': 150000,
  'currency': 'руб.',
  '_id': 2744614770},
 {'vacancy_name': 'Продавец-консультант',
  'vacancy_add_time': '10 июня',
  'company_name': ' Билайн: Офисы продаж',
  'city': 'Воронеж',
  'salary_min': 26000,
  'salary_max': 32500,
  'currency': 'руб.',
  '_id': 957511490},
 {'vacancy_name': 'Продавец-консультант',
  'vacancy_add_time': '5 июня',
  'company_name': ' Билайн: Офисы продаж',
  'city': 'Тольятти',
  'salary_min': 27000,
  'salary_max': None,
  'currency': 'руб.',
  '_id': 3076290746},
 {'vacancy_name': 'Продавец-консультант',
  'vacancy_add_time': '11 июня',
  'company_name': 'ООО Качуева Нурия Рустямовна',
  'city': 'Казань',
  'salary_min': 50000,
  'salary_max': 100000,
  'currency': 'руб.',
  '_id': 223838320},
 {'vacancy_name': 'Продавец-консультант',
  'vacancy_add_time': '10 июня

Вообще, было бы оптимально посчитать количество повторов объявлений за период времени. Например, одна контора за месяц разместила объявление 10 раз, а вторая - всего один. Это не значит, что первая - предоставит 10 вакансий, а вторая - одну. Но насколько кто заинтересован в поиске специалиста, да и многие другие неочевидные вещи можно выудить из такой информации. 

Но в данном случае мой парсер пробегает по сайту несколько раз, и вполне может многократно добавить одно и то же объявление. Довольно много придется переделать, чтобы различать, это полный дубль, или парсер собрал разные объявления о одном месте работы.

Но еще более ценную информацию, пожалуй, будет нести дата удаления объявлений с маркетплейса. Если мы говорим про предложения вакансий, нашелся ли человек на другой день, или объявление обновлялось множество раз и висело месяц? Насколько люди готовы устраиваться на подобную работу за поставленную цену? 

100000 зарплата для програмиста - это много? 

Если аналогичные объявления закрываются на второй - третий день - много. 

Если висят по месяцу и больше - мало, никто толковый не идет за эту сумму.

Если поиск профессионала занимает 1-2 недели - оплата соответствует рыночной.

Понятно, что напрямую это не спарсить. но если мониторинг идет в течение времени, например, парсим сайт раз-два в сутки, можно сопоставлять по хэшам. Если объявление есть в базе, но пропало с сайта (или висело больше месяца) - помечаем вакансию в базе закрытой, устанавливая текущую дату. Возможно, существуют какие-то более изящные решения. Но в целом очень бы хотелось отслеживать время жизни объявления, как меру ликвидности.  

In [63]:
get_vacancies_with_salary_higher_than(100000)[0]


{'_id': 3748422264,
 'vacancy_name': 'Продавец-консультант',
 'vacancy_add_time': '12 июня',
 'company_name': 'ООО Credit Asia',
 'city': 'Ташкент',
 'salary_min': 3000000,
 'salary_max': 11000000,
 'currency': 'сум'}