In [1]:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import re

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi
from pymongo.errors import OperationFailure

# import datetime as dt
import dotenv
import os

from pprint import pprint

dotenv.load_dotenv()

True

In [2]:
INIT_PARAMS = {
    'hhtmFrom': "vacancy_search_list",
    'hhtmFromLabel': "vacancy_search_line",
    'search_field': ["name", "company_name", "description"],
    'ored_clusters': True,
    'enable_snippets': False,
}

BASE_URL = "https://hh.ru"

INIT_LINK = "/search/vacancy/"

page_modif = lambda p: {'page': p}

HEADER = {
    'Accept': "*/*",
    'User-Agent': UserAgent().chrome,
    'Connection': "keep-alive",
}

In [4]:
params = INIT_PARAMS.copy()
params.update({
    'area': 1,
    'part_time': ['employment_part'],
    'salary': 70_000,
    # 'only_with_salary': True,
    'text': 'python'
})

In [24]:
def parseSal(salStr):
    """
    Парсит строку с зарплатой, полученной с HH
    Returns:
        кортеж:
        * диапазон зарплат (min, max), если max - 0, то без верхн. ограничения,
        * валюта,
        * строка описания, говорящая чистыми ли указаны суммы
    """
    salStr, *tax = salStr.split("\xa0")
    currency = salStr[-1]
    
    salStr = re.sub("\s", "", salStr[:-1]).replace("до", "–")
    if salStr[:2].lower() == "от":
        salStr = salStr.lstrip("от") + "–"
    valScopes = tuple(map(lambda s: int(s) if s else 0, salStr.split("–")))
    
    return {
        'scopes': valScopes,
        'currency': currency,
        'tax': tax[0] if tax else None
    }

In [21]:
def parseExp(expStr):
    return tuple(map(int, filter(bool, re.split("\D+", expStr))))

In [25]:
def parseSoup1(soup, data):
    """
    Просматривает soup и добавляет сведения о вакансиях в data
    """
    for card in soup.find_all("div", class_=re.compile("^vacancy-card")):
        cardDict = {}
        
        tag = card.findChild("span", class_=re.compile("^vacancy-name"))
        cardDict['position'] = tag.getText() if tag else None
        
        tag = card.findChild("div", class_=re.compile("^info-section")) \
            .findChild("a", class_=re.compile("^bloko-link"))
        cardDict['company'] = {
            'name': tag.findChild("span", class_=re.compile("^company-info-text")).getText() \
                .replace("\xa0", " ")
                if tag else None,
            'link': BASE_URL + tag.get("href") if tag else None
        }

        tag = card.findChild("div", class_=re.compile("^compensation-labels"))
        
        tag1 = tag.findChild("span", class_=re.compile("^compensation-text")) if tag else None
        cardDict['salary'] = parseSal(tag1.getText()) if tag1 else None
        
        tag1 = tag.findChild("span", attr={'data-qa': re.compile("work-experience$")}) if tag else None
        cardDict['experience'] = parseExp(tag1.getText()) if tag1 else None

        tag1 = tag.findChild("span", attr={'data-qa': re.compile("work-schedule$")}) if tag else None
        cardDict['schedule'] = tag1.getText().replace("\xa0", " ") if tag1 else None
            
        data.append(cardDict)

In [18]:
def parseSoup2(soup, data):
    """
    Просматривает soup и добавляет сведения о вакансиях в data
    """
    for card in soup.find_all("div", class_="vacancy-serp-item__layout"):
        cardDict = {}
        
        tag = card.findChild("span", class_=re.compile("title$"))
        cardDict['position'] = tag.getText() if tag else None
        
        tag = card.findChild("div", class_=re.compile("info-company$")).findChild("a")
        cardDict['company'] = (
            tag.findChild("span").getText().replace("\xa0", " ") if tag else None,
            BASE_URL + tag.get("href") if tag else None
        )

        tag = card.findChild("span", attrs={'data-qa': re.compile("vacancy-compensation$")})
        cardDict['salary'] = parseSal(tag.getText()) if tag else None

        tag = card.findChild("div", attrs={'data-qa': re.compile("work-experience$")})
        cardDict['experience'] = parseExp(tag.getText()) if tag else None

        tag = card.findChild("span", attrs={'data-qa': re.compile("work-schedule$")})
        cardDict['schedule'] = tag.getText().replace("\xa0", " ") if tag else None

        data.append(cardDict)

In [9]:
def isNextExists(soup):
    return bool(soup.find("a", {'data-qa': "pager-next"}))

In [26]:
session = requests.session() # для оптимизации повторных запросов
pageNum = 0
nextExists = True
parseData = []

while nextExists:
    params.update(page_modif(pageNum))
    response = session.get(BASE_URL + INIT_LINK, params=params, headers=HEADER)
    # with open("hh.html", "wb") as f:
    #     f.write(response.content)

    soup = BeautifulSoup(response.text, features="html.parser")
    
    variant = 1 if soup.find("div", class_=re.compile("^vacancy-card")) else 2
    
    if not response.ok:
        print("!", end="")
        continue
    elif variant == 1:
        print("*", end="")
        parseSoup = parseSoup1
    else:
        print("O", end="")
        parseSoup = parseSoup2
    
    parseSoup(soup, parseData)
    
    if not isNextExists(soup):
        nextExists = False
        print()

    pageNum += 1

len(parseData)

OO


37

In [27]:
pprint(parseData)

[{'company': ('ООО СберОбразование',
              'https://hh.ru/employer/5332874?hhtmFrom=vacancy_search_list'),
  'experience': (6,),
  'position': 'Программный эксперт на курс «Разработчик на Python»',
  'salary': None,
  'schedule': 'Можно из дома'},
 {'company': ('Школа программирования Kodland',
              'https://hh.ru/employer/3845543?hhtmFrom=vacancy_search_list'),
  'experience': (1, 3),
  'position': 'Преподаватель Python, Roblox, графический дизайн, Scratch, '
              'математика, программирование для детей',
  'salary': {'currency': '₽', 'scopes': (0, 100000), 'tax': None},
  'schedule': 'Можно из дома'},
 {'company': ('Бауманский учебный центр Специалист',
              'https://hh.ru/employer/8219?hhtmFrom=vacancy_search_list'),
  'experience': (3, 6),
  'position': 'Преподаватель курсов направления Python "Программирование на '
              'языке Python для школьников"',
  'salary': None,
  'schedule': None},
 {'company': ('ООО Онлайн-школа Фоксфорд',
     

In [28]:
uri = f"mongodb+srv://mike1am:{os.getenv('MONGO_ATLAS_PSWD')}@cluster0.lcmtb1u.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
dbClient = MongoClient(uri, server_api=ServerApi("1"))

try:
    dbClient.admin.command("ping")
    print("Successfully connected!")
except OperationFailure as e:
    print(e)

Successfully connected!


In [29]:
db = dbClient["GB_test"]

collect = db.HW03_01
collect.drop()

In [30]:
collect.insert_many(parseData)

InsertManyResult([ObjectId('662799480dde0b2dd52ee308'), ObjectId('662799480dde0b2dd52ee309'), ObjectId('662799480dde0b2dd52ee30a'), ObjectId('662799480dde0b2dd52ee30b'), ObjectId('662799480dde0b2dd52ee30c'), ObjectId('662799480dde0b2dd52ee30d'), ObjectId('662799480dde0b2dd52ee30e'), ObjectId('662799480dde0b2dd52ee30f'), ObjectId('662799480dde0b2dd52ee310'), ObjectId('662799480dde0b2dd52ee311'), ObjectId('662799480dde0b2dd52ee312'), ObjectId('662799480dde0b2dd52ee313'), ObjectId('662799480dde0b2dd52ee314'), ObjectId('662799480dde0b2dd52ee315'), ObjectId('662799480dde0b2dd52ee316'), ObjectId('662799480dde0b2dd52ee317'), ObjectId('662799480dde0b2dd52ee318'), ObjectId('662799480dde0b2dd52ee319'), ObjectId('662799480dde0b2dd52ee31a'), ObjectId('662799480dde0b2dd52ee31b'), ObjectId('662799480dde0b2dd52ee31c'), ObjectId('662799480dde0b2dd52ee31d'), ObjectId('662799480dde0b2dd52ee31e'), ObjectId('662799480dde0b2dd52ee31f'), ObjectId('662799480dde0b2dd52ee320'), ObjectId('662799480dde0b2dd52ee3

In [67]:
for doc in collect.find(
    {
        "$or": [
            {'experience': {"$size": 0}},
            {'experience.0': {"$lte": 1}}
        ]
    },
    {'position': 1, 'company': 1, 'salary.scopes': 1}
):
    pprint(doc)

{'_id': ObjectId('662799480dde0b2dd52ee309'),
 'company': ['Школа программирования Kodland',
             'https://hh.ru/employer/3845543?hhtmFrom=vacancy_search_list'],
 'position': 'Преподаватель Python, Roblox, графический дизайн, Scratch, '
             'математика, программирование для детей',
 'salary': {'scopes': [0, 100000]}}
{'_id': ObjectId('662799480dde0b2dd52ee30b'),
 'company': ['ООО Онлайн-школа Фоксфорд',
             'https://hh.ru/employer/5744540?hhtmFrom=vacancy_search_list'],
 'position': 'Репетитор по программированию Python и Scratch (6-11 классы)',
 'salary': {'scopes': [0, 70000]}}
{'_id': ObjectId('662799480dde0b2dd52ee30c'),
 'company': ['Alteasy',
             'https://hh.ru/employer/1513283?hhtmFrom=vacancy_search_list'],
 'position': 'Middle python разработчик в AI-стартап (Part-time)'}
{'_id': ObjectId('662799480dde0b2dd52ee30d'),
 'company': ['Alteasy',
             'https://hh.ru/employer/1513283?hhtmFrom=vacancy_search_list'],
 'position': 'Senior/Pre-s