In [1]:
from bs4 import BeautifulSoup as bs
import requests
from time import sleep
import pandas as pd

In [2]:
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36'

In [3]:
def parse_hh(job, page):
    headers = {
        'User-Agent': user_agent
    }
    params = {'text': job, 'page': page}
    url = 'https://hh.ru/search/vacancy'
    response = requests.get(url, headers = headers, params = params)
    return response

In [4]:
def find_job(tag):
    title = tag.find('a', {'class':'serp-item__title'}).text
    link = tag.find('a', {'class':'serp-item__title'})['href']
    salary = tag.find('span', {'data-qa': 'vacancy-serp__vacancy-compensation'})
    if salary is not None:
        salary = salary.text
    else:
        salary = 'з/п не указана'
    return {'title': title, 'salary': salary, 'link': link}

In [5]:
def get_job_from_pages(job, number_of_pages):
    jobs_list = list()
    for page in range(number_of_pages):
        response = parse_hh(job, page)
        soup = bs(response.text, 'html.parser')
        serp_item_list = soup.find_all('div', {'class': 'serp-item'})
        for vacancy in serp_item_list:
            jobs_list.append(find_job(vacancy))
        sleep(1)
    return jobs_list

In [6]:
hh_list = get_job_from_pages('data science', 3)
hh_list

[{'title': 'NLP исследователь в группу AI в медицине Sber AI Lab',
  'salary': 'з/п не указана',
  'link': 'https://hh.ru/vacancy/73469286?from=vacancy_search_list&query=data+science'},
 {'title': 'Python developer (Machine Learning Engineer)',
  'salary': 'з/п не указана',
  'link': 'https://hh.ru/vacancy/73468878?from=vacancy_search_list&query=data+science'},
 {'title': 'Data engineer',
  'salary': 'з/п не указана',
  'link': 'https://hh.ru/vacancy/73471184?from=vacancy_search_list&query=data+science'},
 {'title': 'Middle Data Science в лабораторию искусственного интеллекта Сбера',
  'salary': 'з/п не указана',
  'link': 'https://hh.ru/vacancy/72747471?from=vacancy_search_list&query=data+science'},
 {'title': 'NLP исследователь в группу AI в медицине Sber AI Lab',
  'salary': 'з/п не указана',
  'link': 'https://hh.ru/vacancy/72798521?from=vacancy_search_list&query=data+science'},
 {'title': 'Python developer (Machine Learning Engineer)',
  'salary': 'з/п не указана',
  'link': 'http

In [7]:
len(hh_list)

60

In [8]:
hh_df = pd.DataFrame.from_dict(hh_list)

In [9]:
hh_df

Unnamed: 0,title,salary,link
0,NLP исследователь в группу AI в медицине Sber ...,з/п не указана,https://hh.ru/vacancy/73469286?from=vacancy_se...
1,Python developer (Machine Learning Engineer),з/п не указана,https://hh.ru/vacancy/73468878?from=vacancy_se...
2,Data engineer,з/п не указана,https://hh.ru/vacancy/73471184?from=vacancy_se...
3,Middle Data Science в лабораторию искусственно...,з/п не указана,https://hh.ru/vacancy/72747471?from=vacancy_se...
4,NLP исследователь в группу AI в медицине Sber ...,з/п не указана,https://hh.ru/vacancy/72798521?from=vacancy_se...
5,Python developer (Machine Learning Engineer),з/п не указана,https://hh.ru/vacancy/72074865?from=vacancy_se...
6,Data engineer,з/п не указана,https://hh.ru/vacancy/72030869?from=vacancy_se...
7,Data Scientist,з/п не указана,https://hh.ru/vacancy/69162481?from=vacancy_se...
8,Data scientist (Управление рисками корпоративн...,з/п не указана,https://hh.ru/vacancy/72421275?from=vacancy_se...
9,Middle Data Engineer,з/п не указана,https://hh.ru/vacancy/73751663?from=vacancy_se...


In [10]:
with open('hh_data_science.json', 'w', encoding='utf-16') as f:
    f.write(hh_df.to_json(force_ascii=False))