In [4]:
import requests      # Для запросов по API
import json          # Для обработки полученных результатов
import time          # Для задержки между запросами
import os            # Для работы с файлами / pathlib
import pandas as pd  # Для формирования датафрейма с результатами

In [70]:
def getPage(
    page        :int = 0,
    filter_text :str =  'NAME:Аналитик',
    **params_add
    ):
    """
    Создаем метод для получения страницы со списком вакансий.
    Аргументы:
        page - Индекс страницы, начинается с 0. Значение по умолчанию 0, т.е. первая страница
    """
    params = {
        'text': filter_text, # Текст фильтра. В имени должно быть слово "Аналитик"
        'area': 1, # Поиск ощуществляется по вакансиям города Москва
        'page': page, # Индекс страницы поиска на HH
        'per_page': 100, # Кол-во вакансий на 1 странице
    }
    # Справочник для параметров GET-запроса
    params.update(params_add)

    # |between1And3
    req = requests.get('https://api.hh.ru/vacancies', params) # Посылаем запрос к API
    data = req.content.decode() # Декодируем его ответ, чтобы Кириллица отображалась корректно
    req.close()
   
    return data

In [71]:
additional_params = {
    'type': 'open',
    'experience': 'noExperience',
}

_data = getPage(0, **additional_params)

print(_data)

{"items":[{"id":"83811478","premium":false,"name":"Удалённый аналитик по недвижимости (подработка из дома, от 4 часов, без опыта)","department":null,"has_test":false,"response_letter_required":false,"area":{"id":"1","name":"Москва","url":"https://api.hh.ru/areas/1"},"salary":{"from":50000,"to":100000,"currency":"RUR","gross":false},"type":{"id":"open","name":"Открытая"},"address":null,"response_url":null,"sort_point_distance":null,"published_at":"2023-07-21T13:28:49+0300","created_at":"2023-07-21T13:28:49+0300","archived":false,"apply_alternate_url":"https://hh.ru/applicant/vacancy_response?vacancyId=83811478","insider_interview":null,"url":"https://api.hh.ru/vacancies/83811478?host=hh.ru","alternate_url":"https://hh.ru/vacancy/83811478","relations":[],"employer":{"id":"5630856","name":"Сакулин Игорь Валерьевич","url":"https://api.hh.ru/employers/5630856","alternate_url":"https://hh.ru/employer/5630856","logo_urls":null,"vacancies_url":"https://api.hh.ru/vacancies?employer_id=5630856",

In [72]:
type(_data)
all_ = json.loads(_data)
# all_

In [73]:
data = [...]  # The list of dictionaries from your JSON

result = []
for item in all_['items']:
    salary = item.get('salary', {})
    
    if salary is None:
        salary_from = 0
        salary_to = 0
        salary_currency = 'RUR'
        salary_gross = False
    else:
        salary_from = salary.get('from', 0)
        salary_to = salary.get('to', 0)
        salary_currency = salary.get('currency', 'RUR')
        salary_gross = salary.get('gross', False)
    
    snippet = item.get('snippet', {})
    requirement = snippet.get('requirement', '')
    responsibility = snippet.get('responsibility', '')

    employer = item.get('employer', {})
    employer_name = employer.get('name', '')

    experience = item.get('experience', {})
    experience_id = experience.get('id', '')
    experience_name = experience.get('name', '')

    area = item.get('area', {})
    area_name = area.get('name', '')

    result.append({
        'id': item.get('id', ''),
        'name': item.get('name', ''),
        'area_name': area_name,
        'salary_from': salary_from,
        'salary_to': salary_to,
        'salary_currency': salary_currency,
        'salary_gross': salary_gross,
        'requirement': requirement,
        'responsibility': responsibility,
        'employer_name': employer_name,
        'experience_id': experience_id,
        'experience_name': experience_name
    })


In [74]:
result

[{'id': '83811478',
  'name': 'Удалённый аналитик по недвижимости (подработка из дома, от 4 часов, без опыта)',
  'area_name': 'Москва',
  'salary_from': 50000,
  'salary_to': 100000,
  'salary_currency': 'RUR',
  'salary_gross': False,
  'requirement': 'готовность к обучению и усвоению новой информации. - быть на связи и соблюдать сроки. - ответственность, обязательность, внимательность и аккуратность. ',
  'responsibility': 'по открытым источникам (Циан, Avito, яндекс.недвижимость и др.) находить объявления по коммерческой недвижимости. - собирать данные по объекту, запрашивать у продавца...',
  'employer_name': 'Сакулин Игорь Валерьевич',
  'experience_id': 'noExperience',
  'experience_name': 'Нет опыта'},
 {'id': '85016384',
  'name': 'Data Analyst',
  'area_name': 'Москва',
  'salary_from': None,
  'salary_to': 3500,
  'salary_currency': 'USD',
  'salary_gross': False,
  'requirement': 'Высшее образование. Готовность к релокации. SQL на уровне сложных запросов. Опыт с Power BI / 

In [114]:
import json
import pprint
vac_id = str('83811478')

def getPageVac(vac_id):
    req = requests.get(f'https://api.hh.ru/vacancies/{vac_id}/') # Посылаем запрос к API
    data = req.content.decode() # Декодируем его ответ, чтобы Кириллица отображалась корректно
    req.close()
   
    return data
data_vac = getPageVac((vac_id))
# https://api.hh.ru/vacancies/{vacancy_id}



In [121]:
data_vac
data_dict = (json.loads(data_vac))
data_dict

{'id': '83811478',
 'premium': False,
 'billing_type': {'id': 'standard', 'name': 'Стандарт'},
 'relations': [],
 'name': 'Удалённый аналитик по недвижимости (подработка из дома, от 4 часов, без опыта)',
 'insider_interview': None,
 'response_letter_required': False,
 'area': {'id': '1', 'name': 'Москва', 'url': 'https://api.hh.ru/areas/1'},
 'salary': {'from': 50000, 'to': 100000, 'currency': 'RUR', 'gross': False},
 'type': {'id': 'open', 'name': 'Открытая'},
 'address': None,
 'allow_messages': True,
 'experience': {'id': 'noExperience', 'name': 'Нет опыта'},
 'schedule': {'id': 'remote', 'name': 'Удаленная работа'},
 'employment': {'id': 'part', 'name': 'Частичная занятость'},
 'department': None,
 'contacts': None,
 'description': '<p>В связи с расширением требуются начинающие специалисты - аналитики по коммерческой недвижимости на удалённую работу для сбора данных по объектам недвижимости. Работа из дома. Можно без опыта, возможно обучение.</p> <p>ОБЯЗАННОСТИ:<br />- по открытым 

In [163]:
result = []
_id = data_dict.get('id', '')

billing_type = data_dict.get('billing_type', {})
billing_type_id = billing_type.get('id', '')
billing_type_name = billing_type.get('name', '')
experience = data_dict.get('experience', {})
experience_id = experience.get('id', '')
experience_name = experience.get('name', '')
employment = data_dict.get('employment', {})
employment_id = employment.get('id', '')
employment_name = employment.get('name', '')
employer = data_dict.get('employer', {})
employer_id = employer.get('id', '')
employer_name = employer.get('name', '')
employer_url = employer.get('url', '')
working_days = data_dict.get('working_days', [])
working_days_list = ''.join([day.get('name', '') for day in working_days]).replace('\xa0', ' ')
working_time_intervals = data_dict.get('working_time_intervals', [])
working_time_intervals_list = ''.join([interval.get('name', '') for interval in working_time_intervals]).replace('\xa0', ' ')
working_time_modes = data_dict.get('working_time_modes', [])
working_time_modes_list = ''.join([mode.get('name', '') for mode in working_time_modes])
description = data_dict.get('description', '')
area = data_dict.get('area', {})
area_url = area.get('url', '')
salary = data_dict.get('salary', {})
salary_from = salary.get('from', 0)
salary_to = salary.get('to', 0)
salary_currency = salary.get('currency', 'RUR')
type_info = data_dict.get('type', {}) 
type_id = type_info.get('id', '')
type_name = type_info.get('name', '')
key_skills = data_dict.get('key_skills', [])
skills = ''.join([skill for skill in key_skills])
date_pub= data_dict.get("published_at")
date_create = data_dict.get("created_at")
result.append({
    'id': _id,
    'billing_type_id': billing_type_id,
    'billing_type_name': billing_type_name,
    'experience_id': experience_id,
    'experience_name': experience_name,
    'employment_id': employment_id,
    'employment_name': employment_name,
    'employer_id': employer_id,
    'employer_name': employer_name,
    'employer_url': employer_url,
    'working_days': working_days_list,
    'working_time_intervals': working_time_intervals_list,
    'working_time_modes': working_time_modes_list,
    'description': description,
    'area_url': area_url,
    'salary_from': salary_from,
    'salary_to': salary_to,
    'salary_currency': salary_currency,
    'type_id': type_id,
    'type_name': type_name,
    'key_skills': key_skills,
    'date_pub'  : date_pub,
    'date_create':date_create,
})

In [164]:
result

[{'id': '83811478',
  'billing_type_id': 'standard',
  'billing_type_name': 'Стандарт',
  'experience_id': 'noExperience',
  'experience_name': 'Нет опыта',
  'employment_id': 'part',
  'employment_name': 'Частичная занятость',
  'employer_id': '5630856',
  'employer_name': 'Сакулин Игорь Валерьевич',
  'employer_url': 'https://api.hh.ru/employers/5630856',
  'working_days': 'Работа только по сб и вс',
  'working_time_intervals': 'Можно работать сменами по 4–6 часов в день',
  'working_time_modes': 'Можно начинать работать после 16:00',
  'description': '<p>В связи с расширением требуются начинающие специалисты - аналитики по коммерческой недвижимости на удалённую работу для сбора данных по объектам недвижимости. Работа из дома. Можно без опыта, возможно обучение.</p> <p>ОБЯЗАННОСТИ:<br />- по открытым источникам (Циан, Avito, яндекс.недвижимость и др.) находить объявления по коммерческой недвижимости;<br />- собирать данные по объекту, запрашивать у продавца недостающую информацию;<br

In [5]:
for page in range(0, 20):
    
    # Преобразуем текст ответа запроса в справочник Python
    jsObj = json.loads(getPage(page))
    
    # Сохраняем файлы в папку {путь до текущего документа со скриптом}\docs\pagination
    # Определяем количество файлов в папке для сохранения документа с ответом запроса
    # Полученное значение используем для формирования имени документа
    nextFileName = './data/raw/pagination/{}.json'.format(len(os.listdir('./data/raw/pagination')))
    
    # Создаем новый документ, записываем в него ответ запроса, после закрываем
    f = open(nextFileName, mode='w', encoding='utf8')
    f.write(json.dumps(jsObj, ensure_ascii=False))
    f.close()
    
    # Проверка на последнюю страницу, если вакансий меньше 2000
    if (jsObj['pages'] - page) <= 1:
        break
    
    # Необязательная задержка, но чтобы не нагружать сервисы hh, оставим. 5 сек мы может подождать
    time.sleep(0.25)
    
print('Старницы поиска собраны')

Старницы поиска собраны


In [None]:
# Библиотека для анализа данных, представляющая данные в табличном виде называемом DataFrame
# Вся мощь данной библиотеки нам здесь не понадобиться, с ее помощью мы положим
# данные в БД. Можно было бы написать простые insert-ы
import pandas as pd

import json
import os

# Библиотека для работы с СУБД
from sqlalchemy import engine as sql

# Модуль для работы с отображением вывода Jupyter
from IPython import display

# Создаем списки для столбцов таблицы vacancies
IDs = [] # Список идентификаторов вакансий
names = [] # Список наименований вакансий
descriptions = [] # Список описаний вакансий

# Создаем списки для столбцов таблицы skills
skills_vac = [] # Список идентификаторов вакансий
skills_name = [] # Список названий навыков

# В выводе будем отображать прогресс
# Для этого узнаем общее количество файлов, которые надо обработать
# Счетчик обработанных файлов установим в ноль
cnt_docs = len(os.listdir('./docs/vacancies'))
i = 0

# Проходимся по всем файлам в папке vacancies
for fl in os.listdir('./docs/vacancies'):
    
    # Открываем, читаем и закрываем файл
    f = open('./docs/vacancies/{}'.format(fl), encoding='utf8')
    jsonText = f.read()
    f.close()
    
    # Текст файла переводим в справочник
    jsonObj = json.loads(jsonText)
    
    # Заполняем списки для таблиц
    IDs.append(jsonObj['id'])
    names.append(jsonObj['name'])
    descriptions.append(jsonObj['description'])
    
    # Т.к. навыки хранятся в виде массива, то проходимся по нему циклом
    for skl in jsonObj['key_skills']:
        skills_vac.append(jsonObj['id'])
        skills_name.append(skl['name'])
    
    # Увеличиваем счетчик обработанных файлов на 1, очищаем вывод ячейки и выводим прогресс
    i += 1
    display.clear_output(wait=True)
    display.display('Готово {} из {}'.format(i, cnt_docs))


# Создадим соединение с БД
eng = sql.create_engine('postgresql://{Пользователь}:{Пароль}@{Сервер}:{Port}/{База данных}')
conn = eng.connect()

# Создаем пандосовский датафрейм, который затем сохраняем в БД в таблицу vacancies
df = pd.DataFrame({'id': IDs, 'name': names, 'description': descriptions})
df.to_sql('vacancies', conn, schema='public', if_exists='append', index=False)

# Тоже самое, но для таблицы skills
df = pd.DataFrame({'vacancy': skills_vac, 'skill': skills_name})
df.to_sql('skills', conn, schema='public', if_exists='append', index=False)

# Закрываем соединение с БД
conn.close()

# Выводим сообщение об окончании программы
display.clear_output(wait=True)
display.display('Вакансии загружены в БД')

In [None]:
import pandas as pd
