# Формируем список вакансий для дальнейшей работы
Допущения выборки:
1. Специализации: выбраны все, относящиеся к id 1 "Информационные технологии, интернет, телеком" (источник: 'https://api.hh.ru/specializations');
2. Опыт работы: Заказчика исследования интересуют необходимые навыки выпускникам ВУЗа, поэтому выбрали вакансии с "Нет опыта" или "От 1 года до 3 лет" (источник: https://api.hh.ru/dictionaries);
3. География: вакансии по России (area - 113) (источник: https://api.hh.ru/areas)
4. Работодатели: вакансии только от прямых работодателей (label - "not_from_agency") https://api.hh.ru/dictionaries).

*Код вдохновлен статьями https://office-menu.ru/python/96-api-hh и https://habr.com/ru/post/418281/*

In [None]:
import requests
import json
import os
import pandas as pd
import time
from datetime import datetime, timedelta

In [None]:
# словари для параметров API HH, 
experience_list = ['noExperience', 'between1And3']
specializations = ['1.395',
 '1.400',
 '1.420',
 '1.474',
 '1.475',
 '1.536',
 '1.744',
 '1.3',
 '1.9',
 '1.10',
 '1.25',
 '1.30',
 '1.50',
 '1.82',
 '1.89',
 '1.110',
 '1.113',
 '1.116',
 '1.117',
 '1.137',
 '1.161',
 '1.172',
 '1.203',
 '1.211',
 '1.221',
 '1.225',
 '1.232',
 '1.246',
 '1.270',
 '1.272',
 '1.273',
 '1.274',
 '1.277',
 '1.295',
 '1.296',
 '1.327',
 '1.359']

In [None]:
def getPage(page=0, specialization=1.3, experience="noExperience", back=1):
    """
    Создаем метод для получения страницы со списком вакансий.
    Аргументы:
        page - Индекс страницы, начинается с 0. Значение по умолчанию 0, т.е. первая страница
        specialization - специализация, по умолчанию 1.3, т.е. CTO (1 - все IT)
        experience - опыт работы, по умолчанию без опыта работы
        back - обратный отсчет от сегодняшнего числа, для выгрузки вакансий
    """
    
    # Расчет временных промежутков в формате ISO 8601
    date_now = datetime.now()
    date_now_iso = date_now.isoformat()

    date_from = date_now - timedelta(days=back)
    date_from_iso = date_from.isoformat()

    date_to = date_from + timedelta(hours=24)
    date_to_iso = date_to.isoformat()
               
    # Справочник для параметров GET-запроса
    params = {
        'per_page': 100, # Кол-во вакансий на 1 странице
        'area': 113, # Поиск ощуществляется по вакансиям России
        'label': "not_from_agency", # Вакансии только от прямых работодателей
        'page': page, # Индекс страницы поиска на HH              
        'specialization': specialization, 
        'date_from': date_from_iso,
        'date_to': date_to_iso,
        'experience': experience,
    }
         
    req = requests.get('https://api.hh.ru/vacancies', params) # Посылаем запрос к API
    data = req.content.decode() # Декодируем его ответ, чтобы Кириллица отображалась корректно
    req.close()
    return data

# итерируемся по диапазону дат
for back in range(1, 31):
    # итерируемся по стажу
    for exp in experience_list:
        # итерируемся по срециализации
        for spec in specializations:
            # считываем первые 2000 вакансий по запросу
            for page in range(0, 20):

                # Преобразуем текст ответа запроса в справочник Python
                jsObj = json.loads(getPage(page, specialization=spec, back=back, experience=exp))

                # Сохраняем файлы в папку {путь до текущего документа со скриптом}\docs\pagination
                # Определяем количество файлов в папке для сохранения документа с ответом запроса
                # Полученное значение используем для формирования имени документа
                file_id = len(os.listdir('./vacancies_list'))
                file_name = str(file_id)+'-'+str(back)+'-'+exp+'-'+spec+'-'+str(page)
                nextFileName = './vacancies_list/{}.json'.format(file_name)

                # Создаем новый документ, записываем в него ответ запроса, после закрываем
                f = open(nextFileName, mode='w', encoding='utf8')
                f.write(json.dumps(jsObj, ensure_ascii=False))
                f.close()

                # Проверка на последнюю страницу, если вакансий меньше 2000
                if (jsObj['pages'] - page) <= 1:
                    break

                # Необязательная задержка, но чтобы не нагружать сервисы hh, оставим. 5 сек мы может подождать
                time.sleep(0.25)

print('Страницы поиска собраны')