# Выгружаем описание вакансий

*Код вдохновлен статьей https://office-menu.ru/python/96-api-hh*

In [None]:
import requests
import json
import os
import time
import random
import pandas as pd
import csv
import re

## Шаг 1 - Подготовка списка уникальных вакансий

In [None]:
# создаем пустой датафрейм
df_vac_list = pd.DataFrame({'id': [], 'name': [], 'area_name': [], 'employer_id': [], 'employer_name': [], 'url': []})

# Получаем перечень ранее созданных файлов со списком вакансий и проходимся по нему в цикле и заполняем датафрейм
for fl in os.listdir('./vacancies_list'):   
    
    with open('./vacancies_list/{}'.format(fl), 'r', encoding='utf8') as f_read:
        jsonText = f_read.read()
    jsonObj = json.loads(jsonText)
    
    vacancies_list = []
    
    for v in jsonObj['items']:
        vacancy_details = []
        vacancy_details.append(v['id'])
        vacancy_details.append(v['name'])
        vacancy_details.append(v['area']['name'])
        try:
            vacancy_details.append(v['employer']['id'])
        except KeyError:
            vacancy_details.append(0)
        vacancy_details.append(v['employer']['name'])
        vacancy_details.append(v['url'])       
        vacancies_list.append(vacancy_details)
            
    df_temp = pd.DataFrame.from_records(vacancies_list, columns=['id', 'name', 'area_name', 'employer_id', 'employer_name', 'url'])
    df_vac_list = df_vac_list.append(df_temp, ignore_index=True)

print('Вакансии собраны')

In [None]:
# подготовка файла для сверки
unuqie_url = df_vac_list[['id', 'url']].drop_duplicates()
pd.DataFrame(unuqie_url).to_csv('./uniqie_vac_withID.csv', header=True, index=False)
# подготовка файла для выгрузки
unuqie_url = df_vac_list['url'].unique()
pd.DataFrame(unuqie_url).to_csv('./uniqie_vac.csv', header=False, index=False)

## Шаг 2 - Запрос вакансий

In [None]:
with open('./uniqie_vac.csv', newline='') as f:
    reader = csv.reader(f)
    url_list = list(reader)

number_vacancies = len(url_list)

In [None]:
count = 0

for url in url_list:
    # Обращаемся к API и получаем детальную информацию по конкретной вакансии
    req = requests.get(url[0])
    data = req.content.decode()
    req.close()
    
    # Создаем файл в формате json с идентификатором вакансии в качестве названия
    # Записываем в него ответ запроса и закрываем файл
    file_name_path = './vacancies_descr/'
    vacancy_id = re.findall(r'\d+', url[0])[0]
    file_name_write = file_name_path + vacancy_id + '.json'
        
    with open(file_name_write, mode='w', encoding='utf8') as f_write:
        f_write.write(data)
         
    if count % 2500 == 0:
        time.sleep(30)
    elif count % 1500 != 0:
        time.sleep(random.uniform(0.25, 1.25))
    else:
        time.sleep(40)
    
    count += 1
    print(round(count / number_vacancies * 100, 2), '%')
                   
print('Вакансии собраны')