In [36]:
import requests
import pandas as pd
from bs4 import BeautifulSoup
import time

In [60]:
API_ENDPOINT = 'https://api.hh.ru/vacancies/'
queries = 'аналитик данных OR data analyst OR bi analyst OR аналитик бизнес-процессов OR специалист по данным OR data scientist OR Data аналитик OR аналитик по данным OR Data Analysis'

junior_keywords = ['junior', 'стажер', 'intern', 'начинающий', 'младший']
middle_keywords = ['middle', 'промежуточный']
senior_keywords = ['senior', 'старший', 'ведущий', 'lead', 'руководитель', 'главный']
intern_keywords = ['intern', 'стажировка', 'internship']


description_tags = [
    # Требование / Требования
    'требование', 'требования', 'требованию', 'требований', 'требованием',
    
    # Ожидаем / Ожидается / Ожидается от кандидата
    'ожидаем', 'ожидается', 'ожидать', 'ожидалось', 'ожидаемое',
    
    # Ждём / Ждем
    'ждём', 'ждем', 'жду', 'ждут', 'ждет',
    
    # Нужен / Нужны / Нужная
    'нужен', 'нужны', 'нужная', 'нужно', 'нужны', 'нужны нам',
    
    # Важно / Важные
    'важно', 'важные', 'важная', 'важен',
    
    # Обязательно / Обязательные
    'обязательно', 'обязательные', 'обязательных', 'обязательным',
    
    # Желательно / Желательные
    'желательно', 'желательные', 'желательных', 'желательным',
    
    # Плюсом / Будет плюсом / Преимущество
    'плюсом', 'будет плюсом', 'преимущество', 'преимуществом', 'плюсы',
    
    # Навыки / Умения / Опыт
    'навыки', 'навыков', 'навыкам', 'умения', 'умений', 'опыт', 'опытом', 'опыт работы',
    
    # Кто нам / Кого мы ищем / Мы ищем
    'кто нам', 'кого мы', 'мы ищем', 'ищем', 'ищем кандидата', 'кандидат должен',
    
    # Должен / Должна / Должен обладать
    'должен', 'должна', 'должны', 'должен обладать', 'должны знать',
    
    # Специалист должен / Кандидат должен
    'специалист должен', 'кандидат должен', 'сотрудник должен',
    
    # Профиль / Квалификация
    'профиль', 'квалификация', 'уровень', 'опыт', 'стаж',

    'requirements', 'must have', 'skills'
]

patterns = [
        r'опыт\s+работы\s*(?:от\s*)?(\d+)\s*(?:лет|года|год)',
        r'(\d+)\s*(?:лет|года|год)\s*опыта',
        r'experience.*?(\d+)\s*(?:years?|лет)',
        r'(\d+)\s*(?:years?|лет).*?experience'
    ]
vacancies = [] 
vacancy_info_list = []


In [65]:
intern_set = set(intern_keywords)
junior_set = set(junior_keywords)
middle_set = set(middle_keywords)
senior_set = set(senior_keywords)
description_set = set(description_tags)

for page in range(20):
    try:
        playload = {
            'text': queries,
            'page': page,
            'per_page': 100,
            'search_field': 'name',
            'only_with_salary': False, 
            'order_by': 'publication_time' 
        }

        response = requests.get(API_ENDPOINT, params=playload, timeout=10)
        response.raise_for_status()
        data = response.json()
        items = data.get('items', [])
        page_ids = [v['id'] for v in items if v.get('id')]
        vacancies.extend(page_ids)
        print(f'pages: {page}/20',  end='\r', flush=True)
        if page >= data.get('pages', 1) - 1:
            break
    except (requests.RequestException, ValueError, KeyError) as e:
        print(f"\nОшибка при запросе страницы {page}: {e}")
        continue

print(f"Collected ID: {len(vacancies)}")
count = 0 

for vacancy in vacancies:
    try:
        count += 1
        time.sleep(0.5)
        response = requests.get(f"{API_ENDPOINT}{vacancy}", timeout=10)
        response.raise_for_status()
        vac_data = response.json()
        description = vac_data.get('description')
        title = vac_data.get('name', '')
        experience_data = vac_data.get('experience', {})

        position = 'junior'
        title_words = set(title.lower().split())

        if title_words & intern_set:
            position = 'intern'
        elif title_words & junior_set:
            position = 'junior'
        elif title_words & middle_set:
            position = 'middle' 
        elif title_words & senior_set:
            position = 'senior'
        else:
            experience_years = experience_data.get('id') if experience_data else None
            if experience_years:
                position = {
                    'noExperience': 'intern',
                    'between1And3': 'junior',
                    'between3And6': 'middle',
                    'moreThan6': 'senior'
                }.get(experience_years, 'junior')

        vacancy_requirements = {skill['name'] for skill in vac_data.get('key_skills', [])}
        
        if description:
            soup = BeautifulSoup(description, 'html.parser')
            for tag in soup.find_all(['strong', 'b']):
                text = tag.get_text(strip=True).lower()
                text_words = set(text.split())
                if text_words & description_set:
                    for sibling in tag.find_next_siblings():
                        if sibling.name in ['ul', 'li', 'p', 'div']:
                            t = sibling.get_text(" ", strip=True)
                            if t:
                                vacancy_requirements.add(t)
                        else:
                            break

        vacancy_info = {
            'title': title,
            'position': position,
            'requirements': ', '.join(vacancy_requirements) if vacancy_requirements else ''
        }
        vacancy_info_list.append(vacancy_info)
        print(f"vacancies: {count}/{len(vacancies)}",  end='\r', flush=True)
    except (requests.RequestException, ValueError, KeyError, Exception) as e:
        print(f"\nОшибка при обработке вакансии {vacancy}: {e}")
        continue

df = pd.DataFrame(vacancy_info_list)
df.to_csv('../data/raw/requirements_data_raw.csv', index=False)
print('Done!')

Collected ID: 6037
vacancies: 36/6037
Ошибка при обработке вакансии 124278997: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/124278997
vacancies: 136/6037
Ошибка при обработке вакансии 124278997: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/124278997
vacancies: 206/6037
Ошибка при обработке вакансии 123538493: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/123538493
vacancies: 397/6037
Ошибка при обработке вакансии 124176833: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/124176833
vacancies: 1696/6037
Ошибка при обработке вакансии 123538493: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/123538493
vacancies: 1728/6037
Ошибка при обработке вакансии 124069846: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/124069846
vacancies: 3182/6037
Ошибка при обработке вакансии 123538493: 404 Client Error: Not Found for url: https://api.hh.ru/vacancies/123538493
vacancies: 3214/6037
Ошибка