## Домашняя работа

Необходимо собрать информацию о вакансиях на вводимую должность с сайта HH.
(используем input или через аргументы получаем должность)  
Приложение должно анализировать все страницы сайта. 
Получившийся список должен содержать в себе минимум:

1. Наименование вакансии.
2. Предлагаемую зарплату (разносим в три поля: минимальная и максимальная и валюта. цифры преобразуем к цифрам).
3. Ссылку на саму вакансию.
4. Сайт, откуда собрана вакансия.

По желанию можно добавить ещё параметры вакансии (например, работодателя и расположение). 

Общий результат можно вывести с помощью dataFrame через pandas. 
Сохраните в json либо csv.

In [1]:
#!pip install bs4
#!pip install lxml

In [2]:
import requests
import json
import time
import os
import re

from bs4 import BeautifulSoup as bs
import pandas as pd

In [3]:
# Функция получения поисковой страницы со списком вакансий
def getPage(page = 0):

    # Параметры GET-запроса
    params = {
        'text': 'NAME:scientist', # название специальности
        'country': 1,
        'area': 113, # Поиск по России
        'page': page, # Номер страницы результатов поиска
        'per_page': 100 # Кол-во вакансий на странице
    }
    
    # Получаем ответ на запрос поиска
    req = requests.get('https://api.hh.ru/vacancies', params)
    data = req.json()
    return data

In [4]:
# Считываем первые 2000 вакансий, т.к. у API есть ограничение на количество вакансий при поиске
for page in range(0, 20):
    
    # Получаем содержание поисковой страницы 
    jsb = getPage(page)
    
    # имя сохраняемого файла в папке Result
    FileName = './Result/{}.json'.format(len(os.listdir('./Result')))
    
    # Выводим ответ запроса в файл с номером страницы поиска
    with open(FileName, "w", encoding='utf-8') as f:
        f.write(json.dumps(jsb, ensure_ascii=False))
    
    # Проверка на последнюю страницу, если вакансий меньше 2000
    if (jsb['pages'] - page) <= 1:
        break
    
    # Задержка 0.3 с, чтобы не нагружать сервисы hh
    time.sleep(0.3)

In [5]:
# Функция контроля информации у тегов
def NotNan(param, isnone):
    if param != None:
        param = param.text
    else:
        param = isnone
    return param

In [6]:
# Функция сбора данных с веб-страницы i-ой вакансии на BeautifulSoup

def join_data(id, url):
    headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)', 'Authorization':'Basic cG9zdG1hbjpwYXNzd29yZA=='} 
    req = requests.get(url, headers=headers)

    soup = bs(req.text,'html.parser')
    
    # Название специальности
    vacancy = soup.find("h1", {"data-qa": "vacancy-title"})
    vacancy = NotNan(vacancy, '0')
        
    # Получение строки с условиями по зарплате
    data = soup.find("span", {"data-qa": "vacancy-salary-compensation-type-net"})

    # Вычленяем данные зарплаты в виде списка, где позиция:
    # [0 - минимум;  1 - максимум;  2 - валюта]
    data = NotNan(data, [0, 0, '-'])    # Если нет числовых значений, присваиваем "0" 
    
    if type(data) != list:
        data = data.split(' ')

        salary = []

        # Вычленяем числовое значение и добавляем в список
        for i in data:
            i = re.sub("\D", "", i)
            if i.isdigit():
                salary.append(i)

        # При неполных данных дублируем min-значение            
        s = 0
        for j in salary:
            if j.isdigit():
                s += 1
        if s > 1:
            salary.append(data[4])
        else:
            salary.append(salary[0])
            salary.append(data[2])
    else:
        salary = data

    # Получение данных о работодателе:
    #   Имя
    Employer_name = soup.find("span", {"data-qa": "bloko-header-2"})
    Employer_name = NotNan(Employer_name, '-')
    Employer_name.replace(u'\xa0', ' ')

    #   Ссылка
    hh = 'https://hh.ru'
    url2 = soup.find("a", {"data-qa": "vacancy-company-name"})
    Employer_url = hh + url2.get('href')
    
    #   Город
    Employer_city = soup.find("p", {"data-qa": "vacancy-view-location"})
    Employer_city = NotNan(Employer_city, '-')
    
    # Сбор сведений в таблицу
    Vacancy = pd.DataFrame({
        'Vacancy_id': [id],
        'Vacancy_name': [vacancy],
        'Vacancy_url': [url],
        'Salary_min': [salary[0]],
        'Salary_max': [salary[1]],
        'Salary_cur': [salary[2]],
        'Employer_name': [Employer_name],
        'Employer_url': [Employer_url],
        'Employer_city': [Employer_city]})

    return Vacancy

In [7]:
df = pd.DataFrame()

# Перебор файлов со страницами найденных вакансий
for flist in os.listdir('./Result'):
    
    if flist.find('.json') != -1:
        with open('./Result/{}'.format(flist), encoding='utf8') as f:
            jsonTxt = f.read()

    jsb = json.loads(jsonTxt)
    
    # Обрабатываем список вакансий
    for n in jsb['items']:
        
        # Обращаемся к веб-странице и получаем информацию по конкретной вакансии
        url = 'https://hh.ru/vacancy/{}'.format(n['id'])
        df = pd.concat([df, join_data(n['id'], url)])
        time.sleep(0.25) 
        
        # Выводим все результаты в csv-файл
        df.to_csv('./Result/vacancies.csv', index= False, sep=';', encoding='utf-8')

print('Вакансии собраны')

Вакансии собраны


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 368 entries, 0 to 0
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Vacancy_id     368 non-null    object
 1   Vacancy_name   368 non-null    object
 2   Vacancy_url    368 non-null    object
 3   Salary_min     368 non-null    object
 4   Salary_max     368 non-null    object
 5   Salary_cur     368 non-null    object
 6   Employer_name  368 non-null    object
 7   Employer_url   368 non-null    object
 8   Employer_city  368 non-null    object
dtypes: object(9)
memory usage: 28.8+ KB


In [9]:
df.head()

Unnamed: 0,Vacancy_id,Vacancy_name,Vacancy_url,Salary_min,Salary_max,Salary_cur,Employer_name,Employer_url,Employer_city
0,83902101,Junior Data Scientist (стажер),https://hh.ru/vacancy/83902101,50000,50000,₽,ООО А17,https://hh.ru/employer/4768936?hhtmFrom=vacancy,Москва
0,84046041,Junior Data Scientist (Специалист по анализу д...,https://hh.ru/vacancy/84046041,0,0,-,ООО АлгоМост,https://hh.ru/employer/1543971?hhtmFrom=vacancy,-
0,83964034,Junior Data Scientist,https://hh.ru/vacancy/83964034,0,0,-,"Ренессанс cтрахование, Группа",https://hh.ru/employer/490?hhtmFrom=vacancy,-
0,83353677,Аналитик данных / Data Scientist,https://hh.ru/vacancy/83353677,65000,70000,₽,СПб ГКУ Центр Архивных Документов,https://hh.ru/employer/5179427?hhtmFrom=vacancy,-
0,84026782,Junior Data Scientist (NLP)/GPT Prompt инженер...,https://hh.ru/vacancy/84026782,0,0,-,Bewise.ai,https://hh.ru/employer/6148323?hhtmFrom=vacancy,Москва


In [10]:
df.describe()

Unnamed: 0,Vacancy_id,Vacancy_name,Vacancy_url,Salary_min,Salary_max,Salary_cur,Employer_name,Employer_url,Employer_city
count,368,368,368,368,368,368,368,368,368
unique,368,244,368,18,19,2,184,184,29
top,83902101,Data Scientist,https://hh.ru/vacancy/83902101,0,0,-,Сбер для экспертов,https://hh.ru/employer/3529?dpt=3529-3529-prof...,Москва
freq,1,51,1,321,321,321,40,40,164


In [14]:
n_file = 'vacancies.csv'
df = pd.read_csv(f'../Task2/Result/{n_file}', sep=';')


len(df['Vacancy_id'].unique())

368