Цель: Получить резюме кандидатов из компаний, в которых наблюдается массовый отток сотрудников.

Задача: Реализовать скрипт в Python, возвращающий список резюме сооискателей по принципу совпадения текущего/последнего места работы кандидатов.
Необходимо определить компании, у которых текущие/бывшие сотрудники сейчас размещают резюме. И вывести резюме в сортировке по компаниям, где таких кандидатов больше всего.
Скрипт должен поддерживать конфигурирование основных параметров поиска(ключевые слова, глубину, проф.область, город итд. Некоторые параметры, такие как проф.область="ит.телеком" и город="Москва" можно преднастроить по умолчанию).

К сожалению, поиск резюме в API отсутсвует, доступен лишь просмотр резюме через метод https://api.hh.ru/resumes/
Для поиска предлагается использовать подход с парсингом сайта и получением идентификаторов резюме с использованием библиотек Selenium и BeatifualSoap (на основе сформированного поиского запроса к web-версии сайта, например https://hh.ru/search/resume?text=JAVA&st=resumeSearch&logic=normal&pos=full_text&exp_period=all_time&exp_company_size=any&exp_industry=any&area=113&relocation=living_or_relocation&salary_from=&salary_to=&currency_code=RUR&experience=between1And3&education=higher&age_from=&age_to=&gender=unknown&employment=full&schedule=fullDay&language=eng.b1&order_by=relevance&search_period=30&items_on_page=100 ) .
Далее идентификаторы можно просматривать в цикле и формировать из них массив данных (предварительно авторизовавшись с использованием токена корпоративной учетной записи).


In [71]:
import pandas as pd
import pymorphy2, re
from nltk.tokenize import sent_tokenize
import pandas as pd
import nltk
from nltk.stem import WordNetLemmatizer 
from collections import Counter
import json

data = pd.read_json('data/data9.json')
data.head()

Unnamed: 0,title,href,last_work_plase
0,"Контент-менеджер, SEO-копирайтер",/resume/83b80647000207fafd0039ed1f613278383979...,"ООО ""Кораблик-Р"""
1,UX UI дизайнер,/resume/d65527fd000407fd190039ed1f393639565568...,"СОЮЗПАК, МПФ, ООО"
2,Frontend-разработчик,/resume/f3861e99000500e4300039ed1f4a54464f4234...,Индивидуальное предпринимательство / частная п...
3,Специалист технической поддержки,/resume/e43c9f5800056c1a550039ed1f4d4f78426a42...,Софт Компани
4,Менеджер по работе с ключевыми клиентами/Key A...,/resume/88615e580006803b7b0039ed1f5a4237496872...,Greenworks


In [73]:
data["href"] = 'https://hh.ru'+data["href"]

In [75]:
data.head()

Unnamed: 0,title,href,last_work_plase
0,"Контент-менеджер, SEO-копирайтер",https://hh.ru/resume/83b80647000207fafd0039ed1...,"ООО ""Кораблик-Р"""
1,UX UI дизайнер,https://hh.ru/resume/d65527fd000407fd190039ed1...,"СОЮЗПАК, МПФ, ООО"
2,Frontend-разработчик,https://hh.ru/resume/f3861e99000500e4300039ed1...,Индивидуальное предпринимательство / частная п...
3,Специалист технической поддержки,https://hh.ru/resume/e43c9f5800056c1a550039ed1...,Софт Компани
4,Менеджер по работе с ключевыми клиентами/Key A...,https://hh.ru/resume/88615e580006803b7b0039ed1...,Greenworks


In [76]:
count_company = data["last_work_plase"].value_counts()
df_count_company = pd.DataFrame({'last_work_plase':count_company.index, 'count':count_company.values})
df_count_company.head()

Unnamed: 0,last_work_plase,count
0,Индивидуальное предпринимательство / частная п...,177
1,Сбербанк,46
2,Фриланс,38
3,Ростелеком,27
4,Мобильные ТелеСистемы (МТС),25


In [79]:
data_with_count = data.set_index('last_work_plase').join(df_count_company.set_index('last_work_plase'))
data_with_count.head()

Unnamed: 0_level_0,title,href,count
last_work_plase,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Омега,Мастер по ремонту компьютеров,https://hh.ru/resume/1ead0b9c0007e8cbb00039ed1...,1.0
ИНТЕНШЕН,Системный администратор,https://hh.ru/resume/6e58864a000285dccc0039ed1...,1.0
Интернет-Магазины,Интернет-маркетолог,https://hh.ru/resume/4e5432c300072145b80039ed1...,1.0
ОО «ИЦ»,Системный администратор,https://hh.ru/resume/bc91f04400033060aa0039ed1...,1.0
"""A Serial"" Ltd (HBO - Russia)",IT Specialist,https://hh.ru/resume/1d9f76f80002a3e1a30039ed1...,1.0


In [80]:
sorted_data = data_with_count.sort_values(by=["count"], ascending=False)
sorted_data.to_csv('data_sort.csv', sep='\t', index=False)

In [82]:
sorted_data.head(10)

Unnamed: 0_level_0,title,href,count
last_work_plase,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Индивидуальное предпринимательство / частная практика / фриланс,Инженер-программист,https://hh.ru/resume/ea3ad192000074a1640039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,Приходящий системный администратор,https://hh.ru/resume/61f5e94000005697c30039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,"Full stack разработчик (React, Node.js)",https://hh.ru/resume/98538ca50003492cb20039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,Сценарист,https://hh.ru/resume/bca7233e0007e6cd110039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,Web-дизайнер/Frontend-разработчик,https://hh.ru/resume/656b79ee00063fe8fd0039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,"SEO-специалист (продвижение сайтов, порталов, ...",https://hh.ru/resume/abe763f300016cde520039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,"Веб-дизайнер, UX/UI дизайнер, Дизайнер интерфе...",https://hh.ru/resume/10eb923b000694f2610039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,"системный администратор, тех поддержка, безопа...",https://hh.ru/resume/b1f64db00007e24e2d0039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,HTML-верстальщик,https://hh.ru/resume/dc4d793a0007da80e00039ed1...,177.0
Индивидуальное предпринимательство / частная практика / фриланс,Frontend-разработчик (React),https://hh.ru/resume/1e12edf50007c559520039ed1...,177.0


In [83]:
sorted_data.to_csv('sorted_data.csv', sep='\t', index=False)