источник данных - Вакансии всех регионов России из ЕЦП «Работа в России» (https://trudvsem.ru/opendata/api)

### На какие вопросы можно ответить?

1. какое распределение вакансий по регионам? Абсолютные цифры и на душу населения
2. в каких регионах требуется больше специалистов с ученой степенью?
3. какое распределение вакансий по категориям и регионам?
4. средние зарплаты?
5. динамика зарплат по времени?
6. в каких категориях не указывают зарплаты?

и т.д.100500 вопросов можно придумать)

Также можно будет посмотреть исторические данные и попытаться ответить на вопрос, повлияло ли как-то то или иное событие на рынок вакансий.


### Что предлагается сделать?

Написать приложение, которое будет:
1. скачивать периодически данные из https://trudvsem.ru/opendata/api и сохранять в БД
2. визуализировать данные в BI системе (различные срезы, сегменты и по времени)

Инструменты:
1. clickhouse
2. airflow
3. grafana/datalens
4. python/jupyter notebook
5. docker

### Загрузка данных

1. Данные грузятся кусками (параметр limit + offset)
2. Данные за период можно загрузить, передав в url параметры modifiedFrom и modifiedTo

Загрузим для примера записи за 2024-02-17

In [1]:
import requests
import pandas as pd


url = 'http://opendata.trudvsem.ru/api/v1/vacancies'
date_start = '2024-02-17'
date_end = '2024-02-17'


def load_data(url: str = None,
              offset: int = 1,
              limit: int = 500,
              date_start: str = None,
              date_end: str = None):
    url = f'{url}?offset={offset}&limit={limit}&modifiedFrom={date_start}T00:00:00Z&modifiedTo={date_end}T23:59:00Z'
    data = requests.get(url)
    data = [vac['vacancy'] for vac in data.json()['results']['vacancies']]
    data = pd.DataFrame.from_dict(data, orient='columns')
    # adding company attributes
    data['company_name'] = data['company'].apply(lambda x: x['name'], 1)
    data['companycode'] = data['company'].apply(lambda x: x['companycode'], 1)
    data['hr-agency'] = data['company'].apply(lambda x: x['hr-agency'], 1)
    # adding region name
    data['region_name'] = data['region'].apply(lambda x: x['name'], 1)
    # adding specialization
    data['specialisation'] = data['category'].apply(lambda x: x['specialisation'], 1)
    return data

In [2]:
offset = 1
df = pd.DataFrame()
while True:
    offset = offset+1
    limit = 100
    try:
        data = load_data(url=url,
                         offset=offset,
                         limit=limit,
                         date_start=date_start,
                         date_end=date_end)
        df = pd.concat([df, data])
    except KeyError as e:
        break

In [3]:
df['specialisation'].value_counts()

specialisation
Производство                                                        237
Продажи, закупки, снабжение, торговля                               196
Образование, наука                                                  148
Транспорт, автобизнес, логистика, склад, ВЭД                        144
Здравоохранение и социальное обеспечение                            142
Рабочие специальности                                               117
Машиностроение                                                      111
ЖКХ, эксплуатация                                                    70
Строительство, ремонт, стройматериалы, недвижимость                  65
Безопасность, службы охраны                                          62
Государственная служба, некоммерческие организации                   60
Электроэнергетика                                                    55
Информационные технологии, телекоммуникации, связь                   54
Работы, не требующие квалификации                

In [4]:
df['employment'].value_counts()

employment
Полная занятость       1744
Частичная занятость      51
Удаленная                49
Временная                47
Стажировка                3
Сезонная                  2
Name: count, dtype: int64

In [5]:
df['company_name'].nunique()

470

In [6]:
# средняя зарплата (сначала почистим поле от букв и преобразуем к int)
df['salary'] = df['salary'].fillna("0").apply(lambda x: int(x.replace("от ", "")), 1)
df[df['salary']>0].groupby('employment').agg({'salary': ['mean', 'count', 'max']})

Unnamed: 0_level_0,salary,salary,salary
Unnamed: 0_level_1,mean,count,max
employment,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Временная,32022.282609,46,81464
Полная занятость,48291.824693,1466,315000
Сезонная,25000.0,2,25000
Стажировка,28821.0,2,38400
Удаленная,32416.666667,48,45000
Частичная занятость,32008.586957,46,100000


In [7]:
df[df['salary']>0].groupby('region_name').agg({'salary': ['mean', 'count', 'max']})

Unnamed: 0_level_0,salary,salary,salary
Unnamed: 0_level_1,mean,count,max
region_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Алтайский край,28651.500000,8,40000
Амурская область,25987.000000,1,25987
Архангельская область,52759.461538,26,81000
Астраханская область,42934.454545,11,80000
Белгородская область,34040.333333,6,58000
...,...,...,...
Челябинская область,63400.000000,6,200000
Чувашская Республика - Чувашия,25333.333333,3,30000
Чукотский автономный округ,120000.000000,2,120000
Ямало-Ненецкий автономный округ,120000.000000,1,120000


In [8]:
df[df['salary']>0].groupby('specialisation').agg({'salary': ['mean', 'count', 'max']})

Unnamed: 0_level_0,salary,salary,salary
Unnamed: 0_level_1,mean,count,max
specialisation,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
"Административная работа, секретариат, АХО",33172.482759,29,80000
"Банки, кредит, страхование, пенсионное обеспечение",46936.363636,22,115000
"Безопасность, службы охраны",34756.117647,51,115000
"Бухгалтерия, налоги, управленческий учет",35270.341463,41,80000
Высший менеджмент,25000.0,1,25000
"Государственная служба, некоммерческие организации",87895.0,60,315000
Добывающая промышленность,68500.0,6,200000
Домашний персонал,35000.0,3,35000
"ЖКХ, эксплуатация",47409.9,70,140000
Здравоохранение и социальное обеспечение,53173.348148,135,150000


In [9]:
df[df['salary']>0]['salary'].describe()

count      1610.000000
mean      46835.327329
std       32025.576126
min        5000.000000
25%       28000.000000
50%       40000.000000
75%       56750.000000
max      315000.000000
Name: salary, dtype: float64