In [None]:
%ntbl pull datasets "hh_ru/hh_ru_dataset.csv"

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import seaborn as sns

In [None]:
df = pd.read_csv('../datasets/hh_ru/hh_ru_dataset.csv')

In [None]:
df.info()

In [None]:
sns.pairplot(df[['year_of_birth', 'expected_salary', 'work_experience_months', 'compensation_from', 'compensation_to']])

In [None]:
b_color = '#543005'
y_color = '#C89242'
education_dict = {'secondary': 0, 'special_secondary': 1, 'unfinished_higher': 2,
                'bachelor': 3, 'master': 4, 'higher': 5, 'candidate': 6, 'doctor': 7}
color_dict = {'full': y_color, 'part': b_color}

In [None]:
with plt.matplotlib.rc_context({'legend.labelcolor': b_color, 
                                'axes.labelcolor': b_color,
                                'axes.edgecolor': b_color,
                                'xtick.labelcolor': b_color,
                                'ytick.labelcolor': b_color}):
    x = pd.Series(range(8))
    width = 1/6
    mult = 0
    fig, ax = plt.subplots(layout='constrained')
    for resume_employment_type in ('full', 'part'):
        offset = width * mult
        rects = ax.bar(x + offset,
                       [len(df[(df['education_level'] == ed_level) & 
                               (df['resume_employment_type'] == resume_employment_type)])
                        for ed_level in education_dict.keys()],
                       width,
                       label=resume_employment_type, color=color_dict[resume_employment_type])
        mult += 1

    ax.set_ylabel('Количество в категории')
    ax.set_xlabel('Образование')
    plt.xticks(rotation=45)
    ax.set_xticks(x + width, education_dict.keys())
    ax.legend(loc='upper left', ncols=3)
plt.show()

In [None]:
symbol = ['Программист, разработчик', 'Бухгалтер', 'Менеджер по логистике, менеджер по ВЭД', 'Оператор ПК, оператор базы данных', 'Менеджер по закупкам', 'Директор магазина, директор сети магазинов', 'Делопроизводитель, архивариус', 'Системный администратор', 'Тестировщик', 'Руководитель проектов', 'Диспетчер', 'Мерчандайзер', 'Аналитик', 'Начальник производства', 'Генеральный директор, исполнительный директор (CEO)', 'Менеджер ресторана', 'Начальник склада', 'Товаровед', 'Менеджер/руководитель АХО', 'Экономист', 'Кладовщик', 'Начальник смены, мастер участка', 'Координатор отдела продаж', 'Технолог', 'Кредитный специалист']

df_symbol = df.loc[df['profession'].isin(symbol)]

In [None]:
human = ['Менеджер по продажам, менеджер по работе с клиентами',
'Официант, бармен, бариста', 'Менеджер по персоналу', 'Специалист по подбору персонала', 
'Юрисконсульт', 'Руководитель отдела продаж', 
'Учитель, преподаватель, педагог', 'Офис-менеджер', 'Охранник', 'Воспитатель, няня',
'Психолог', 'Секретарь, помощник руководителя, ассистент', 
'Финансовый менеджер', 'Кассир-операционист', 
'Торговый представитель', 'Врач', 'Администратор', 'Юрист', 
'Продавец-консультант, продавец-кассир', 'Менеджер по туризму', 'Фитнес-тренер, инструктор тренажерного зала', 'Оператор call-центра, специалист контактного центра', 
'Специалист по кадрам', 'Супервайзер', 'Специалист технической поддержки', 'Курьер', 'Уборщица, уборщик']

df_human = df.loc[df['profession'].isin(human)]

In [None]:
machinery = ['Инженер-энергетик, инженер-электрик', 'Водитель', 'Сварщик', 
'Инженер-конструктор, инженер-проектировщик', 'Слесарь, сантехник', 
'Упаковщик, комплектовщик', 'Оператор производственной линии', 
'Машинист', 'Механик', 'Сервисный инженер, инженер-механик', 
'Инженер по охране труда и технике безопасности, инженер-эколог', 'Разнорабочий']

df_machinery = df.loc[df['profession'].isin(machinery)]

In [None]:
art = ['Дизайнер, художник', 'SMM-менеджер, контент-менеджер', 
'Повар, пекарь, кондитер', 'Менеджер по маркетингу, интернет-маркетолог']

df_art = df.loc[df['profession'].isin(art)]

In [None]:
dfs = [df_symbol, df_human, df_machinery, df_art]
df_names = ['человек - символ', 'человек - человек', 'человек - техника', 'человек - искусство']
colors = [b_color, y_color]
genders = ['женщины', 'мужчины']
g = {'male': 1, 'female': 0}

In [None]:
b_color = '#543005'
y_color = '#C89242'
with plt.matplotlib.rc_context({'legend.labelcolor': b_color, 
                                'axes.labelcolor': b_color,
                                'axes.edgecolor': b_color,
                                'xtick.labelcolor': b_color,
                                'ytick.labelcolor': b_color}):
    x = pd.Series(range(4))
    width = 1/6
    mult = 0
    fig, ax = plt.subplots(layout='constrained', figsize=(8, 5))
    plt.style='seaborn-darkgrid'
    for gender_name in ('male', 'female'):
        gender = g[gender_name]
        offset = width * mult
        rects = ax.bar(x + offset,
                       [len(df_prof[df_prof['gender'] == gender_name])
                        for df_prof in dfs],
                       width,
                       label=genders[gender], color=colors[gender])
        mult += 1

    ax.set_ylabel('Количество в категории')
    ax.set_xlabel('Группа профессий')
    plt.xticks(rotation=0)
    ax.set_xticks(x + width, df_names)
    ax.legend(loc='upper left', ncols=3)
    ax.set_ylim(top=140000)
    plt.style='seaborn-darkgrid'
    plt.show()

In [None]:
dfs = [df_symbol, df_human, df_machinery, df_art]
df_names = ['человек - символ', 'человек - человек', 'человек - техника', 'человек - искусство']
colors = [b_color, g_color]
states = ['отказ', 'приглашение']
g = {'invitation': 1, 'discard': 0}

with plt.matplotlib.rc_context({'legend.labelcolor': b_color, 
                                'axes.labelcolor': b_color,
                                'axes.edgecolor': b_color,
                                'xtick.labelcolor': b_color,
                                'ytick.labelcolor': b_color}):
    x = pd.Series(range(4))
    width = 1/6
    mult = 0
    fig, ax = plt.subplots(layout='constrained')
    for state_name in ('invitation', 'discard'):
        state = g[state_name]
        offset = width * mult
        rects = ax.bar(x + offset,
                       [len(df_prof[df_prof['gender'] == gender_name])
                        for df_prof in dfs],
                       width,
                       label=states[state], color=colors[state])
        mult += 1

    ax.set_ylabel('Количество в категории')
    ax.set_xlabel('Группа профессий')
    plt.xticks(rotation=0)
    ax.set_xticks(x + width, df_names)
    ax.legend(loc='upper left', ncols=3)
    ax.set_ylim(top=140000)
plt.show()