In [1]:
import pandas as pd
import plotly.express as px
import numpy as np

In [2]:
source_df = pd.read_csv(r"source_data.csv")
preprocessed_df = pd.read_csv(r"preprocessed_data.csv")
source_df.shape, preprocessed_df.shape

((28130, 14), (18370, 13))

In [3]:
preprocessed_df.head()

Unnamed: 0,Дата обновления резюме,Возраст,ЗП,Город,Условия работы,Занятость,Навыки,Последнее/текущее место работы,Последняя/текущая должность,Образование и ВУЗ,Ссылка на резюме,Искомая позиция,pipeline_load_date
0,2024-12-05,40,,Тамбов,"удаленная работа, готов к командировкам",полная занятость,".NET Core, .NET Framework, Git, PostgreSQL, Bi...","Hybrid, Тамбов",C# (.NET) Backend Developer,Тамбовский государственный технический универс...,https://www.superjob.ru//resume/c-55328505.html,C# Developer,2024-12-05
1,2024-12-05,35,200000.0,Москва,готов к командировкам,полная занятость,,"АО ""БОЛЬШЕВИЧКА"" (швейная фабрика и сеть из 14...",Инженер-программист,Белорусский государственный университет информ...,https://www.superjob.ru//resume/programmist-53...,C# Developer,2024-12-05
2,2024-12-05,41,300000.0,Санкт-Петербург,"готов к переезду, готов к командировкам",полная занятость,,"ООО ""Пекод"", Санкт-Петербург","Web-программист, Web-разработчик",Санкт-Петербургский политехнический университе...,https://www.superjob.ru//resume/programmist-c-...,C# Developer,2024-12-05
3,2024-12-05,56,,Москва,не готов к командировкам,полная занятость,,"ИП Азнаурян И. Э., Москва","Программист-разработчик (PHP, Smarty (PHP), Ja...",Московский авиационный институт (Национальный ...,https://www.superjob.ru//resume/web-programmis...,C# Developer,2024-12-05
4,2024-12-05,30,90000.0,Москва,"готов к переезду: Кемерово, не готов к команди...",полная занятость,C#,"CORALINA DIGITAL, Москва",Разработчик C#,Московский государственный технический универс...,https://www.superjob.ru//resume/razrabotchik-c...,C# Developer,2024-12-05


## Количество человек по каждой позиции

In [4]:
category_counts = preprocessed_df["Искомая позиция"].value_counts().index.tolist()[::-1]

fig = px.histogram(preprocessed_df,
                   x="Искомая позиция",
                   text_auto=True,
                #    orientation="v",
                   color='Искомая позиция',
                   height=700,
                   category_orders={"Искомая позиция": category_counts})

fig.update_layout(
    xaxis_title="Искомая позиция",
    yaxis_title="Количество",
    title_x=0.5 , # Выравнивание заголовка по центру
)

fig.update_traces(textposition="outside")

fig.show()

## Сколько человек скрывают желаемую зарплату

In [5]:
num_salary_available = len(preprocessed_df[~preprocessed_df["ЗП"].isna()])
num_salary_unavailable = len(preprocessed_df[preprocessed_df["ЗП"].isna()])
num_salary_available, num_salary_unavailable

(7833, 10537)

In [6]:
salary_num_df = pd.DataFrame({"ЗП": ["Открыта", "Скрыта"],
                              "Количество": [num_salary_available, num_salary_unavailable]})

salary_num_df

Unnamed: 0,ЗП,Количество
0,Открыта,7833
1,Скрыта,10537


In [7]:
fig = px.bar(salary_num_df,
             x="ЗП",
             y="Количество",
             text_auto="Количество",
             orientation="v",
             height=500,
             color='ЗП')

fig.update_layout(
    xaxis_title="Зарплата",
    yaxis_title="Количество",
    title_x=0.5 , # Выравнивание заголовка по центру
)

fig.update_traces(text=salary_num_df["Количество"], textposition="outside")

fig.show()