In [56]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import plotly.express as px
import plotly.subplots as sp
import plotly.graph_objects as go


url = "https://www.superjob.ru/research/articles/114685/rynok-truda-v-it/"
driver = webdriver.Chrome()
driver.get(url)
td = WebDriverWait(driver,10).until(
    EC.presence_of_all_elements_located((By.TAG_NAME, 'td'))
)   
td

[<selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1bc55577", element="f.BB5BD68B3BF03480830613953696FE37.d.4BBC7DDEDE754C67B1A06928397EBC16.e.41")>,
 <selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1bc55577", element="f.BB5BD68B3BF03480830613953696FE37.d.4BBC7DDEDE754C67B1A06928397EBC16.e.42")>,
 <selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1bc55577", element="f.BB5BD68B3BF03480830613953696FE37.d.4BBC7DDEDE754C67B1A06928397EBC16.e.15")>,
 <selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1bc55577", element="f.BB5BD68B3BF03480830613953696FE37.d.4BBC7DDEDE754C67B1A06928397EBC16.e.43")>,
 <selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1bc55577", element="f.BB5BD68B3BF03480830613953696FE37.d.4BBC7DDEDE754C67B1A06928397EBC16.e.44")>,
 <selenium.webdriver.remote.webelement.WebElement (session="fc0a3cbe871df21be9b4297f1

In [57]:
data_list = []
for elem in td:
    data_list.append(elem.text)
data_list

['',
 ' ',
 '',
 ' ',
 '',
 '• Заказать исследование\n• Заказать обзор заработных плат\nИсследовательский центр',
 'Новости\nОб исследовательском центре\nОтраслевые бенчмарки\nЗарплатные индексы SuperJob\nЖурнал "Зарплатомер"\nСоциологические опросы\n      Государство\n      Общество\n      Политика\n      Экономика\n      Образование\n      События\n      Разное\n\nМаркетинговые исследования\nОбзоры зарплат\nРынок труда\nИндекс SuperJob\n Привлекательный работодатель\nПривлекательный работодатель - 2024\nРейтинг It вузов России\nРейтинг Экономических вузов\nРейтинг Юридических вузов\n Моя подписка на результаты исследований\nСпециальное предложение для СМИ\nСпециальное предложение для служб занятости вузов\n Контакты',
 'Рынок труда в IT: что изменилось за год',
 'Показатель',
 'Динамика за год, %',
 'Россия, все округа',
 'Москва',
 'Санкт-Петербург',
 'Прирост количества вакансий',
 '+19%',
 '+23%',
 '+12%',
 'Прирост количества резюме',
 '+7%',
 '+9%',
 '+4%',
 'Изменения конкурса'

In [58]:
# Очистка списка от пустых строк и пробелов
cleaned_list = [item.strip() for item in data_list if item.strip()]

# Извлечение первой таблицы
# Конкурс на вакансию в IT
index_start = cleaned_list.index('Прирост количества вакансий')
data_values = cleaned_list[index_start:index_start + 12]  # Берем 3 строки по 4 элемента (включая заголовок строки)

# Преобразование в таблицу
columns = ['Показатель', 'Россия, все округа', 'Москва', 'Санкт-Петербург']
data_rows = [data_values[i:i+4] for i in range(0, len(data_values), 4)]

df = pd.DataFrame(data_rows, columns=columns)

df

Unnamed: 0,Показатель,"Россия, все округа",Москва,Санкт-Петербург
0,Прирост количества вакансий,+19%,+23%,+12%
1,Прирост количества резюме,+7%,+9%,+4%
2,Изменения конкурса,-11%,-13%,-7%


In [59]:
# Функция для преобразования значений в числа
def convert_to_numeric(value):
    return int(value.strip('+%')) / 100

# Преобразуем все значения в числа
for col in df.columns[1:]:
    df[col] = df[col].apply(convert_to_numeric)

In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Показатель          3 non-null      object 
 1   Россия, все округа  3 non-null      float64
 2   Москва              3 non-null      float64
 3   Санкт-Петербург     3 non-null      float64
dtypes: float64(3), object(1)
memory usage: 224.0+ bytes


In [61]:
# Извлечение второй таблицы
# Москва, полный рабочий день, работа на территории работодателя
index_start = cleaned_list.index('Программист Java')
data_values = cleaned_list[index_start:index_start + 20]  # Берем 5 строк по 4 элемента (включая заголовок строки)

# Преобразование в таблицу
columns = ['Позиция', 'Средний чистый оклад (mean net fix salary)', 'Максимальный чистый оклад (max net fix salary)', 'Темп прироста средней рыночной зарплаты за год, %']
data_rows = [data_values[i:i+4] for i in range(0, len(data_values), 4)]

df2 = pd.DataFrame(data_rows, columns=columns)

df2

Unnamed: 0,Позиция,Средний чистый оклад (mean net fix salary),Максимальный чистый оклад (max net fix salary),"Темп прироста средней рыночной зарплаты за год, %"
0,Программист Java,320000,600000,+7%
1,Программист PHP,280000,550000,+4%
2,Программист C++,280000,650000,+12%
3,Программист Python,280000,550000,+4%
4,Программист C#,270000,550000,+4%


In [62]:
# Преобразуем все значения в числа
for col in df2.columns[1:]:
    df2[col] = df2[col].apply(convert_to_numeric)

In [63]:
df2

Unnamed: 0,Позиция,Средний чистый оклад (mean net fix salary),Максимальный чистый оклад (max net fix salary),"Темп прироста средней рыночной зарплаты за год, %"
0,Программист Java,3200.0,6000.0,0.07
1,Программист PHP,2800.0,5500.0,0.04
2,Программист C++,2800.0,6500.0,0.12
3,Программист Python,2800.0,5500.0,0.04
4,Программист C#,2700.0,5500.0,0.04


In [64]:
# Извлечение третьей таблицы
# Санкт-Петербург, полный рабочий день, работа на территории работодателя
index_start3 = cleaned_list[index_start + 2:].index('Программист Java')
data_values = cleaned_list[index_start + 2 + index_start3:index_start + 2 + index_start3 + 20]  # Берем 5 строк по 4 элемента (включая заголовок строки)

# Преобразование в таблицу
columns = ['Позиция', 'Средний чистый оклад (mean net fix salary)', 'Максимальный чистый оклад (max net fix salary)', 'Темп прироста средней рыночной зарплаты за год, %']
data_rows = [data_values[i:i+4] for i in range(0, len(data_values), 4)]

df3 = pd.DataFrame(data_rows, columns=columns)

df3

Unnamed: 0,Позиция,Средний чистый оклад (mean net fix salary),Максимальный чистый оклад (max net fix salary),"Темп прироста средней рыночной зарплаты за год, %"
0,Программист Java,270000,500000,+8%
1,Программист PHP,240000,460000,+4%
2,Программист C++,240000,550000,+14%
3,Программист Python,240000,460000,+4%
4,Программист C#,230000,450000,+5%


In [65]:
# Преобразуем все значения в числа
for col in df3.columns[1:]:
    df3[col] = df3[col].apply(convert_to_numeric)

df3

Unnamed: 0,Позиция,Средний чистый оклад (mean net fix salary),Максимальный чистый оклад (max net fix salary),"Темп прироста средней рыночной зарплаты за год, %"
0,Программист Java,2700.0,5000.0,0.08
1,Программист PHP,2400.0,4600.0,0.04
2,Программист C++,2400.0,5500.0,0.14
3,Программист Python,2400.0,4600.0,0.04
4,Программист C#,2300.0,4500.0,0.05


In [66]:
df_melted = df.melt(id_vars="Показатель", var_name="Регион", value_name="Значение")

# Создаем интерактивный столбчатый график
fig = px.bar(
    df_melted,
    x="Показатель",
    y="Значение",
    color="Регион",
    barmode="group",
    title="Динамика конкурса на вакансию в IT",
    labels={"Значение": "Изменение (%)", "Показатель": "Показатель"},
    text_auto=".2%",  # отображение значений в процентах
)

fig.update_traces(textfont_size=12, textangle=0, textposition="outside") 
fig.update_layout(
    xaxis_title="Показатель",
    yaxis_title="Изменение (%)",
    legend_title="Регион",
    font=dict(size=14),
    template="plotly_white",
    yaxis=dict(range=[-0.2, 0.3]),
)

fig.show()

In [67]:
# График 1: Сравнение средних окладов
fig1 = go.Figure()

fig1.add_trace(go.Bar(
    x=df2["Позиция"],
    y=df2["Средний чистый оклад (mean net fix salary)"],
    name="Средний оклад, Москва",
    marker_color="blue"
))

fig1.add_trace(go.Bar(
    x=df3["Позиция"],
    y=df3["Средний чистый оклад (mean net fix salary)"],
    name="Средний оклад, Санкт-Петербург",
    marker_color="red"
))

fig1.update_layout(
    title="Сравнение средних окладов",
    xaxis_title="Позиция",
    yaxis_title="Средний оклад (руб)",
    barmode="group",  
    template="plotly_white"
)

# График 2: Сравнение максимальных окладов
fig2 = go.Figure()

fig2.add_trace(go.Bar(
    x=df2["Позиция"],
    y=df2["Максимальный чистый оклад (max net fix salary)"],
    name="Максимальный оклад, Москва",
    marker_color="green"
))

fig2.add_trace(go.Bar(
    x=df3["Позиция"],
    y=df3["Максимальный чистый оклад (max net fix salary)"],
    name="Максимальный оклад, Санкт-Петербург",
    marker_color="orange"
))

fig2.update_layout(
    title="Сравнение максимальных окладов",
    xaxis_title="Позиция",
    yaxis_title="Максимальный оклад (руб)",
    barmode="group",  
    template="plotly_white"
)

# График 3: Сравнение темпов прироста средних рыночных зарплат
fig3 = go.Figure()

fig3.add_trace(go.Bar(
    x=df2["Позиция"],
    y=df2["Темп прироста средней рыночной зарплаты за год, %"],
    name="Темп прироста зарплаты, Москва",
    marker_color="purple"
))

fig3.add_trace(go.Bar(
    x=df3["Позиция"],
    y=df3["Темп прироста средней рыночной зарплаты за год, %"],
    name="Темп прироста зарплаты, Санкт-Петербург",
    marker_color="pink"
))

fig3.update_layout(
    title="Сравнение темпов прироста зарплаты",
    xaxis_title="Позиция",
    yaxis_title="Темп прироста зарплаты",
    barmode="group",  
    template="plotly_white"
)

fig1.show()
fig2.show()
fig3.show()