Устанавливаем библиотеки: pandas - для чтения excel и работы с таблицами, plotly - для рисования красивых интерактивных графиков

Обязательно указываем версию библиотеки через ==, потому что код, работающий в одной версии, может не работать в другой.
Документации на них:

https://pandas.pydata.org

https://plotly.com/python/


In [57]:
!pip install pandas==1.4.4 plotly==5.13.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [58]:
import pandas as pd

In [59]:
# подключаем Google диск
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Построение графиков изменения среднесписочной численности работников организаций (без субъектов малого предпринимательства) (с 2017 года)

In [60]:
# здесь нужно будет изменить путь до вашего файла с данными
mean_numer_of_employees = pd.read_excel('drive/MyDrive/БДМО/Якутск/number_of_employees.xlsx')
mean_numer_of_employees

Unnamed: 0,Показатели,Ед. измерения,2017,2018,2019,2020,2021,2022
0,Среднесписочная численность работников организ...,,,,,,,
1,Всего по обследуемым видам экономической деяте...,,,,,,,
2,январь-март,человек,83545.0,82168.0,83635.0,84602.0,84673.0,85579.0
3,январь-июнь,человек,83617.0,82687.0,84411.0,84654.0,84903.0,85730.0
4,январь-сентябрь,человек,83465.0,83046.0,84604.0,84724.0,85144.0,85714.0
...,...,...,...,...,...,...,...,...
96,Раздел S Предоставление прочих видов услуг,,,,,,,
97,январь-март,человек,345.0,355.0,248.0,255.0,210.0,146.0
98,январь-июнь,человек,408.0,343.0,250.0,252.0,207.0,153.0
99,январь-сентябрь,человек,433.0,349.0,257.0,249.0,227.0,158.0


In [61]:
# все графики будем строить по данным за календарный год (январь-декабрь). По данным до марта, июня и сентября можно было бы попробовать изучить сезонные изменения (например, проверить 
# предположение, что летом становится больше работников в сельскохозяйственной отрасли). Но в данном домашнем задании такая задача не стоит.

# создаем маску, чтобы получить таблицу с данными только по календарным годам.
mask = mean_numer_of_employees['Показатели'] == 'январь-декабрь'
# dtype: bool - тип данных логический, от Булева логика("истинно" или "ложно").
print(mask.head())

# Для желающих разбираться: туториал простыми словами по выделению отдельных строчек из pandas DataFrame 
# https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html#how-do-i-filter-specific-rows-from-a-dataframe
# И более формальная документация: https://pandas.pydata.org/docs/user_guide/indexing.html?highlight=selection#selection-by-label

0    False
1    False
2    False
3    False
4    False
Name: Показатели, dtype: bool


In [62]:
# применяем маску - используем только те строчки, где значения маски True
whole_year = mean_numer_of_employees[mask]
# распечатываем и проверяем
whole_year

Unnamed: 0,Показатели,Ед. измерения,2017,2018,2019,2020,2021,2022
5,январь-декабрь,человек,83139.7,83144.0,84503.0,84258.0,85275.0,85396.0
10,январь-декабрь,человек,940.9,864.0,932.0,850.0,901.0,1006.0
15,январь-декабрь,человек,812.2,1042.0,1169.0,1155.0,1071.0,1164.0
20,январь-декабрь,человек,2025.6,1879.0,2055.0,1774.0,1642.0,1589.0
25,январь-декабрь,человек,5795.0,4878.0,5028.0,4675.0,4791.0,4551.0
30,январь-декабрь,человек,,993.0,1131.0,1162.0,1284.0,1317.0
35,январь-декабрь,человек,1711.0,1016.0,964.0,811.0,874.0,1153.0
40,январь-декабрь,человек,3137.2,3205.0,3016.0,3246.0,3529.0,3396.0
45,январь-декабрь,человек,7724.8,8507.0,8716.0,8382.0,8301.0,8198.0
50,январь-декабрь,человек,,673.0,645.0,551.0,459.0,457.0


In [63]:
# добавим к таблице пояснения, какая строчка что значит

row_names = ['Всего по обследуемым видам экономической деятельности']

# теперь соберем все строки из столбца "Показатели", которые содержат в себе слово "Раздел"

division = mean_numer_of_employees["Показатели"][mean_numer_of_employees["Показатели"].str.contains("Раздел")]
division

6     Раздел А Сельское, лесное хозяйство, охота, ры...
11                  Раздел В Добыча полезных ископаемых
16                 Раздел C Обрабатывающие производства
21    Раздел D Обеспечение электрической энергией, г...
26    Раздел Е Водоснабжение; водоотведение, организ...
31                               Раздел F Строительство
36    Раздел G торговля оптовая и розничная; ремонт ...
41                  Раздел Н Транспортировка и хранение
46    Раздел I Деятельность гостиниц и предприятий о...
51    Раздел J Деятельность в области информации и с...
56         Раздел K Деятельность финансовая и страховая
61    Раздел L Деятельность по операциям с недвижимы...
66    Раздел M Деятельность профессиональная, научна...
71    Раздел N Деятельность административная и сопут...
76    Раздел O Государственное управление и обеспече...
81                                 Раздел P Образование
86    Раздел Q Деятельность в области здравоохранени...
91    Раздел R Деятельность в области культуры, 

In [64]:
# Функция insert позволяет вставить столбец в DataFrame на определенную позицию, в нашем случае на первую, то есть 0
# Документация: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.insert.html
whole_year.insert(0, 'Вид экономической деятельности', row_names + division.to_list())
whole_year

Unnamed: 0,Вид экономической деятельности,Показатели,Ед. измерения,2017,2018,2019,2020,2021,2022
5,Всего по обследуемым видам экономической деяте...,январь-декабрь,человек,83139.7,83144.0,84503.0,84258.0,85275.0,85396.0
10,"Раздел А Сельское, лесное хозяйство, охота, ры...",январь-декабрь,человек,940.9,864.0,932.0,850.0,901.0,1006.0
15,Раздел В Добыча полезных ископаемых,январь-декабрь,человек,812.2,1042.0,1169.0,1155.0,1071.0,1164.0
20,Раздел C Обрабатывающие производства,январь-декабрь,человек,2025.6,1879.0,2055.0,1774.0,1642.0,1589.0
25,"Раздел D Обеспечение электрической энергией, г...",январь-декабрь,человек,5795.0,4878.0,5028.0,4675.0,4791.0,4551.0
30,"Раздел Е Водоснабжение; водоотведение, организ...",январь-декабрь,человек,,993.0,1131.0,1162.0,1284.0,1317.0
35,Раздел F Строительство,январь-декабрь,человек,1711.0,1016.0,964.0,811.0,874.0,1153.0
40,Раздел G торговля оптовая и розничная; ремонт ...,январь-декабрь,человек,3137.2,3205.0,3016.0,3246.0,3529.0,3396.0
45,Раздел Н Транспортировка и хранение,январь-декабрь,человек,7724.8,8507.0,8716.0,8382.0,8301.0,8198.0
50,Раздел I Деятельность гостиниц и предприятий о...,январь-декабрь,человек,,673.0,645.0,551.0,459.0,457.0


In [65]:
import plotly.express as px

In [66]:
# чтобы передать данные в plotly, понадобится изменить формат таблицы

numbers_of_employees, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 6 

for year in range(2017, 2023):
    numbers_of_employees = numbers_of_employees + whole_year[1:][year].to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Среднесписочная численность работников": numbers_of_employees,
    'Вид экономической деятельности': economic_activities,
    },
)

In [67]:
fig = px.line(
    plotly_data,
    x='Годы',
    y='Среднесписочная численность работников',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()
# пропущенные в таблице значения на графике просто не отображаются, например, для Якутска пропущено значение для 2017 года по общепиту и этот график начинается с 2018

На графике выше слабо видны различия по годам для видов экономической деятельности с численностью работников менее 2 тысяч. Подсчитаем и отрисуем показатели динамики - базисный и цепной темпы роста.

Базисный показатель динамики - такой, в котором сравниваем значение текущего уровня временного ряда с одним и тем же уровнем, принятым за базу. В нашем случае базисным уровнем выбираем 2018 год (так как в данных для Якутска для 2017 года некоторые значения пропущены).



In [68]:
# Базисный темп роста
numbers_of_employees, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 5

for year in range(2018, 2023):
    numbers_of_employees = numbers_of_employees + ((whole_year[1:][year]/whole_year[1:][2018]) * 100).to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Базисный темп роста среднесписочной численности работников, %": numbers_of_employees,
    'Вид экономической деятельности': economic_activities,
    },
)
fig = px.line(
    plotly_data,
    x='Годы',
    y='Базисный темп роста среднесписочной численности работников, %',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()
# примечание. При описании графика удобно наводить курсор на точки соответствующих линий, так как некоторые цвета слабо различимы.

Видно, что после 2020 года темп роста был наименьшим (численность работников составила 50% от базисного значения 2018 года) у гостиниц и предприятий общественного питания. Интересно, что случилось в 2020 году?

Цепной показатель динамики - такой, в котором сравниваем значение текущего уровня временного ряда с предыдущим. То есть 2019 год с 2018-м, 2020 с 2019-м, и так далее.

In [69]:
# Цепной темп роста
numbers_of_employees, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 4

for year in range(2019, 2023):
    numbers_of_employees = numbers_of_employees + ((whole_year[1:][year]/whole_year[1:][year-1]) * 100).to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Цепной темп роста среднесписочной численности работников, %": numbers_of_employees,
    'Вид экономической деятельности': economic_activities,
    },
)
fig = px.line(
    plotly_data,
    x='Годы',
    y='Цепной темп роста среднесписочной численности работников, %',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()
# примечание. При описании графика удобно наводить курсор на точки соответствующих линий, так как некоторые цвета слабо различимы.
# чтобы скачать картинку, надо навести курсор на значок фотоаппарата в верхнем правом углу и щелкнуть

На этом графике видно, что в 2022 году численность работников гостиниц и общепита сократилась по сравнению с 2021 годом незначительно (на 0.4 %).
Но помним, что численность их всё ещё продолжает уменьшаться и удерживаться на невысоком уровне в сравнении с 2018 годом (по графику базисного темпа прироста).

# Построение графиков изменения среднемесячной заработной платы работников организаций (без субъектов малого предпринимательства) с 2017 г.

In [70]:
# здесь нужно будет изменить путь до вашего файла с данными
mean_salary = pd.read_excel('drive/MyDrive/БДМО/Якутск/mean_salary.xlsx')
mask = mean_salary['Показатели'] == 'январь-декабрь'
whole_year = mean_salary[mask]
row_names = ['Всего по обследуемым видам экономической деятельности']
division = mean_salary["Показатели"][mean_salary["Показатели"].str.contains("Раздел")]
whole_year.insert(0, 'Вид экономической деятельности', row_names + division.to_list())
whole_year

Unnamed: 0,Вид экономической деятельности,Показатели,Ед. измерения,2017,2018,2019,2020,2021,2022
5,Всего по обследуемым видам экономической деяте...,январь-декабрь,рубль,64411.2,73023.8,77130.3,83164.9,87666.8,95785.9
10,"Раздел А Сельское, лесное хозяйство, охота, ры...",январь-декабрь,рубль,44611.5,50756.4,54644.7,62632.9,71906.3,82994.7
15,Раздел В Добыча полезных ископаемых,январь-декабрь,рубль,168964.9,189821.4,193586.7,177256.6,202439.7,195602.6
20,Раздел C Обрабатывающие производства,январь-декабрь,рубль,55782.0,45712.7,50090.2,51652.3,58919.5,64283.0
25,"Раздел D Обеспечение электрической энергией, г...",январь-декабрь,рубль,73944.5,79260.8,83990.2,82678.6,92527.7,105095.7
30,"Раздел Е Водоснабжение; водоотведение, организ...",январь-декабрь,рубль,,61976.2,66329.1,66450.0,68302.2,76273.7
35,Раздел F Строительство,январь-декабрь,рубль,55187.0,53798.2,58119.2,64097.2,63996.3,85045.6
40,Раздел G торговля оптовая и розничная; ремонт ...,январь-декабрь,рубль,45915.7,51975.7,56488.2,58457.6,64518.5,72028.6
45,Раздел Н Транспортировка и хранение,январь-декабрь,рубль,70673.1,75132.0,80454.9,85319.0,92154.1,103216.8
50,Раздел I Деятельность гостиниц и предприятий о...,январь-декабрь,рубль,,41304.6,45190.1,43894.5,45942.7,49925.0


In [71]:
salaries, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 6 

for year in range(2017, 2023):
    salaries = salaries + whole_year[1:][year].to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Среднемесячная зарплата": salaries,
    'Вид экономической деятельности': economic_activities,
    },
)
fig = px.line(
    plotly_data,
    x='Годы',
    y='Среднемесячная зарплата',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()

In [72]:
# Базисный темп роста
salaries, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 5

for year in range(2018, 2023):
    salaries = salaries + ((whole_year[1:][year]/whole_year[1:][2018]) * 100).to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Базисный темп роста среднемесячной зарплаты, %": salaries,
    'Вид экономической деятельности': economic_activities,
    },
)
fig = px.line(
    plotly_data,
    x='Годы',
    y='Базисный темп роста среднемесячной зарплаты, %',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()
# примечание. При описании графика удобно наводить курсор на точки соответствующих линий, так как некоторые цвета слабо различимы.

In [73]:
# Цепной темп роста
salaries, years = [], []
# не берем строчку всего, т.к. там значения сильно больше, масштаб графика будет неудобный для просмотра
economic_activities = whole_year[1:]['Вид экономической деятельности'].to_list() * 4

for year in range(2019, 2023):
    salaries = salaries + ((whole_year[1:][year]/whole_year[1:][year-1]) * 100).to_list()
    years = years + [year for _ in range(whole_year[1:].shape[0])] # как _ принято называть переменную, которая не используется далее

plotly_data = pd.DataFrame(
    {
    "Годы": years,
    "Цепной темп роста среднемесячной зарплаты, %": salaries,
    'Вид экономической деятельности': economic_activities,
    },
)
fig = px.line(
    plotly_data,
    x='Годы',
    y='Цепной темп роста среднемесячной зарплаты, %',
    color='Вид экономической деятельности',
    markers=True,
    )
fig.show()
# примечание. При описании графика удобно наводить курсор на точки соответствующих линий, так как некоторые цвета слабо различимы.
# чтобы скачать картинку, надо навести курсор на значок фотоаппарата в верхнем правом углу и щелкнуть