## Исследовательская часть проекта

### Подготовка данные о видах экономической деятельности

#### Скачиваем файл xlsx с данными о статистике номинальной среднемесячной заработной плате по видам экономической деятельности с сайта Федеральной службы статистики

In [128]:
!wget 'https://rosstat.gov.ru/storage/mediabank/tab3-zpl_2023.xlsx'

--2024-04-02 09:07:36--  https://rosstat.gov.ru/storage/mediabank/tab3-zpl_2023.xlsx
Resolving rosstat.gov.ru (rosstat.gov.ru)... 194.226.89.60
Connecting to rosstat.gov.ru (rosstat.gov.ru)|194.226.89.60|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 43099 (42K) [application/vnd.openxmlformats-officedocument.spreadsheetml.sheet]
Saving to: ‘tab3-zpl_2023.xlsx.1’


2024-04-02 09:07:39 (43.8 KB/s) - ‘tab3-zpl_2023.xlsx.1’ saved [43099/43099]



#### Статистические данные записаны на 2 листах, исторические по старым кодам с 2000 по 2016 год на странице "2000-2016 гг.", новые с 2017 года на странице "с 2017 г." Предобработаем данные из обоих листов и соединим их



In [114]:
import pandas as pd
df_2016 = pd.read_excel("tab3-zpl_2023.xlsx", sheet_name='2000-2016 гг.', index_col = None)[2:] # первые строки не несут информации для нас
column_list = ['Вид деятельности', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009', '2010', '2011', '2012', '2013', '2014', '2015', '2016']

# словарь для переименования колонок формируется из названий колонок старого df column_list по идексам
rename_dict = {df_2016.columns[column_index]: column_list[column_index] for column_index in range(len(df_2016.columns))}
df_2016.rename(columns=rename_dict, inplace=True)
# Колонка вид деятельности очищается от регистрозависимости и пробелов
df_2016['Вид деятельности'] = df_2016['Вид деятельности'].str.lower().str.strip()
df_2016


Unnamed: 0,Вид деятельности,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
2,всего по экономике,2223.4,3240.4,4360.3,5498.5,6739.5,8554.9,10633.9,13593.4,17290.1,18637.5,20952.2,23369.2,26628.9,29792.0,32495.0,34030.0,36709.0
3,"сельское хозяйство, охота и лесное хозяйство",985.1,1434.6,1876.4,2339.8,3015.4,3646.2,4568.7,6143.8,8474.8,9619.2,10668.1,12464.0,14129.4,15724.0,17724.0,19721.0,21755.0
4,"рыболовство, рыбоводство",2845.6,3839.3,5031.3,5444.5,7084.9,10233.5,12310.8,14797.0,19498.9,22913.5,23781.9,25939.9,29201.4,32437.3,37062.0,46676.0,54927.0
5,добыча полезных ископаемых,5940.2,9099.2,11080.9,13912.4,16841.7,19726.9,23145.2,28107.5,33206.1,35363.4,39895.0,45132.0,50400.6,54161.2,58959.0,63695.0,69936.0
6,из нее:,,,,,,,,,,,,,,,,,
7,добыча топливно-энергетических полезных ископ...,6985.1,10905.4,13080.3,16135.5,19903.3,23455.9,27614.5,33275.5,39051.3,41568.3,46271.2,51587.9,57209.7,61084.1,66780.0,71418.0,77586.0
8,"добыча полезных ископаемых, кроме топливно-эн...",3999.5,5386.5,7035.0,9395.7,10876.6,13176.0,15363.7,19092.7,22937.4,24064.1,28305.8,33580.1,38267.3,41754.4,44441.0,48724.0,54513.0
9,обрабатывающие производства,2365.2,3446.6,4439.1,5603.4,6848.9,8420.9,10198.5,12878.7,16049.9,16583.1,19078.0,21780.8,24511.7,27044.5,29511.0,31910.0,34592.0
10,из них:,,,,,,,,,,,,,,,,,
11,"производство пищевых продуктов, включая напи...",2183.4,3126.7,4065.9,5026.7,6065.8,7303.8,8806.7,11069.2,13930.4,15653.1,17316.9,19094.0,21104.8,23326.9,25081.0,26793.0,28779.0


In [115]:
# Подготовка датафрейма с новым данными
df_2017 = pd.read_excel("tab3-zpl_2023.xlsx", sheet_name='с 2017 г.')[4:]
rename_dict = {'Unnamed: 0': 'Вид деятельности'}
# длина выгрузки может меняться в будущем, такой способ более универсален
years = (2017, 2017+len(df_2017.columns)-2)

# Дополняем словарь с названием колонок через увеличение года на индекс колонки
[rename_dict.update({df_2017.columns[x]: f"{2016+x}"}) for x in range(1, len(df_2017.columns))]
df_2017.rename(columns=rename_dict, inplace=True)
# Колонка вид деятельности очищается от регистрозависимости и пробелов
df_2017['Вид деятельности'] = df_2017['Вид деятельности'].str.lower().str.strip()
df_2017

Unnamed: 0,Вид деятельности,2017,2018,2019,2020,2021,2022,2023
4,всего,39167.0,43724.0,47866.8,51344.0,57243.7,65338.3,73709.3
5,"сельское, лесное хозяйство, охота, рыболовство...",25671.1,28699.0,31727.6,34770.0,39436.8,46777.0,52868.3
6,в том числе:,,,,,,,
7,"растениеводство и животноводство, охота и пред...",23529.1,25820.0,28395.8,31058.0,35460.2,41993.7,47582.9
8,лесоводство и лесозаготовки,27616.6,32701.0,35426.2,37855.0,42151.8,48327.2,52416.3
9,рыболовство и рыбоводство,68032.0,75766.0,88603.8,94983.0,101547.4,121726.2,139520.0
10,добыча полезных ископаемых,74474.1,83178.0,89343.7,95359.0,103473.5,118375.7,130825.6
11,из нее:,,,,,,,
12,добыча угля,53065.0,59439.0,63352.8,62600.0,73576.6,90716.5,106102.6
13,добыча нефти и природного газа,104078.3,127771.0,135363.7,142175.0,149585.1,165623.8,180514.7


#### Выбираем крупные отрасли экономики, чьи наименования в кодах преимущественно сохранились, для соблюдения полной аутентичности нужно будет сравнивать коды и значения, и все равно будут ошибки

In [123]:
choosen_activity = ['добыча полезных ископаемых', 'обрабатывающие производства', 'строительство']
choosen_activity


['добыча полезных ископаемых', 'обрабатывающие производства', 'строительство']

#### Объединяем датафреймы с данными с 2000 по 2024 годы с отбором из списка выбранных экономических активностей, приведением регистра и очисткой от пробелов& Cразу же преобразуем годы из столбцов в колонки для удобства соединения с инфляцией


In [124]:
economy_df = (pd.merge(df_2016[df_2016['Вид деятельности'].str.lower().str.strip().isin(choosen_activity)],
                     df_2017[df_2017['Вид деятельности'].str.lower().str.strip().isin(choosen_activity)],
                     on='Вид деятельности')
                    .melt(id_vars='Вид деятельности', var_name='year', value_name='Средняя заработная плата')
                    )
economy_df

Unnamed: 0,Вид деятельности,year,Средняя заработная плата
0,добыча полезных ископаемых,2000,5940.2
1,обрабатывающие производства,2000,2365.2
2,строительство,2000,2639.8
3,добыча полезных ископаемых,2001,9099.2
4,обрабатывающие производства,2001,3446.6
...,...,...,...
67,обрабатывающие производства,2022,60438.7
68,строительство,2022,60849.5
69,добыча полезных ископаемых,2023,130825.6
70,обрабатывающие производства,2023,71273.3


#### Получаем данные об инфляции с 1991 года

#### C помощью модуля requests. Распарсеваем html текст как обычне строки в питоне: Ищем подстроку "yoyInflationList" и обрезаем данные до ее окончания.  Оставшиуюся строку обрезаем после первой закрывающей квадратной скобки ']' - это граница списка с данными об инфляции.  Строковое значение new Date() представляем как обычную строку.  Получившийся набор данные преобразуем в список словарей.  

In [125]:
import requests

url = 'https://xn----ctbjnaatncev9av3a8f8b.xn--p1ai/%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D1%8B-%D0%B8%D0%BD%D1%84%D0%BB%D1%8F%D1%86%D0%B8%D0%B8'
r = requests.get(url)
if r.status_code == 200:
  html_content = r.text
  inflation_start_line = html_content[html_content.find('yoyInflationList')+len('yoyInflationList":'):]
  inflation_line = inflation_start_line[:inflation_start_line.find(']')+1].replace('new Date(', '').replace(')', '')

  inflation_list = (eval(inflation_line))
else:
  print('No connection')
  exit(1)
inflation_list[:25]

[{'rate': 160.4015700014394, 'month': '1991-12-01T00:00:00.000Z'},
 {'rate': 746.6729013323637, 'month': '1992-01-01T00:00:00.000Z'},
 {'rate': 1014.8937059529217, 'month': '1992-02-01T00:00:00.000Z'},
 {'rate': 1262.414792128735, 'month': '1992-03-01T00:00:00.000Z'},
 {'rate': 914.1032428260982, 'month': '1992-04-01T00:00:00.000Z'},
 {'rate': 1001.7296395363144, 'month': '1992-05-01T00:00:00.000Z'},
 {'rate': 1196.6007911934294, 'month': '1992-06-01T00:00:00.000Z'},
 {'rate': 1325.4875497613646, 'month': '1992-07-01T00:00:00.000Z'},
 {'rate': 1440.377591085415, 'month': '1992-08-01T00:00:00.000Z'},
 {'rate': 1598.8338418004328, 'month': '1992-09-01T00:00:00.000Z'},
 {'rate': 1917.262600553364, 'month': '1992-10-01T00:00:00.000Z'},
 {'rate': 2235.875242697697, 'month': '1992-11-01T00:00:00.000Z'},
 {'rate': 2508.8454985348053, 'month': '1992-12-01T00:00:00.000Z'},
 {'rate': 850.45688883776, 'month': '1993-01-01T00:00:00.000Z'},
 {'rate': 758.8548843338309, 'month': '1993-02-01T00:00:00

#### Обрабатываем данные по инфляции. Из списка словарей необходимо отобрать данные на декабрь - это значение годовой инфляции, формируемого накопительным итогом. С помощью метода shift создаем новый аттрибут - значение инфляции за предыдущий год

In [126]:
year_inf = [{'year': record['month'][:4], 'inflation_rate': record['rate']} for record in inflation_list if record['month'][5:7] == '12']
inflation = pd.DataFrame(year_inf, columns=['year', 'inflation_rate'])
inflation['inflation_rate_previous_year'] = inflation['inflation_rate'].shift(1)
inflation

Unnamed: 0,year,inflation_rate,inflation_rate_previous_year
0,1991,160.40157,
1,1992,2508.845499,160.40157
2,1993,839.86957,2508.845499
3,1994,215.023387,839.86957
4,1995,131.326486,215.023387
5,1996,21.811804,131.326486
6,1997,11.031946,21.811804
7,1998,84.436312,11.031946
8,1999,36.557559,84.436312
9,2000,20.200244,36.557559


### Объяединяем номинальную заработную плату по выбранным видам деятельности с значениями инфляции в один датафрейм

In [127]:
res = economy_df.merge(inflation, on='year')
res

Unnamed: 0,Вид деятельности,year,Средняя заработная плата,inflation_rate,inflation_rate_previous_year
0,добыча полезных ископаемых,2000,5940.2,20.200244,36.557559
1,обрабатывающие производства,2000,2365.2,20.200244,36.557559
2,строительство,2000,2639.8,20.200244,36.557559
3,добыча полезных ископаемых,2001,9099.2,18.583726,20.200244
4,обрабатывающие производства,2001,3446.6,18.583726,20.200244
...,...,...,...,...,...
67,обрабатывающие производства,2022,60438.7,11.922836,8.393015
68,строительство,2022,60849.5,11.922836,8.393015
69,добыча полезных ископаемых,2023,130825.6,7.416701,11.922836
70,обрабатывающие производства,2023,71273.3,7.416701,11.922836
