# Обработка данных по основным параметрам прогнозов СЭР для передачи данных в регрессионную модель

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import matplotlib as matplotlib
print(matplotlib.__version__)

3.3.4


In [2]:
pd.set_option('display.float_format', lambda x: '%.2f' % x)
pd.set_option('display.max_columns', 100)

In [3]:
FIGSIZE = (12,5)

Параметры выбраны в ручную, так как в каждом годе перечень отличается

In [4]:
FEATURES = ['Численность постоянного населения',
            'Индекс  потребительских цен',
            'Валовой региональный продукт',
            'Индекс промышленного производства',
            'Добыча полезных ископаемых',
            'Обрабатывающие производства',
            'Продукция сельского хозяйства',
            'Производство и распределение электроэнергии, газа и воды',
            'железорудные окатыши',
            'щебень и гравий',
            'древесина необработанная',
            'лесоматериалы продольно распиленные',
            'древесностружечные плиты, плиты OSB',
            'бумага',
            'целлюлоза древесная и целлюлоза из прочих волокнистых материалов (сульфатная, сульфитная)',
            'мешки бумажные',
            'Картофель',
            'Овощи',
            'Скот и птица',
            'Молоко',
            'Яйца',
            'Реализация алкогольной продукции организациями -производителями',
            'Инвестиции в основной капитал',
            'Ввод в эксплуатацию жилых домов',
            'Оборот розничной торговли',
            'Объем платных услуг населению',
            'Фонд заработной платы',
            'Реальные денежные доходы населения',
            'Прибыль прибыльных организаций',
            'Налогооблагаемая прибыль',
            'Среднегодовая остаточная стоимость облагаемого имущества',
            'Внешнеторговый оборот',
            'Экспорт',
            'Импорт',
            'Численность безработных, зарегистрированных в службах занятости',
            'Уровень зарегистрированной безработицы (к численности экономически активного населения)']

In [5]:
AGE_BEGIN = 2010
AGE_END = 2020
years = [year for year in range(AGE_BEGIN,AGE_END+1)]

Чтение данных по прогнозам СЭР

In [6]:
from pathlib import Path
import re

PATH = '../data/Основные параметры прогнозов СЭР/'

directory = Path(PATH)

sed = {}
l = list(directory.iterdir())

for year in years:
    for x in directory.iterdir(): # bad O
        if re.match(f'{year}-{year+2}', x.name):
            df = pd.read_excel(f'{PATH}{x.name}', header=1)
            sed[year] = df
            break

In [7]:
for year in years:
    sed[year].rename(columns={f'{sed[year].columns[0]}':'indicator'}, inplace=True)

In [None]:
FEATURES[1].replace(" ",'') in sed[2015]['indicator'].str.replace(" ",'').iloc[-1]

Формирование датафрейма

In [9]:
features = []

for feature in FEATURES:
    #print(feature)
    forecast = []
    for year in years:
        #print(year)
        try:
            forecast.append(sed[year][sed[year]['indicator'].str.replace(" ",'').str.lower().str.contains(feature.replace(" ",'').lower(), regex=False).fillna(False)].iloc[:,-3].values[0])
        except:
            forecast.append(np.nan)
    try:
        forecast.append(sed[years[-1]][sed[years[-1]]['indicator'].str.replace(" ",'').str.lower().str.contains(feature.replace(" ",'').lower(), regex=False).fillna(False)].iloc[:,-2].values[0])
    except:
        forecast.append(np.nan)
    try:
        forecast.append(sed[years[-1]][sed[years[-1]]['indicator'].str.replace(" ",'').str.lower().str.contains(feature.replace(" ",'').lower(), regex=False).fillna(False)].iloc[:,-1].values[0])
    except:
        forecast.append(np.nan)
    #print(tmp)
    features.append(forecast)

Добавим данные СЭР для 2021 и 2022 годов

In [11]:
dic = {"Год": [*years, 2021, 2022]}
dic.update({f'{f}': feature for (f, feature) in zip(FEATURES, features)})

In [12]:
df = pd.DataFrame(dic)
df

Unnamed: 0,Год,Численность постоянного населения,Индекс потребительских цен,Валовой региональный продукт,Индекс промышленного производства,Добыча полезных ископаемых,Обрабатывающие производства,Продукция сельского хозяйства,"Производство и распределение электроэнергии, газа и воды",железорудные окатыши,щебень и гравий,древесина необработанная,лесоматериалы продольно распиленные,"древесностружечные плиты, плиты OSB",бумага,"целлюлоза древесная и целлюлоза из прочих волокнистых материалов (сульфатная, сульфитная)",мешки бумажные,Картофель,Овощи,Скот и птица,Молоко,Яйца,Реализация алкогольной продукции организациями -производителями,Инвестиции в основной капитал,Ввод в эксплуатацию жилых домов,Оборот розничной торговли,Объем платных услуг населению,Фонд заработной платы,Реальные денежные доходы населения,Прибыль прибыльных организаций,Налогооблагаемая прибыль,Среднегодовая остаточная стоимость облагаемого имущества,Внешнеторговый оборот,Экспорт,Импорт,"Численность безработных, зарегистрированных в службах занятости",Уровень зарегистрированной безработицы (к численности экономически активного населения)
0,2010,684.0,111.0,125000,98.0,100.0,,,95.0,6000,10500.0,,,,955,,300,77.5,22.8,12.5,71.2,54.9,,17000,140.0,61300,18200,57500,96.0,2500.0,3500,95500,1235.0,1025.0,210.0,13.4,3.5
1,2011,680.5,106.5,118500,100.0,96.0,101.5,101.5,98.2,9000,8000.0,5500.0,690.0,80.0,980,1085.0,315,71.5,23.0,12.6,72.0,64.0,,22920,135.0,62400,18500,57300,99.0,14000.0,20400,94300,1462.0,1222.0,240.0,13.1,3.5
2,2012,639.0,107.25,159000,101.8,102.0,102.0,96.0,100.0,10100,11000.0,5800.0,730.0,100.0,1015,1105.0,360,70.5,20.0,12.5,59.0,10.0,,29320,179.0,76300,20400,63300,101.0,19700.0,22000,99000,1930.0,1580.0,350.0,10.5,2.82
3,2013,636.1,105.5,16300,101.5,101.5,101.0,100.7,102.4,10200,15000.0,5300.0,640.0,160.0,1000,1105.0,370,71.6,19.0,13.0,65.6,8.4,300.0,34220,202.8,85000,25650,71900,102.0,5500.0,21350,101000,2035.0,1530.0,505.0,8.7,2.4
4,2014,633.5,105.5,154300,100.0,100.0,98.0,,100.0,10400,17500.0,5500.0,670.0,145.0,720,850.0,380,69.0,18.1,12.6,61.0,3.0,270.0,38270,205.0,95000,27600,81200,100.0,18000.0,14000,109500,1365.0,1120.0,245.0,7.7,2.33
5,2015,631.7,106.5,192000,100.5,100.0,100.5,,99.0,10500,19200.0,6000.0,720.0,300.0,800,900.0,390,82.5,19.2,12.1,65.6,4.0,470.0,35270,220.0,101000,29800,81700,99.0,19300.0,12200,158000,1447.0,1257.0,190.0,7.7,2.41
6,2016,628.4,107.5,207100,100.0,100.0,100.0,,99.0,10580,13600.0,6100.0,735.0,345.0,865,940.0,425,90.0,19.0,12.0,66.4,5.0,5.0,35660,245.0,104000,33000,80500,98.0,,18200,148000,975.0,820.0,155.0,7.8,2.4
7,2017,626.2,106.0,220700,102.0,101.5,102.5,,101.5,10660,16000.0,6300.0,800.0,380.0,920,995.0,460,90.3,18.8,5.9,72.5,5.6,426.5,36500,250.0,110600,32800,81700,99.5,22500.0,23600,135800,810.0,680.0,130.0,8.4,2.59
8,2018,623.3,104.0,249900,102.0,101.5,102.0,,,10905,18800.0,7000.0,900.0,406.0,985,1035.0,470,77.0,17.5,6.0,65.5,5.5,310.5,41470,265.0,117000,33400,83900,100.2,,27260,148700,1046.8,799.6,247.2,6.98,2.16
9,2019,616.7,,285000,102.3,101.5,103.0,,,11100,18000.0,6800.0,920.0,406.0,1000,1035.0,464,70.0,17.6,4.9,64.0,5.65,158.0,46700,240.0,124600,36300,92600,100.0,,40000,156000,1778.0,1570.0,208.0,6.1,1.95


Наблюдаем пропуски в данных причиной которых является отсутствие некоторых статей прогноза СЭР в некоторых годах

In [13]:
df.to_csv('../data/features.csv', index=False, encoding='utf-8-sig')