Список признаков, использующихся в модели:
1. Налог на прибыль (при уплате только ежеквартальных авансовых платежей) - Индикатор, обозначающий даты уплаты налога на прибыль. Значение 1 указывает на то, что налог на прибыль был уплачен в соответствующую дату, в противном случае значение равно 0.
2. Зарплаты и авансы (не позднее 15 и 30 числа каждого месяца) - доля месяца, прошедшего с начала месяца до 15 (30) числа
3. Праздники РФ - Индикатор, обозначающий даты праздников РФ
4. Inflation Rate MoM: actual - фактическая месячная инфляция
5. Inflation Rate MoM: forecastCorrection - корректировка прогноза месячной инфляции
6. Balance of Trade: actual - Баланс торговли (фактические данные)
7. Balance of Trade: forecastCorrection - Коррекция прогноза баланса торговли
8. Foreign Exchange Reserves: actual - Запасы иностранной валюты (фактические данные)
9. Foreign Exchange Reserves: forecastCorrection - Коррекция прогноза запасов иностранной валюты
10. Industrial Production YoY: actual - Годовой темп роста промышленного производства (фактические данные)
11. Industrial Production YoY: forecastCorrection - Коррекция прогноза годового темпа роста промышленного производства
12. Unemployment Rate: actual - Уровень безработицы (фактические данные)
13. Unemployment Rate: forecastCorrection - Коррекция прогноза уровня безработицы
14. Real Wage Growth YoY: actual - Годовой темп роста реальных заработных плат (фактические данные)
15. Real Wage Growth YoY: forecastCorrection - Коррекция прогноза годового темпа роста реальных заработных плат
16. PPI MoM: actual - Месячный темп изменения производственных цен (фактические данные)
17. PPI MoM: forecastCorrection - Коррекция прогноза месячного темпа изменения производственных цен
18. Retail Sales YoY: actual - Годовой темп роста розничных продаж (фактические данные)
19. Retail Sales YoY: forecastCorrection - Коррекция прогноза годового темпа роста розничных продаж
20. Corporate Profits: actual - Прибыль корпораций (фактические данные)
21. Corporate Profits: forecastCorrection - Коррекция прогноза прибыли корпораций
22. Markit Manufacturing PMI: actual - Показатель деловой активности в 23. производственном секторе (фактические данные)
23. Markit Manufacturing PMI: forecastCorrection - Коррекция прогноза показателя деловой активности в производственном секторе
24. Markit Services PMI: actual - Показатель деловой активности в секторе услуг (фактические данные)
25. Markit Services PMI: forecastCorrection - Коррекция прогноза показателя деловой активности в секторе услуг
26. Business Confidence: actual - Доверие бизнеса (фактические данные)
27. Business Confidence: forecastCorrection - Коррекция прогноза доверия бизнеса
28. BZ=F - Цены на нефть (фьючерсы)
29. IMOEX.ME - Индекс Московской биржи
30. USDRUB=X - Курс доллара к рублю
31. Balance lag 1-30 - Значения сальдо (разница между притоками и оттоками) за предыдущие 1-30 дней








In [2]:
import sys
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from ts_package.feature_engineering.utils import *

In [3]:
df = generate_data_frame()
from calendar import month_abbr
lower_ma = [m.lower() for m in month_abbr]
df['month'] = df['month'].str.lower().map(lambda m: lower_ma.index(m)).astype('Int8')
df["event"] = df["event"].str.strip()
df["event"][df.event.str.contains("Inflation Rate MoM")] = "Inflation Rate MoM"

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["event"][df.event.str.contains("Inflation Rate MoM")] = "Inflation Rate MoM"


In [4]:
df

Unnamed: 0,event,date,year,month,actual,forecastCorrection
0,Inflation Rate MoM,2017-01-10,2016,12,0.4,0.0
1,Balance of Trade,2017-01-16,2016,11,9.1,2.3
2,Foreign Exchange Reserves,2017-01-16,2016,12,377.7,2.6
3,Industrial Production YoY,2017-01-23,2016,12,3.2,1.0
4,Unemployment Rate,2017-01-25,2016,12,5.3,-0.2
...,...,...,...,...,...,...
714,Unemployment Rate,2021-12-29,2021,11,4.3,0.0
715,Real Wage Growth YoY,2021-12-29,2021,10,0.6,-0.4
716,Retail Sales YoY,2021-12-29,2021,11,3.1,-2.1
717,Business Confidence,2021-12-29,2021,12,3.3,0.3


In [5]:
intermediate_data = pd.read_excel("features_excel.xlsx")
intermediate_data.drop("Unnamed: 0", axis=1, inplace=True)
intermediate_data["Date"] = pd.to_datetime(intermediate_data["Date"])
intermediate_data

Unnamed: 0,Date,Income,Outcome,Balance,Налог на прибыль (при уплате только ежеквартальных авансовых платежей),Налог на прибыль (при уплате ежемесячных авансовых платежей с доплатой по итогам квартала),Налог на прибыль (при ежемесячной уплате авансов исходя из фактической прибыли) (АНАЛОГ F),НДС,Налог при УСН,НДФЛ с отпускных и больничных пособий\t,...,ЕСХН,Торговый сбор на территории г. Москвы,"Страховые взносы, перечисляемые в ИФНС","Взносы, уплачиваемые ИП за себя","Взносы, перечисляемые в ФСС",Налог на добычу полезных ископаемых (Последняя неделя каждого месяца),Зарплаты и авансы (не позднее 15 и 30 числа каждого месяца),Праздники РФ,COVID cases (см вкладку),GDP
0,2017-01-09,1.340000,1.490000,-0.155904,,,,,,,...,,,,1.0,,,,,,
1,2017-01-10,1.068610,1.194182,-0.125572,,,,,,,...,,,,,,,,,,
2,2017-01-11,0.944429,0.936663,0.007767,,,,,,,...,,,,,,,,,,
3,2017-01-12,1.670000,0.875379,0.800391,,,,,,,...,,,,,,,,,,
4,2017-01-13,0.955924,0.975645,-0.019721,,,,,,,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1538,2021-03-27,0.000000,0.000000,0.000000,,,,,,,...,,,,,,,,,,
1539,2021-03-28,0.000000,0.000000,0.000000,,,,,,,...,,,,,,,,,,
1540,2021-03-29,2.360000,3.370000,-1.017679,1.0,1.0,1.0,,,,...,,,,,,,,,,
1541,2021-03-30,2.320000,2.570000,-0.259687,,,,,,,...,,,,,,,,,,


In [6]:
import warnings
warnings.filterwarnings('ignore')

for event in df.event.unique():
    for dataType in ["actual", "forecastCorrection"]:
        columnName = f"{event}: {dataType}"
        intermediate_data[columnName] = intermediate_data.apply(lambda row: getData(df, row.Date, dataType, event), axis = 1)

In [9]:
risk_data = pd.read_csv("df_risk_factors2.csv")
risk_data = risk_data.ffill(axis=0)
risk_data["Date"] = pd.to_datetime(risk_data["Date"])
risk_data = risk_data[risk_data.Date.dt.year != 2016]

In [10]:
risk_data

Unnamed: 0.1,Unnamed: 0,Date,BZ=F,IMOEX.ME,USDRUB=X,Key_rate,Euro,Dollar,Gold
0,0,2017-01-09,54.939999,2211.250000,59.564999,10.0,63.0176,59.8495,2264.82
1,1,2017-01-10,53.639999,2237.489990,60.102501,10.0,63.5227,59.9672,2280.67
2,2,2017-01-11,55.099998,2218.610107,60.139999,10.0,63.3733,60.1430,2297.00
3,3,2017-01-12,56.009998,2212.000000,59.778099,10.0,63.1847,59.3784,2308.20
4,4,2017-01-13,55.450001,2195.189941,59.432499,10.0,63.1565,59.3602,2283.58
...,...,...,...,...,...,...,...,...,...
1098,1098,2021-03-25,61.950001,3439.300049,76.616203,4.5,89.8292,76.1150,4234.90
1099,1099,2021-03-26,64.570000,3489.830078,76.117104,4.5,89.3275,75.8471,4208.46
1100,1100,2021-03-29,64.980003,3529.330078,75.661102,4.5,89.3914,75.8941,4202.90
1101,1101,2021-03-30,64.139999,3525.229980,75.654602,4.5,88.9712,75.8423,4129.57


In [11]:
intermediate_data = intermediate_data.merge(risk_data, on="Date", how='left')

In [12]:
intermediate_data.iloc[:,21:] = intermediate_data.iloc[:,21:].ffill(axis=0)
intermediate_data.drop("GDP", axis=1, inplace=True)
intermediate_data.fillna(0, inplace=True)
intermediate_data.drop("COVID cases (см вкладку)", axis=1, inplace=True)

In [13]:
intermediate_data["Зарплаты и авансы (не позднее 15 и 30 числа каждого месяца)"] = intermediate_data.apply(lambda row: salaries(row.Date), axis = 1)

In [14]:
intermediate_data = create_lag_features(intermediate_data, 30, 'Balance')

In [15]:
intermediate_data.drop(columns=['Налог на прибыль (при уплате ежемесячных авансовых платежей с доплатой по итогам квартала)',
                   'Налог на прибыль (при ежемесячной уплате авансов исходя из фактической прибыли) (АНАЛОГ F)',
                   'Налог при УСН',
                   'НДФЛ с отпускных и больничных пособий\t',
                   'ЕНВД',
                   'ЕСХН',
                   'Торговый сбор на территории г. Москвы',
                   'Взносы, уплачиваемые ИП за себя', 'Взносы, перечисляемые в ФСС',
                   'Налог на добычу полезных ископаемых (Последняя неделя каждого месяца)',
                    'НДС', 'Страховые взносы, перечисляемые в ИФНС'], inplace=True)

In [16]:
intermediate_data.drop(columns=['Unnamed: 0']).to_csv("finalFeatures.csv", index=False)