# Шаг 5. Создание новых признаков

### Импорт необходимых библиотек

In [1]:
import pandas as pd

### Импорт датафрейма

In [2]:
df = pd.read_csv('df_after_step03.csv', index_col=0)
df.head()

Unnamed: 0,usdrub,gold,cb_key_rate,fed_rate,imoex_open,imoex_close,ru_cpi,us_cpi,workday,first_workday,second_workday
09.10.2008,26.1629,767.98,11.0,1.4,637.93,700.37,100.91,100.867301,workday,0,0
10.10.2008,26.0695,743.23,11.0,1.4,0.0,700.37,100.91,100.867301,workday,0,0
13.10.2008,26.0695,743.23,11.0,1.4,700.37,666.37,100.91,100.867301,workday,1,0
14.10.2008,26.1111,726.16,11.0,1.4,666.81,755.22,100.91,100.867301,workday,0,1
15.10.2008,26.0871,712.49,11.0,1.4,755.22,689.71,100.91,100.867301,workday,0,0


### Добавление новых признаков

Помимо признаков, добавленных на втором шаге (`first_workday`, `second_workday` - были добавлены на раннем этапе, т.к. строки с выходными днями, необходимые для их создания, были преимущественно удалены, поскольку в них было много пропусков).

Первый признак, который можно добавить - волатильность (`imoex_vol`), а точнее изменение цены индекса Мосбиржи за день. По смыслу это добавит компонент с настроением на финансовом рынке.

In [3]:
df['imoex_vol'] = df['imoex_close'] - df['imoex_open']

Также можно попробовать добавить индикатор мягкости или жесткости ДКП в России (`ru_monetary`) и США (`us_monetary`). Несомненно, это грубая аппроксимация, но вариант, как это можно сделать: 
    
    1) вычесть из ИПЦ 100 (чтобы получить инфляцию в процентах)
    2) умножить ИПЦ на 12, чтобы получить инфляцию за год ("грубость" метода лежит тут; но это вынужденная мера, т.к. ставка ЦБ / ФРС - годовая)
    3) вычесть из ставки ЦБ / ФРС полученную "инфляцию"

In [4]:
df['ru_monetary'] = df['cb_key_rate'] - (df['ru_cpi'] - 100) * 12
df['us_monetary'] = df['fed_rate'] - (df['us_cpi'] - 100) * 12

In [5]:
df.head()

Unnamed: 0,usdrub,gold,cb_key_rate,fed_rate,imoex_open,imoex_close,ru_cpi,us_cpi,workday,first_workday,second_workday,imoex_vol,ru_monetary,us_monetary
09.10.2008,26.1629,767.98,11.0,1.4,637.93,700.37,100.91,100.867301,workday,0,0,62.44,0.08,-9.007613
10.10.2008,26.0695,743.23,11.0,1.4,0.0,700.37,100.91,100.867301,workday,0,0,700.37,0.08,-9.007613
13.10.2008,26.0695,743.23,11.0,1.4,700.37,666.37,100.91,100.867301,workday,1,0,-34.0,0.08,-9.007613
14.10.2008,26.1111,726.16,11.0,1.4,666.81,755.22,100.91,100.867301,workday,0,1,88.41,0.08,-9.007613
15.10.2008,26.0871,712.49,11.0,1.4,755.22,689.71,100.91,100.867301,workday,0,0,-65.51,0.08,-9.007613


In [6]:
df.to_csv('df_after_step05.csv')