## Использование LSTM для предсказания цены закрытия акций Сбербанка

In [11]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sqlalchemy import create_engine
from sklearn.model_selection import TimeSeriesSplit

### Извлекаем данные из базы данных

Код использованный для получения данных в [репозитории](https://github.com/gaarutyunov/investment-strategies-data])

In [8]:
conn_str = 'postgres+psycopg2://postgres:postgres@localhost:5432/investment_strategies'

engine = create_engine(conn_str)

symbol = 'SBER'

query = """select e.trade_date as date,
           e.close * i.lot as close,
           e.open * i.lot  as open,
           e.high * i.lot  as high,
           e.low * i.lot as low,
           e.volume as volume
            from equity_history e
        join instruments i on e.ticker = i.ticker
        where e.ticker='{}'
        order by trade_date;
        """.format(symbol)

data = pd.read_sql_query(query, engine, index_col='date', parse_dates=['date'])
data = data['2012-01-01':'2018-12-31']

### Разделяем данные для обучения и тестов

In [9]:
data_train = data['2012-01-01':'2015-12-31']
data_test = data['2016-01-01':'2018-12-31']

### Трансформируем данные

In [13]:
scaler = MinMaxScaler()
training_data = scaler.fit_transform(data_train)

### Разделяем данные

Используется [TimeSeriesSplit](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.TimeSeriesSplit.html) как наиболее подходящее решение для временных рядов.

${Количество\ отрезков} = \frac{количество\ торговых\ сессий}{среднее\ количество\ торговых\ сессий\ в\ месяц}$,

где среднее количество торговых сессий в месяц = 22

In [22]:
tscv = TimeSeriesSplit(n_splits=int(training_data.shape[0] / 22))
X_train, X_test, y_train, y_test = [], [], [], []

for train_index, test_index in tscv.split(training_data):
    X_train = training_data[train_index]
    y_train = training_data[train_index,0]
    X_test = training_data[test_index]
    y_test = training_data[test_index,0]