# ОПИСАНИЕ РЕШЕНИЯ

**КЛЮЧЕВАЯ ПРОБЛЕМА АЛГОТРЕЙДЕРА**

- наличие только одной реализации процесса колебаний цен финансового актива
- при постоянно растущего числа фичей, оверфит "стратегии" превращается в дикую головную боль

**ИЛЛЮСТРАЦИЯ ПРОБЛЕМЫ: ТОРГОВАЯ СТРАТЕГИЯ**

Подойдем к этому цинично и честно расскажем, как мы зафитили стратегию:
- использовали ограниченный набор известных показателей и [5] параметров из AlgoPak;
- загрузили все параметры в RandomForestRegressor и безжалостно зафитили in-sample до откровенно стыдного уровня;
- мы также ради любопытства зафитили LSTM нейронную сеть (число параметров перевалило за 5 миллионов, при наличии всего 900 торговых дней) с аналогичным результатом;
- некоторые инструменты при этом, условно успешно переживают out-of-sample период: accuracy > 50%.
- эту стратегия успешно запущена в нашем симуляторе, может демонстрировать сделки, и, возможно, даже останется в некотором "плюсе" [ИЛЛЮСТРАЦИЯ СТРАТЕГИИ]

**РЕШЕНИЕ КЛЮЧЕВОЙ ПРОБЛЕМЫ: СЕРВИС ДЛЯ ИНВЕСТОРОВ**

Предлагаемый инвестиционный сервис ориентирован на аудиторию алготрейдеров и состоит из трех главных элементов, каждый из которых доступен по API:

1. Консолидатор рыночных данных и данных AlgoPak в объект, который мы назвали GigaCandles: [КОРОТКОЕ РЕЗЮМЕ]
2. Стандартные технические индикаторы для удобства пользования
3. И, ключевой элемент: синтетические рыночные данные

**СИНТЕТИЧЕСКИЕ ДАННЫЕ: СУТЬ ПОДХОДА**

Мы предлагаем воспользоваться нашим сервисом генерации синтетических данных по любому финансовому инструменту.

Ключевые особенности нашего подхода:
- **Сохранение зависимостей:** все темпоральные и кросс-темпоральные характеристики временных рядов полностью сохраняются, как линейные, так и любые иные;
- **Корреляция с исходным рядом:** практически 100%, будет снижаться при роста числа блоков разбиения для бутстрэпа. Размер блока определяется пользователем и зависит от характеристик (памяти) стратегии;
- **Эргодическая гипотеза:** сгенеренные сервисом альтернативные реализации цен, например SBER, обладают уникальным свойством - их средние показатели в точности соответствуют исходному ряду. По сути, речь идет о доступе к "параллельным вселенным", где торгуется выбранный финансовый инструмент;

**СИНТЕТИЧЕСКИЕ ДАННЫЕ: КАК ПОЛЬЗОВАТЬСЯ**

Сервис рекомендуется использовать одним из двух способов:

1. По итогам разработанной стратегии, сгенерить как минимум 10 синтетических траекторий (как аппроксимация 10 децилей), на которых как на дополнительном out of sample прогнать стратегию. При существенной разнице между исходным Шарпом и средним распределения из 10 Шарпов по синтетическим траекториям - красный флаг.

2. Использовать синтетические данные изначально - несколько разных генераций при необходимости - для разработки стратегии. По итогам такого подхода использовать настоящую реализацию цены как out of sample период в полном объеме.

**СИНТЕТИЧЕСКИЕ ДАННЫЕ: ОГРАНИЧЕНИЯ**

- сервис лучше всего подходит для стратегий, построенных так или иначе из цен и их производных. Фундаментальные данные требуют отдельного сервиса и решения, куда более сложного, чем то, что предлагается;
- требуется определенная осторожность при бутстрепе многомерных векторов, состоящих не только из цен закрытия: важно проверять полученные синтетические данные на сохранения внутри-векторных соотношений;
- и главное: даже безграниченый объем синтетических данных не является гарантией от оверфита! не теряйте голову!

In [None]:
import numpy as np
import pandas as pd
import time as tm
import datetime as dt
import tensorflow as tf

# Data preparation
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from collections import deque

# AI
from keras.models import Sequential
from keras.layers import Dense, LSTM, Dropout, Input, Conv2D, MaxPool2D, Flatten
from tensorflow.keras import regularizers
from keras.models import Sequential

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
path = '/content/drive/MyDrive/Data/sber.csv'
path2 = '/content/drive/MyDrive/Data/sber_price.csv'
path3 = '/content/drive/MyDrive/Data/sber_large.csv'

In [None]:
df = pd.read_csv(path, parse_dates = ['date'], index_col = 'date')
df.index.name = None
df = df.drop(df.columns[[0, 1]], axis = 1)

In [None]:
price = pd.read_csv(path2, parse_dates = ['date'], index_col = 'date')
price.index.name = None
price = price.drop(price.columns[[0, 1]], axis = 1)

In [None]:
frame = pd.concat([df, price], axis = 1)
frame = frame.drop(columns = ['field'])

#LARGE DATAFRAME FOR LARGE LSTM NN

In [None]:
df = pd.read_csv(path3, index_col = [0])

In [None]:
df = df.copy()
df.loc[:,'ret'] = df.close.pct_change(1)
df.loc[:,'next_ret'] = df.ret.shift(-1)
df = df.dropna()
df.loc[:,'label'] = np.sign(df.next_ret)

In [None]:
total_fields = df.columns.to_list()
fields_need = ['RSI_2', 'EMA_RSI_14', 'RSI_50', 'adx_5', 'adx_10', 'macd_signal', 'macd_osc']

In [None]:
fields_out = ['next_ret', 'label']
total_fields = fields_need
feats_cols = [x for x in total_fields if x not in fields_out]

In [None]:
dim_f = len(feats_cols)

In [None]:
feats = np.column_stack([x for y, x in df[feats_cols].items()])
labels = np.column_stack([x for y, x in df['label'].items()]).ravel()

In [None]:
x_train, x_test, y_train, y_test = train_test_split(feats, labels, test_size = 200)

In [None]:
# For n-size time steps in the model
#steps = 5
#dim1 = int(x_train.shape[0] / steps)
#dim2 = int(x_train.shape[1])
#x_train_prcs = x_train.reshape(dim1, steps, dim2)

In [None]:
# For single time step in the model
x_train_prcs = x_train.reshape(-1,1,dim_f)

In [None]:
def GetTrainedModel(x_train, y_train, dim = dim_f):

  y_train = (y_train + 1)/2

  model = Sequential()
  model.add(LSTM(512, activation = 'tanh', return_sequences=True, input_shape = (1, dim)))
  model.add(Dropout(0.5))
  model.add(LSTM(128, activation = 'tanh'))
  model.add(Dropout(0.5))
  model.add(Dense(32, activation = 'tanh'))
  model.add(Dense(1, activation = 'sigmoid'))

  BATCH_SIZE = 64
  EPOCHS = 2250

  model.compile(loss='binary_crossentropy', optimizer='adam')

  model.fit(x_train, y_train,
            batch_size=BATCH_SIZE,
            epochs=EPOCHS,
            verbose=1)

  model.summary()

  return model

In [None]:
model = GetTrainedModel(x_train_prcs, y_train)

Epoch 1/2250
Epoch 2/2250
Epoch 3/2250
Epoch 4/2250
Epoch 5/2250
Epoch 6/2250
Epoch 7/2250
Epoch 8/2250
Epoch 9/2250
Epoch 10/2250
Epoch 11/2250
Epoch 12/2250
Epoch 13/2250
Epoch 14/2250
Epoch 15/2250
Epoch 16/2250
Epoch 17/2250
Epoch 18/2250
Epoch 19/2250
Epoch 20/2250
Epoch 21/2250
Epoch 22/2250
Epoch 23/2250
Epoch 24/2250
Epoch 25/2250
Epoch 26/2250
Epoch 27/2250
Epoch 28/2250
Epoch 29/2250
Epoch 30/2250
Epoch 31/2250
Epoch 32/2250
Epoch 33/2250
Epoch 34/2250
Epoch 35/2250
Epoch 36/2250
Epoch 37/2250
Epoch 38/2250
Epoch 39/2250
Epoch 40/2250
Epoch 41/2250
Epoch 42/2250
Epoch 43/2250
Epoch 44/2250
Epoch 45/2250
Epoch 46/2250
Epoch 47/2250
Epoch 48/2250
Epoch 49/2250
Epoch 50/2250
Epoch 51/2250
Epoch 52/2250
Epoch 53/2250
Epoch 54/2250
Epoch 55/2250
Epoch 56/2250
Epoch 57/2250
Epoch 58/2250
Epoch 59/2250
Epoch 60/2250
Epoch 61/2250
Epoch 62/2250
Epoch 63/2250
Epoch 64/2250
Epoch 65/2250
Epoch 66/2250
Epoch 67/2250
Epoch 68/2250
Epoch 69/2250
Epoch 70/2250
Epoch 71/2250
Epoch 72/2250
E

In [None]:
model.save('/content/drive/MyDrive/Data/MOEX_LSTM_Model.h5')

  saving_api.save_model(


In [None]:
modelAccuracy(model, x_train, x_test, y_train, y_test)

Shapes and types:
y_train_binary: (726,) float64
train_predictions: (726,) int64
y_test_binary: (200,) float64
test_predictions: (200,) int64
Training Accuracy: 0.9256198347107438
Test Accuracy: 0.53

Classification Report for Training Data:
              precision    recall  f1-score   support

         0.0       0.93      0.91      0.92       345
         1.0       0.92      0.94      0.93       381

    accuracy                           0.93       726
   macro avg       0.93      0.92      0.93       726
weighted avg       0.93      0.93      0.93       726


Classification Report for Test Data:
              precision    recall  f1-score   support

         0.0       0.53      0.48      0.51       100
         1.0       0.53      0.58      0.55       100

    accuracy                           0.53       200
   macro avg       0.53      0.53      0.53       200
weighted avg       0.53      0.53      0.53       200


Confusion Matrix for Training Data:
[[314  31]
 [ 23 358]]

Confu

In [None]:
def modelAccuracy(model, x_train, x_test, y_train, y_test, dim = dim_f):

  train_predictions = model.predict(x_train.reshape(-1,1,dim)).flatten()
  test_predictions = model.predict(x_test.reshape(-1,1,dim)).flatten()

  # Convert predictions to label format (0 or 1)
  train_predictions = np.where(train_predictions < 0.5, 0, 1)
  test_predictions = np.where(test_predictions < 0.5, 0, 1)

  # Convert original y_train and y_test from -1 and 1 to 0 and 1
  y_train_binary = (y_train + 1.0001) // 2
  y_test_binary = (y_test + 1.0001) // 2

  print("Shapes and types:")
  print("y_train_binary:", y_train_binary.shape, y_train_binary.dtype)
  print("train_predictions:", train_predictions.shape, train_predictions.dtype)
  print("y_test_binary:", y_test_binary.shape, y_test_binary.dtype)
  print("test_predictions:", test_predictions.shape, test_predictions.dtype)

  # Calculate accuracy
  train_accuracy = accuracy_score(y_train_binary, train_predictions)
  test_accuracy = accuracy_score(y_test_binary, test_predictions)

  # Print accuracy
  print("Training Accuracy:", train_accuracy)
  print("Test Accuracy:", test_accuracy)

  # Additional metrics
  print("\nClassification Report for Training Data:")
  print(classification_report(y_train_binary, train_predictions))

  print("\nClassification Report for Test Data:")
  print(classification_report(y_test_binary, test_predictions))

  # Confusion Matrix
  print("\nConfusion Matrix for Training Data:")
  print(confusion_matrix(y_train_binary, train_predictions))

  print("\nConfusion Matrix for Test Data:")
  print(confusion_matrix(y_test_binary, test_predictions))

In [None]:
def GetCNN_Model(seq_len=1, n_features=dim_f, n_filters=(2, 8, 8), droprate=0.2):
    """2D-CNNpred model according to the paper."""
    model = Sequential()
    model.add(Input(shape=(1, n_features, 1)))
    model.add(Conv2D(n_filters[0], kernel_size=(1, n_features), activation="relu"))
    model.add(Conv2D(n_filters[1], kernel_size=(1, 1), activation="tanh"))
    # Removed one Conv2D and MaxPool2D layers
    model.add(Flatten())
    model.add(Dropout(droprate))
    model.add(Dense(1, activation="sigmoid"))

    return model

In [None]:
x_train_prcs_cnn = x_train.reshape(-1, 1, dim_f, 1)
y_train_cnn = (y_train + 1.0001)//2
y_test_cnn = (y_test + 1.0001) //2

In [None]:
model = GetCNN_Model()
model.compile(optimizer="adam", loss="binary_crossentropy", metrics=["acc"])
model.fit(x_train_prcs_cnn, y_train_cnn, epochs = 500, batch_size = 64)

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.src.callbacks.History at 0x7cc3a148f670>

In [None]:
train_predictions_cnn = model.predict(x_train.reshape(-1,1,dim_f, 1)).flatten()
test_predictions_cnn = model.predict(x_test.reshape(-1,1,dim_f, 1)).flatten()



In [None]:
train_accuracy = accuracy_score(y_train_cnn, np.where(train_predictions_cnn > 0.5, 1, 0))
test_accuracy = accuracy_score(y_test_cnn, np.where(test_predictions_cnn > 0.5, 1, 0))

In [None]:
train_accuracy, test_accuracy

(0.5743801652892562, 0.495)