<b>Постановка.</b>

Целью является создание модели, осуществляющей точный прогноз цены закрытия на 1 день вперёд.

Ставится задача машинного обучения с учителем (supervised machine learning), а именно задача регрессии с точечным прогнозом.

<b>Экспертное формирование исходных переменных.</b>

В качестве основных рядов (в роли как переменных, так и целей прогнозирования) взяты 5 криптовалют, являющихся одними из наиболее широко торгуемых:
    <br>&emsp;&emsp;&emsp;> BTC-USD;
    <br>&emsp;&emsp;&emsp;> ETH-USD;
    <br>&emsp;&emsp;&emsp;> LTC-USD;
    <br>&emsp;&emsp;&emsp;> DOGE-USD;
    <br>&emsp;&emsp;&emsp;> XRP-USD.

В качестве дополнительных переменных выбраны курсы фиатных валют, а также ETF на индексы, потенциально имеющие отношение к сфере криптовалют:
    <br>&emsp;&emsp;&emsp;> EUR-USD;
    <br>&emsp;&emsp;&emsp;> JPY-USD;
    <br>&emsp;&emsp;&emsp;> FDN (First Trust Dow Jones Internet Index ETF);
    <br>&emsp;&emsp;&emsp;> VPU (Vanguard Utilities Index Fund ETF).

В качестве источника для единоразовой выгрузки данных взят сайт Yahoo Finance.

<b>Представление данных.</b>

Таким образом, имеется набор рядов котировок (все -- к USD):
    <br>&emsp;&emsp;&emsp;> криптовалют;
    <br>&emsp;&emsp;&emsp;> фиатных валют;
    <br>&emsp;&emsp;&emsp;> ETF на индексы.
<br><br>
Данные представлены полями:
    <br>&emsp;&emsp;&emsp;> цена открытия;
    <br>&emsp;&emsp;&emsp;> цена закрытия;
    <br>&emsp;&emsp;&emsp;> максимальная цена;
    <br>&emsp;&emsp;&emsp;> минимальная цена;
    <br>&emsp;&emsp;&emsp;> объём торгов.

Они отличаются исторической глубиной и торговыми днями. Если с исторической глубиной всё ясно
(начинаем брать с даты, с которой доступны данные по всем рядам), то с торговыми днями следует пояснить.


In [1]:
import os
import pandas


d = './data/simplicon/raw/'
frames = []
for file in os.listdir(d):
    ticker = file[:file.index('.')]
    piece = pandas.read_csv(d + file)
    piece = piece.rename(columns={'Date': 'time'})
    piece = piece.set_index(['time'])
    piece = piece.rename(columns={x: '{1}_{0}'.format(x, ticker) for x in piece.columns.values})
    frames.append(piece)
data = pandas.concat(frames, axis=1)
data = data.reset_index().rename(columns={'index': 'time'})
data

Unnamed: 0,time,BTC-USD_Open,BTC-USD_High,BTC-USD_Low,BTC-USD_Close,BTC-USD_Adj Close,BTC-USD_Volume,DOGE-USD_Open,DOGE-USD_High,DOGE-USD_Low,...,VPU_Low,VPU_Close,VPU_Adj Close,VPU_Volume,XRP-USD_Open,XRP-USD_High,XRP-USD_Low,XRP-USD_Close,XRP-USD_Adj Close,XRP-USD_Volume
0,2015-06-28,250.955002,251.171997,247.434006,249.011002,249.011002,1.513760e+07,0.000208,0.000209,0.000197,...,,,,,0.011444,0.011477,0.011268,0.011467,0.011467,2.558320e+05
1,2015-06-29,248.720993,257.173004,248.580994,257.063995,257.063995,3.474290e+07,0.000203,0.000216,0.000203,...,90.059998,90.120003,76.779465,126000.0,0.011487,0.012011,0.011485,0.011977,0.011977,8.405330e+05
2,2015-06-30,257.036011,267.867004,255.945999,263.071991,263.071991,4.453380e+07,0.000215,0.000216,0.000198,...,89.660004,89.919998,76.609055,116200.0,0.011970,0.012017,0.011320,0.011320,0.011320,1.028230e+06
3,2015-07-01,263.345001,265.171997,255.774002,258.621002,258.621002,2.702980e+07,0.000199,0.000200,0.000186,...,89.760002,90.250000,76.890228,132600.0,0.011317,0.011405,0.011027,0.011198,0.011198,5.582480e+05
4,2015-07-02,258.552002,261.631012,254.115997,255.412003,255.412003,2.155190e+07,0.000193,0.000195,0.000188,...,90.349998,91.570000,78.014824,231800.0,0.011195,0.011243,0.010969,0.011037,0.011037,4.041170e+05
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1823,2020-06-24,9632.149414,9680.367188,9278.233398,9313.610352,9313.610352,1.896172e+10,0.002483,0.002497,0.002389,...,122.000000,123.489998,123.489998,476400.0,0.188700,0.190857,0.183050,0.184272,0.184272,1.138045e+09
1824,2020-06-25,9314.126953,9340.161133,9095.324219,9264.813477,9264.813477,1.861605e+10,0.002430,0.002433,0.002390,...,120.610001,122.089996,122.089996,334900.0,0.184076,0.184982,0.180956,0.183570,0.183570,1.055030e+09
1825,2020-06-26,9260.995117,9310.516602,9101.738281,9162.917969,9162.917969,1.834147e+10,0.002417,0.002427,0.002359,...,119.989998,120.849998,120.849998,268100.0,0.183472,0.185867,0.179898,0.182671,0.182671,1.269492e+09
1826,2020-06-27,,,,,,,,,,...,,,,,,,,,,


Криптовалютные биржи торгуют ежедневно и круглосуточно. Биржи, с которых взяты котировки фиатных валют и ETF, 
торгуют только в определённые часы и только по будням. Поскольку предполагается, что модель должна уметь
производить прогнозы на ежедневной основе, необходимо определить способ заполнения пропущенных значений.

Возможные варианты:
    <br>&emsp;&emsp;&emsp;> дропнуть все наблюдения, где NaN;
    <br>&emsp;&emsp;&emsp;> каждый NaN заполнять последним доступным наблюдением;
    <br>&emsp;&emsp;&emsp;> сделать линейную интерполяцию.

Также заметим, что у рядов в принципе иногда могут встречаться пропуски (например, как в предпоследнем наблюдении).
В силу последнего, а также того, что в качестве преобразований далее мы будем рассматривать в том числе и приросты котировок к предшествующим наблюдениям, остановимся на заполнении последним доступным наблюдением.

При этом по фиатным валютнам поля с Volume не содержат значений (заполнены нулями), потому в дальнейшем они не используются.

In [2]:
postfix = 'LAST'
data_ = data.copy()
data_ = data_.fillna(method='ffill')

g = './data/simplicon/'
data_.to_csv(('{0}data_1_{1}.csv'.format(g, postfix)), index=False)

В результате имеем набор данных <b>data_1_LAST.csv</b>, с которым и будем дальше работать.

<b>Преобразование данных.</b>

В качестве вариантов рассматривались следующие:
    <br>&emsp;&emsp;&emsp;> NoT:
    <br>&emsp;&emsp;&emsp;без преобразования;
    <br>&emsp;&emsp;&emsp;> Whiten:
    <br>&emsp;&emsp;&emsp;стандартизация данных;
    <br>&emsp;&emsp;&emsp;> TanhWhiten:
    <br>&emsp;&emsp;&emsp;стандартизация данных + взятие гиперболического тангенса;
    <br>&emsp;&emsp;&emsp;> Pct:
    <br>&emsp;&emsp;&emsp;взятие процентных приростов к предыдущим наблюдениям;
    <br>&emsp;&emsp;&emsp;> LnPct:
    <br>&emsp;&emsp;&emsp;взятие процентных приростов к предыдущим наблюдениям + взятие логарифма.

Для первоначального отбора преобразований запускалось обучение пайплайнов вида:

Данные --> Преобразование --> Модель

Преобразования брались из списка выше, список моделей же был следующий:
    <br>&emsp;&emsp;&emsp;> XGBoost (модель, которую предполагается использовать далее);
    <br>&emsp;&emsp;&emsp;> LightGBM;
    <br>&emsp;&emsp;&emsp;> Gradient Boosting Machine;
    <br>&emsp;&emsp;&emsp;> Random Forest
    <br>&emsp;&emsp;&emsp;> Extra Randomized Trees;
    <br>&emsp;&emsp;&emsp;> Decision Tree;
    <br>&emsp;&emsp;&emsp;> Support Vector Machine;
    <br>&emsp;&emsp;&emsp;> K-Nearest Neighbors;
    <br>&emsp;&emsp;&emsp;> Linear Regression - Ordinary Least Squares.

Кросс-валидация не использовалась, обучение производилось с разбиением на обучающую и тестовую выборки.
По результатам на тестовой выборке были оставлены преобразования, достаточно хорошо показавшие себя
с большинством моделей:
    <br>&emsp;&emsp;&emsp;> LnPct;
    <br>&emsp;&emsp;&emsp;> TanhWhiten.

Также в дополнение к описанным рассматривалась возможность дополнительного использования Power Transform после
преобразований, однако эксперименты показали численную неустойчивость метода (происходил overflow типа данных
numpy.float32 -- реализации моделей поддерживают только его, numpy.float64 использовать невозможно). Также стоит отметить, что преобразование Tanh также имеет проблемы с численной стабильностью, однако они так часто не возникали.

После взятия преобразований данные лагировались (на некоторое количество лагов, задаваемое параметром n_lags).

<b>Снижение размерности.</b>

После преобразования размерность данных снижалась. В качестве первоначального рассматривался довольно широкий список возможных методов:
    <br>&emsp;&emsp;&emsp;> Principal Component Analysis (PCA);
    <br>&emsp;&emsp;&emsp;> Kernel Principal Component Analysis (KPCA);
    <br>&emsp;&emsp;&emsp;> Sparse Principal Component Analysis (SPCA); 
    <br>&emsp;&emsp;&emsp;> Mini-Batch Sparse Principal Components Analysis;
    <br>&emsp;&emsp;&emsp;> Truncated Singular Value Decomposition;
    <br>&emsp;&emsp;&emsp;> Dictionary Learning;
    <br>&emsp;&emsp;&emsp;> Fast Algorithm for Independent Component Analysis;
    <br>&emsp;&emsp;&emsp;> Non-Negative Matrix Factorization;
    <br>&emsp;&emsp;&emsp;> Latent Dirichlet Allocation;
    <br>&emsp;&emsp;&emsp;> Multidimensional Scaling;
    <br>&emsp;&emsp;&emsp;> t-distributed Stochastic Neighbor Embedding;
    <br>&emsp;&emsp;&emsp;> Uniform Manifold Approximation and Projection;
    <br>&emsp;&emsp;&emsp;> Gaussian Random Projection;
    <br>&emsp;&emsp;&emsp;> Sparse Random Projection.

Следует отметить, что описанные методы использовались исключительно в экспериментальных целях и "из коробки", 
т.е. без детальной предварительной настройки. Первоначальный отбор был произведён способом, аналогичным использованному для преобразований -- на тестовой выборке было оценено качество прогнозов пайплайна следующего вида:

Данные --> Преобразование --> Метод снижения размерности --> Модель

При этом в качестве преобразований использовались уже только LnPct и TanhWhiten (+ для чистоты эксперимента и вариант без преобразования), а в качестве модели брался только XGBoost (с гиперпараметрами по умолчанию).

По результатам отбора список сократился до следующего:
    <br>&emsp;&emsp;&emsp;> Principal Component Analysis;
    <br>&emsp;&emsp;&emsp;> Kernel Principal Component Analysis;
    <br>&emsp;&emsp;&emsp;> Sparse Principal Component Analysis; 
    <br>&emsp;&emsp;&emsp;> Mini-Batch Sparse Principal Components Analysis.

Далее по каждому из методов производились серии обучения пайплайнов со следующими изменяемыми параметрами:
    <br>&emsp;&emsp;&emsp;> Числом взятых лагов n_lags;
    <br>&emsp;&emsp;&emsp;> Отдельными характеристиками самого метода;
    <br>&emsp;&emsp;&emsp;> Числом измерений пространства, в которое происходит отображение, с параметром embedding_len.

По результатам обучения пайплайнов рассматривались оценки качества прогнозов, визуализированные в виде графиков.

Пример такой визуализации приведён ниже: 
 <br>по оси X: число лагов n_lags; по оси Y: величина RMSE (верхний график) / величина MAPE (нижний график); цветами обозначены результаты для различных embedding_len.

![Title](img/im0.png)

На основе графиков отбирались конфигурации преобразований с такими параметрами, на которых бы наблюдались достаточно низкие величины ошибок (просадки на графике), вокруг которых было бы целесообразно сосредоточить более подробный поиск.

По результатам такого визуального анализа были отобраны следующие конфигурации (параметры указаны с учётом уточнённого поиска):
    <br>&emsp;&emsp;&emsp;> PCA: {параметры отсутствуют};
    <br>&emsp;&emsp;&emsp;> KPCA: {ядро: сигмоида, параметр гамма: 1}
    <br>&emsp;&emsp;&emsp;> SPCA: {параметр альфа: [1.0, 1.1, 1.2, 1.3]}

В качестве вариантов значений embedding_len были взяты [19, 29, 39].

<b>Модельно-независимый отбор переменных. Оптимизация гиперпараметров.</b>

Далее осуществляется отбор переменных средствами, не являющимися специфичными для используемой модели (XGBoost), а также оптимизация гиперпараметров самой модели.

В качестве средств отбора переменных рассмотрены следующие:
    <br>&emsp;&emsp;&emsp;> Generic Univariate Selector со стратегией "top 50 percentile" для критерия mutual information for a continuous target variable;
    <br>&emsp;&emsp;&emsp;> Boruta со стратегией "top 50 percentile" с оценивающей моделью Random Forest;
    <br>&emsp;&emsp;&emsp;> Вариант без отбора переменных.

Модель обучается для различных комбинаций гиперпараметров из определённого пула на последовательно идущих time-series фолдах. Пул возможных комбинаций следующий (для задаваемых XGBoost, значения остальных оставлены по умолчанию):
    <br>&emsp;&emsp;&emsp;> booster: ['gblinear', 'gbtree'];
    <br>&emsp;&emsp;&emsp;> n_estimators: [1000];
    <br>&emsp;&emsp;&emsp;> max_depth: [2, 3, 6, 8, 10];
    <br>&emsp;&emsp;&emsp;> learning_rate: [0.2, 0.3, 0.4];
    <br>&emsp;&emsp;&emsp;> min_child_weight: [1, 150, 300];
    <br>&emsp;&emsp;&emsp;> colsample_bytree: [0.8, 0.9, 1.0];
    <br>&emsp;&emsp;&emsp;> subsample: [0.8, 0.9, 1.0].

Иллюстрация time-series фолдов приведена на следующем рисунке:

![Title](img/im1.png)

При этом следует заметить, что размеры Training и Forecasting (Testing) фолдов были установлены одинакового размера.

По результатам обучения различных конфигураций пайплайна вычисляются метрики качества на обучающем и тестовом наборе каждого фолда, сводимые в таблицу. По таблице визуально оценивается наиболее удачная конфигурация с учётом следующих критериев:
    <br>&emsp;&emsp;&emsp;> Величина ошибки на test;
    <br>&emsp;&emsp;&emsp;> Разрыв в величине ошибки между train и test;
    <br>&emsp;&emsp;&emsp;> Стабильность ошибки между фолдами.

Обучаемый пайплайн выглядит следующим образом:

Данные --> Преобразование --> Метод снижения размерности --> Метод отбора переменных --> Модель (с кросс-валидацией)

При этов используются вариации преобразований и методов снижения размерности, описанные выше в результате промежуточных этапов их отбора. По результатам настоящего шага отбирается одна конфигурация пайплайна.

<b>Модельно-зависимый отбор переменных. Финальное обучение. </b>

Отобранная на предыдущем этапе конфигурация пайплайна подвергается финальному обучению и "полировке": она обучается на последнем time-series фолде, модель (с выбранными оптимильными гиперпараметрами) обучается уже с процедурой Recursive Feature Elimination с кросс-валидацией на 5 пространственных случайных под-фолдах (на последнем time-series фолде).

Полученный в результате обученный пайплайн сохраняется в .pkl формате и загружается в продакшн для ежедневного использования модели по прогнозному API.