## Abstract

金融ポートフォリオ管理は、ファンドをさまざまな金融商品に定期的に再分配するプロセスです。本稿では、ポートフォリオ管理の問題に対する深層機械学習のソリューションを提供する、金融モデルのない強化学習フレームワークを紹介します。このフレームワークは、EQE（Ensemble Independent Evaluators）トポロジ、PVM（Portfolio-Vector Memory）、OSBL（Online Stochastic Batch Learning）スキーム、完全に活用される明示的な報酬機能で構成されています。このフレームワークは、畳み込みニューラルネットワーク（CNN）、基本リカレントニューラルネットワーク（RNN）、およびLong Short-Term Memory(LSTM）の3点で実現されています。彼らは、最近レビューまたは公開されたいくつかのポートフォリオ選択戦略とともに、暗号通貨テスト市場での30分の取引期間での3つのバックテスト実験で検証されています。暗号通貨は政府発行の金銭の電子的および分散的な代替手段で、暗号通貨の最もよく知られている例としてBitcoinを使用しています。フレームワークの3つのインスタンスはすべて、すべての実験において上位3つのポジションを独占し、他の比較取引アルゴリズムを凌駕しました。バックテストで0.25％の高い手数料率で、フレームワークは50日間で少なくとも4倍の利益を達成することができます。

Keywords: Machine learning; Convolutional Neural Networks; Recurrent Neural Networks;
Long Short-Term Memory; Reinforcement learning; Deep Learning; Cryptocurrency;
Bitcoin; Algorithmic Trading; Portfolio Management; Quantitative Finance

## 1. Introduction

これまでの価格予測を行わずに、アルゴリズム取引問題に対するモデルフリーおよび完全機械学習スキームのこれまでの成功した試みは、この問題を強化学習（RL）問題として扱っています。これらは、Moody and Saffell（2001）、Dempster and Leemans（2006）、Cumming（2015）、およびDengらによる最近の深層RL利用を含む。 （2017）。これらのRLアルゴリズムは、資産上の離散取引信号を出力する。単一資産取引に限定されているため、トレーディング・エージェントが複数の資産を管理する一般的なポートフォリオ管理の問題には適用できません。

深層RLは最近、ビデオゲーム（Mnih et al.,2015）とボードゲーム（Silver et al.,2016）の卓越した業績により、注目を集めています。これは離散的なアクション空間を持つRLの問題であり、アクションが連続しているポートフォリオ選択の問題に直接適用することはできません。離散的な行動には未知のリスクが伴うため、市場行動は離散化することができますが、離散化は大きな欠点とみなされます。例えば、市場の残りの部分にリスクを広げることなく、すべての資本を1つの資産に投資するという極端な個別行動を定義することができます。さらに、離散化はスケールをしづらくしてしまいます。総資産の数などの市場要因は、市場によって異なります。異なる市場での機械学習の適応性を十分に活用するためには、取引アルゴリズムをスケーラブルにする必要があります。Actor-Criticの一種であるDeterministic Policy Gradient Algorithmsという汎用的な連続深層RLフレームワークが最近導入されました（Silver et al.,2014; Lillicrap et al., 2016）。これらのActor-Criticアルゴリズムにおける連続的な出力は、ニューラルネットワーク近似の行動政策関数によって達成され、第2のネットワークは、報酬関数推定器として訓練されます。しかしながら、2つのニューラルネットワークをトレーニングすることは困難であり、時には不安定であることも分かっています。

本稿では、ポートフォリオ管理のために特別に設計されたRLフレームワークを提案します。フレームワークの中核は、Ensemble of Identical Independent Evaluators（EIIE）トポロジです。 IIEは、資産の履歴を検査し、潜在的な将来の成長を評価することを役割とするニューラルネットワークです。各資産の評価得点は、ポートフォリオ内の資産の意図的な重み変化のサイズによって割り引かれ、softmax層に入力され、その結果が今後の取引期間の新しいポートフォリオの重みとなります。ポートフォリオの重みは、RLエージェントの市場行動を定義します。重みが増加した資産は追加購入され、減量された資産は売却されます。市場のヒストリーデータとは別に、前回の取引期間のポートフォリオの重みもEIIEに入力されます。これは、RLエージェントが取引費用の利益への影響を検討するためです。このために、各期間のポートフォリオの重みはポートフォリオベクトルメモリ（PVM）に記録されます。 EIIEはオンライン確率的バッチラーニングスキーム（OSBL）で訓練されています。これは、バックテストやオンライントレード中のプレトレードトレーニングとオンライン取引の両方と互換性があります。RLフレームワークの報酬関数は、周期的な対数リターンの明示的な平均です。明示的な報酬機能を有するEIIEは、訓練中に、機能の勾配上昇方向に沿って進化します。この研究では3種類のIIEを用いてテストを行っています。畳み込みニューラルネットワーク（CNN）（Fukushima、1980; Krizhevsky et al.,2012; Sermanet et al.,2012） ）、単純なリカレントニューラルネットワーク（RNN）、Long Short Term Memory（LSTM）（Hochreiter and Schmidhuber、1997）です。

完全な機械学習アプローチであるため、フレームワークは特定の市場に限定されるものではありません。その有効性と収益性を検証するために、フレームワークは暗号通貨（バーチャルマネー、最も有名な例としてBitcoin）の取引市場Polonix.comでテストされています。一組のコインは、実験の直前の時間間隔に亘って取引量でランク付けされることによって予め選択される。よく分離されたタイムパンの3回のバックテスト実験が30分の取引期間内に実行される。 3つのEIIEの業績は、最近公表されたポートフォリオ選択戦略（Li et al.,2015, Li and Hoi, 2014）と比較されている。 EIIEは、3つの実験すべてにおいて他のすべての戦略を大幅に上回った

暗号化された通貨、あるいは単に暗号通貨は、政府発行の金銭の電子的かつ分散的な代替品です（Nakamoto、2008; Grinberg、2012）。最もよく知られている暗号通貨の例はBitcoinですが、Bitcoin（Bonneau et al.,2015）と競合する100以上の他の取引可能な暗号通貨があります。この競争の背景には、Bitcoinにいくつかの設計上の欠陥があり、人々がBitcoinに代わるものであることを期待して、これらの欠陥を克服するために新しいコインを発明しようとしているという点が挙げられます（Bentov et al.,2014; Duffield and Hagan、2014） 。しかし、多くの暗号通貨通信がBitcoinを打ち負かすためではなく、分散アプリケーションを開発するためにブロックチェーンテクノロジを使用する目的で作成されました。(たとえば、Ethereumはスマートな契約を結ぶ分散型プラットフォームで、Siacoinは分散型クラウドSiaでストレージサービスを購入して販売するための通貨です。) 2017年6月までに、すべての暗号通貨通貨の総市場資本は102億ドルであり、そのうち41億ドルはBitcoinである([Crypto-currency market capitalizations](http://coinmarketcap.com/))。したがって、設計上の欠陥にかかわらず、Bitcoinは依然として市場における支配的な暗号通貨です。そのため、他の多くの通貨は通常の貨幣で買うことはできませんが、Bitcoinに対してのみ取引されます。

暗号通貨の2つの性質は、それらの市場をアルゴリズムポートフォリオ管理実験の最善のテスト場にして、従来の金融資産と区別します。これらの性質は集中排除と開放性であり、前者は後者を意味します。中央規制当事者がなければ、入場要件の低い暗号通貨取引に誰も参加できます。 1つの直接的な結果は、小額通貨の豊富さです。これらのペニー市場の価格に影響を及ぼすためには、伝統的な市場と比較して投資額が少なくて済むでしょう。これにより、最終的に取引機は自らの市場行動によって影響を知り、活用することができます。オープン性とは、市場がよりアクセスしやすいということです。ほとんどの暗号通貨交換には、マーケットデータを取得し取引アクションを実行するためのアプリケーションプログラミングインターフェイスがあります。ほとんどの取引所は、取引の頻度を制限することなく24時間365日開いています。これらのノンストップ市場は、機械が実世界で短期間で学ぶのに理想的です。論文は次のように編成されています。セクション2では、このプロジェクトが解決しようとしているポートフォリオ管理の問題を定義します。セクション3では、資産の事前選択とその裏づけ、入力価格のテンソル、市場のヒストリーデータに欠けているデータを処理する方法を紹介します。セクション4ではポートフォリオ管理問題を言語RLで再記述します。セクション5は、EIIEメタトポロジー、PVM、OSBLスキームを提示します。 3つの実験の結果はセクション6でステージングされます。

## 2.問題の定義

ポートフォリオ管理は、資本を多数の金融資産に継続的に再配分する行為です。自動取引ロボットの場合、これらの投資決定および行動は定期的に行われます。このセクションでは、ポートフォリオ管理の問題の数学的設定について説明します。

### 2.1取引期間

この作業では、取引アルゴリズムは時間駆動であり、時間は等しい長さの期間\\( T \\)に分割されます。各期間の始めに、取引エージェントは資産間で資金を再配分します。この論文のすべての実験で\\( T = 30 \\)分です。資産の価格は一定期間内に上下するが、始値、高値、安値、終値の4つの重要な価格ポイントは、期間の全体的な動きを特徴づけます。（Rogers and Satchell, 1991）。継続的な市場については、ある期間における金融商品の開始価格は、前期からの終値です。バックテストの実験では、各期間の初めに資産をその期間の開始価格で購入または売却することができると仮定されています。そのような仮定の正当性はセクション2.4で与えられている。

### 2.2数学的理論

ポートフォリオは\\( m \\)個の資産で構成されています。すべての資産の終値は、期間\\( t \\)の価格ベクトル \\( {\boldsymbol v_t} \\)を構成します。言い換えれば、\\( {\boldsymbol v_t} \\)の\\( i \\)番目の要素\\( v_{i,t} \\)は、 \\( t \\)番目の期間の\\( i \\)番目の資産を表します。同様に、\\({\boldsymbol v^{(hi)}_t} \\)と\\({\boldsymbol v^{(lo)}_t} \\)は期間の最高値と最低値を示す。ポートフォリオの最初の資産は特別なもので、以下本稿では現金を指すものとします。すべての資産の価格は現金で表示されるので、\\(v^{(lo)}_{0,t} \\),\\({\boldsymbol v^{(hi)}_t} \\)およ\\(  v^{(lo)}_{0,t} \\)は常に1で、すなわち\\(v^{(hi)}_{0,t} = v^{(lo)}_{0,t} = v_{0,t} = 1,\forall t \\)です。この論文の実験では、現金はBitcoinです。連続市場では、\\(v^{(lo)}_{0,t} \\)の要素は、期間\\(t + 1 \\)の開始価格,および期間\\( t \\)。 \\( t \\)番目の取引期間の価格相対ベクトルは、\\( {\boldsymbol v_t} \\)を\\( {\boldsymbol v_{t-1}} \\)で要素ごとに除算したものとなります:

$$ y_t := v_t \oslash v_{t-1} = \biggl(1,\frac{v_{1,t}}{v_{1,t-1}},\frac{v_{2,t}}{v_{2,t-1}},...,\frac{v_{m,t}}{v_{m,t-1}} \biggr)^T \tag{1}$$

\\( y_t \\)の要素は、期間中の個々の資産の終値を始値で割った商です。 価格相対ベクトルは、ある期間におけるポートフォリオ全体の価値の変化を計算するために使用できます。 \\( p_{t-1} \\)が期間\\( t \\)の初めのポートフォリオ価値であり、取引コストを無視すると、

$$ p_t = p_{t-1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{2}$$

ここで\\( {\boldsymbol w}_{t-1} \\)は期間\\( t \\)の始めのポートフォリオ・ウェイト・ベクトル（以降ポートフォリオ・ベクトルと呼ぶ）です。ポートフォリオ・ベクトルの\\( i \\)番目の要素\\( w_{t-1,i} \\)は、資本再配分後のポートフォリオにおける資産\\( i \\)の割合です。\\( {\boldsymbol w}_t \\)の要素の合計は定義上常に1となります。つまり、\\( \sum_i w_{t,i} = 1、\forall t \\)です。 期間\\( t \\)の **収益率** は、

$$ \rho_t := \frac{p_t}{p_{t-1}} -1 = {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{3}$$

対応する対数リターン率は、

$$ r_t := \ln \frac{p_t}{p_{t-1}} -1 = \ln {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{4}$$

典型的なポートフォリオ管理問題では、初期ポートフォリオ重みベクトル\\( {\boldsymbol w}_0 \\)は、ユークリッド空間における第1の基底ベクトルであるように選択され、

$$ {\boldsymbol w}_0 = (1,0,...,0)^T  \tag{5} $$

市場に入る前にすべての資本が取引通貨であることを示しています。 取引コストがない場合、最終的なポートフォリオ価値は

$$ p_f = p_0 \exp \biggl( \sum_{t=1}^{t_f+1}r_t \biggr) = p_0 \prod_{t=1}^{t_f + 1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{6} $$

ここで、\\( p_0 \\)は初期投資額です。 ポートフォリオマネージャの仕事は、特定の時間枠で\\( p_f \\)を最大化することです。

### 2.3 Transaction Cost

現実のシナリオでは、市場で資産を売買することは無料ではありません。 通常、手数料は手数料となります。 一定の手数料率を仮定すると、このセクションでは、Ormos and Urb'an（2013）による作業を拡張する再帰式を使用して、式（6）の最終ポートフォリオ値を再計算します。

期間\\( t \\)の始めのポートフォリオベクトルは\\( w_{t-1} \\)です。 同じ期間の終わりに、市場における価格の動きのために、ウェイトは

$$ {\boldsymbol w}'_t = \frac{{\boldsymbol y}_t \odot {\boldsymbol w}_{t-1}}{{\boldsymbol y} \cdot {\boldsymbol w}_{t-t}} \tag{7}$$

ここで、\\( \odot \\)は要素ごとの乗算です。 現在、期間\\( t \\)の終了時におけるポートフォリオマネージャの使命は、関連する資産を売買することによって、ポートフォリオベクトルを\\( w'_t \\)から\\( w_t \\)に再配分することです。 手数料をすべて支払うと、この再配分行動はポートフォリオの価値を係数\\( \mu_t \\)だけ縮小します(\\( \mu_t \in (0,1] \\))。これからはトランザクションの残りの要素と呼ばれます。 \\( \mu_t \\)は以下のとおりとする。 期間\\( t \\)の初めに\\( p_{t-1} \\)をポートフォリオの値とし、最後に\\( p'_t \\)とすると、

$$ p_t = \mu_tp'_t \tag{8}$$

(図は省略)
図1：トランザクション残余係数μtの効果の図。 価格相対ベクトルytで表される期間t中の市場の動きは、ポートフォリオ価値とポートフォリオの重みをpt-1とwt-1からp'tとw'tに変換する。 時間tにおける資産の売買行動は、ファンドをウェイトに再分配する。 副作用として、これらの取引は、ポートフォリオをptまでμt倍に縮小します。 期間tの収益率は、式（9）の2つの連続する期間の開始時のポートフォリオ値を使用して計算されます。

収益率（3）と対数収益率（4）は現在

（9）
（10）

式（6）の最終ポートフォリオ値は

（11）

式（10）、（11）において、取引コストを考慮しない式（4）、（2）と異なり、p '
t 6 = ptであり、2つの値の差はトランザクションの残りの要素が作用するところです。 図1は、ポートフォリオベクトルと値の間の関係、および時間軸上のそれらの動的関係を示しています。

残りの問題は、このトランザクション残余係数μtを決定することである。 w 'からのポートフォリオ再配分中に、
資産の一部または全部を売却する必要がある場合は、i> ptwt、iまたはw't、i>μtwt、iとする。 すべての売却によって得られた現金の総額は

(12)

（v）+ = ReLu（v）は要素単位の整流線形関数、（x）+ = xならx> 0、そうでなければ（x）+ = 0である。 。 このお金と元の現金予備金は、0は新しい準備をμtp 'twtを取り去った、0は新しい資産を購入するために使用されます]

（13）

0 6 cp < 1は購買手数料率であり、p'tは両側で相殺されている。 （a - b）+ - （b - a）+ = a - bを使用し、w 't、0 + mP i = 1 w' t、i = 1 = wt、0 + mP i = 1wt 式（13）は、

（14）

線形整流器内部のμtの存在は、解析的に解くことはできないが、反復的にしか解けないことを意味する。

####定理1 *

（15）

この収束はOrmos and Urb'an（2013）には述べられていないが、その証拠は付録Aに記載されている。この定理は、トランザクション残余係数μtを任意の精度で近似する方法を提供する。収束の速度は初期ゲストの誤差に依存する。小さい|μt - μ⊙|が速いほど、Sequence（15）はμtに収束します。 cp = cs = cのとき、cmPi = 1 | w't、i-wt、i |でμtを近似する練習がある（Moody et al。、1998）。したがって、この作品では、μ⊙はこれをシーケンスの最初の値として使用します。

 （16）

ニューラルネットワークの訓練では、固定されたk in（15）を有する〜μ（k）tが使用される。バックテスト実験では、許容誤差？ ~μ（k）t - ~μ（k-1）t <τとなるように、最初のkであるkを動的に決定する。
tを近似する。一般に、μtとその近似は、2つの最近の期間のポートフォリオベクトルと価格相対ベクトルの関数であり、

μt=μt（wt-1、wt、yt）。 （17）

この作業を通じて、非現金資産の売却と購入の両方に対して1つの一定の手数料率が使用され、cs = cp = 0.25％、Poloniexの最大率が使用されます。アルゴリズムエージェントの目的は、トランザクションコストを考慮して、（11）の累積資本を最大化するためにポートフォリオベクトル{w1、w2、···、wt、···}の時系列を生成することである。 

### 2.4 2つの仮説
この作業では、バック・トゥ・テスト取引は、市場史上のある時点で、将来の市場情報を知らずに時間を振って振り回して、それ以降の紙取引を行うようなふうに考えられています。バックテスト実験の要件として、以下の2つの仮定が課される。


1.ゼロスリップ：すべての市場資産の流動性が高いため、各取引は注文が発動された直前の価格で直ちに実行できる。

2.ゼロ市場への影響：ソフトウェア取引エージェントによって投資された資本はそれほど重要ではないため、市場に影響を与えません。実際の取引環境では、市場における取引量が十分に高い場合、これらの2つの仮定は現実に近いものです。



## 3.データ処理
取引実験はPoloniexの交換所で行われ、Poloniexでは約80
約65の利用可能な暗号化通貨を有する取引可能な暗号化対3。しかし、以下の理由から、1つの期間内に取引ロボットによってコインのサブセットのみが考慮される。コイン選択スキームは別として、このセクションでは、ニューラルネットワークが入力として受け取るデータ構造、正規化前処理、欠落データに対処するスキームについても説明します。

### 3.1資産事前選択
この論文の実験では、ポートフォリオのために大部分を占める非現金資産11件が事前に選択されています。現金と一緒に、Bitcoin、ポートフォリオのサイズm + 1は12です。この数は経験によって選択され、将来の実験で調整することができます。外国為替市場のように大量の市場では、mは利用可能な資産の総数と同じくらい大きくなる可能性があります。

トップボリュームの暗号化通貨（以下単にコインと呼ぶ）を選択する理由の1つは、資産の市場流動性が高まることを意味します。これは市場状況が第2.4節で設定された仮説1に近いことを意味する。仮説2に近い環境を構築することで、投資が市場に及ぼす影響は小さいと考えられます。日々の取引アルゴリズムに比べて比較的高い取引頻度（30分）を考えると、流動性と市場規模は特に重要です現在の設定。さらに、暗号侵害の市場は安定していません。これまでにめったに取引されていなかったコインや短期間に取引量が急激に増減することもあります。したがって、資産の事前選択のための量は、取引期間に比べてより長い時間枠である。これらの実験では、30日間の量が使用される。しかし、バックテスト実験でコイン選択のために最上位のボリュームを使用すると、生存バイアスが発生する可能性があります。資産の取引量はその人気に相関しており、その人気は過去の業績によって支配されています。今後の数量ランキングをバックテストにすると、必然的かつ間接的に将来の価格情報が実験に反映され、信頼性のない肯定的な結果が生じます。この理由から、バックテストの開始直前のボリューム情報は、事前選択のために取られ、生存バイアスを回避します。

### 3.2価格テンソル
過去の価格データは、ニューラルネットワークに供給され、ポートフォリオベクトルの出力を生成する。このサブセクションでは、入力テンソルの構造、正規化スキーム、および欠落データの処理方法について説明します。

期間tの終わりのニューラルネットワークへの入力は、形状（f、n、m）を有するランク3のテンソルXtであり、mは予め選択された非現金資産の数であり、nは入力期間の数tの前に、f = 3が特徴番号である。歴史の中でさらに後退した価格は最近のものよりも現在の瞬間との相関がずっと低いので、n = 50
（1日1時間）実験を行った。資産の選択の基準は第3.1項で与えられている。期間tの資産iの特徴は、その期間内の終値、最高価格、最低価格です。セクション2.2の表記法を使用して、これらはvi、t、v（hi）
i、t、およびv（lo）i、t。しかし、これらの絶対価格値はネットワークに直接供給されません。価格の変化のみがポートフォリオ管理（式（10））のパフォーマンスを決定するため、入力テンソルのすべての価格は最新の終値で正規化されます。したがって、Xtは3つの正規化価格行列の積み重ねであり、

(18)

1 =（1,1、...、1）⊺、⊘は要素単位の除算演算子である。

期間tの終わりに、ポートフォリオマネージャは、あるポリシーに従って、価格テンソルXtおよび以前のポートフォリオベクトルwt-1からの情報のみを使用して、ポートフォリオベクトルwtを提示する。換言すれば、wt =ρ（Xt、wt-1）である。期間t + 1の終わりに、決定wtによる期間の対数収益率は、式（10）、rt + 1 = ln（μt）を用いて、価格変化ベクトルyt + 1からの追加情報を用いて計算することができる+ 1yt + 1・wt）。 RLの言語では、rt + 1は、環境条件Xtの下でのそのアクションに対するポートフォリオ管理エージェントへの即時の報酬です。

### 3.3欠落データの埋め込み
選択されたコインの一部には歴史の一部が欠けています。このデータの欠如は、これらの硬貨がちょうど最近に現れたことによるものです。コインの存在前のデータポイントは、取引所から番号なし（NAN）としてマークされます。コイン選択基準は、バックテスト前の過去30日間のボリュームランクであり、その前にすべての資産が存在していなければならないため、NANはトレーニングセットにのみ現れました。

ニューラルネットワークの入力は実数でなければならないので、これらのNANを置換する必要があります。著者の以前の研究（Jiang and Liang、2017）では、ニューラルネットワークがこれらの不在資産を訓練プロセスで選ぶのを避けるために、失われたデータは0.01の崩壊率を有する偽の値下げ系列で満たされた。しかし、ネットワークはこれらの特定の資産を深く覚えていることが判明し、バックテストの実験で非常に有望なアップクライミングの傾向にあったとしても、これらの資産を回避しました。この理由から、この現在の研究では、欠けているデータポイントを埋めるために、フラットな偽価格の動き（0の減衰率）が使用されています。さらに、新しいEIIE構造の下では、新しいネットワークは個々の資産のアイデンティティーを明らかにすることができず、特定の資産の過去の悪い記録に基づいて決定できないようにします。

## 4.強化学習
セクション2で定義した問題を念頭に置いて、このセクションでは、決定論的なポリシー勾配アルゴリズムを使用した補強学習（RL）ソリューションフレームワークを紹介します。明示的な報酬機能もこの枠組みの下で与えられる。

### 4.1環境とエージェント
アルゴリズムポートフォリオ管理の問題では、エージェントは金融市場の環境で取引行動を実行するソフトウェアポートフォリオマネージャです。この環境は、市場のすべての利用可能な資産と、それに向かうすべての市場参加者の期待から構成されています。

そのような大規模で複雑な環境の状態に関する情報をエージェントが得ることは不可能です。それにもかかわらず、関連するすべての情報は、代理人に公に利用可能な資産の価格に反映される、技術トレーダ（Charlesら、2006; Lo et al。、2000）の哲学において信じられている。このような観点から、環境状態は、州が存在する瞬間までの市場の歴史を通じて、すべての注文の価格によっておおよそ表されます。フルオーダの歴史は多くの金融市場にとってパブリックドメインになっていますが、ソフトウェアエージェントが実際にこの情報を処理するにはあまりにも巨大な作業です。結果として、市場環境の状態表現を将来単純化するために、注文履歴情報のためのサブサンプリングスキームが採用される。これらのスキームには、セクション3.1、定期的なフィーチャ抽出と履歴のカットオフで説明されている資産の事前選択が含まれます。周期的な特徴抽出は、時間をピリオドに離散化し、各ピリオドの最高、最低、および終値を抽出する。履歴のカットオフは、環境の現在の状態を表すために、最近の期間だけの価格機能を単純に取り入れます。その結果の表現は、セクション3.2で説明された価格テンソルXtである。セクション2.4の仮説2の下で、エージェントの取引行動は市場の将来の価格状態に影響を与えない。しかし、期間tの初めに行われた行為は期間t + 1の報酬に影響し、結果としてその行為の決定に影響を与える。資産間で富を再分配することを目指して、期間t + 1の初めに行われたエージェントの売買取引は、ポートフォリオの重みw 'tとwtとの差によって決定される。 w 'tは式（7）のwt-1の項で定義され、最後の期間のアクションにおいても役割を果たす。 wt-1は、最後の期間に既に決定されているので、時刻tにおけるエージェントのアクションは、ポートフォリオベクトルwtだけで表すことができ、

at = wt. (19)

したがって、以前のアクションは、wt（17）に対するrt + 1およびμt+ 1の依存性を通じた現在の決定に影響を与えます。 現在の枠組みでは、この影響は、wt-1を環境の一部として考慮し、エージェントの行動作成ポリシーに入力することでカプセル化されるため、tの状態はXtとwt-1のペアとして表され、

st =（Xt、wt-1）、（20）

ここでw0は（5）で予め定められている。 状態stは、価格テンソルXtによって表される外部状態と、最後の期間wt-1からのポートフォリオベクトルによって表される内部状態の2つの部分からなる。 2.4項の仮説2の下では、ポートフォリオの金額は市場の総取引量に比べて無視できるので、内部状態には含まれない。

### 4.2フル活用と報酬機能

tf + 1期間の終わりに式（11）の最終ポートフォリオ値pfを最大にするのはエージェントの仕事である。エージェントは初期投資の選択肢p0およびポートフォリオ管理プロセス全体の長さtfの制御を持たないため、このジョブは平均対数累積リターンRを最大化することと等価であり、

（21）
（22）

（21）の右辺では、wt-1は-1での作用によって与えられ、ytは状態変数stからの価格テンソルXtの一部であり、μtは前述のwt-1、wtおよびytの関数である（17）。 RLの言語では、Rは累積報酬であり、rt / tfは個々のエピソードの即時報酬である。分母tfは、蓄積されたポートフォリオ価値を用いた報酬関数とは異なり（Moody et al。、1998）、異なる長さの実行間の報酬関数の公平性を保証し、ミニバッチで取引方針を訓練することを可能にする。
この報酬関数により、現在の枠組みは、他の多くのRL問題から2つの重要な特徴を有する。 1つは、エピソードと累積報酬の両方が正確に表現されていることです。換言すれば、環境の領域知識は十分に習得されており、エージェントによって完全に活用されることができる。この正確な表現力は、2.4節の仮説1に基づいて、行動が将来の状態の外部部分である価格テンソルに影響を与えないことに基づいている。この行動と外部環境の隔離によって、市場履歴の同じセグメントを使用してアクションの相違の順序を評価することもできます。トレーディング・ゲームの完全な新しいトライアルは時間と費用がかかるため、フレームワークのこの機能は大きな利点と考えられます。 2つ目の違いは、すべてのエピソード報酬が最終的なリターンにとって同等に重要であるということです。この区別は、ゼロ市場影響想定と併せて、rt / tfを、アクションの将来の影響を考慮しないで、0の割引係数でアクションwtのアクション値関数と見なすことを可能にする。明確な行動価値関数を持つことは、他のRL問題の探索が主に異なるクラスの行動価値関数の試行であるため、完全搾取アプローチをさらに正当化する。一方、探査がなければ、以下で議論される政策パラメータのランダムな初期化によって局所的な最適化を避けることができる。

### 4.3確定的ポリシー勾配

ポリシーは、状態空間から行動空間へのマッピングです。 ：S→A.現行の枠組みを最大限活用すれば、ある州の政策によって行動が決定論的に生成される。最適なポリシーは、グラディエント上昇アルゴリズムを使用して取得されます。これを実現するために、ポリシーはパラメータのセットによって指定され、at = ??（st）です。 ??のパフォーマンスメトリック時間間隔[0、tf]は、区間の対応する報酬関数（21）として定義され、

J [0、tf]（??）= R（s1、??（s1）、···、stf、??（stf）、stf + 1）。 （23）

ランダム初期化の後、パラメータは、学習率αで勾配方向に沿って連続的に更新され、

？ - →？ +∇∇J[0、tf]（Φ）。 （24）

トレーニング効率を向上させ、機械精度誤差を回避するには、？トレーニング市場全体の歴史の代わりにミニバッチで更新されます。ミニバッチの時間範囲が[tb1、tb2]の場合、バッチの更新ルールは

？ - →？ +∇∇J[tb1、tb2]（ε）、（25）

（21）で定義された対応するRの分母がtb2 - tb1に置き換えられます。グラジエント上昇のこのミニバッチアプローチはオンライン学習を可能にします。オンライン学習では、新しい市場の歴史が引き続きエージェントに伝わるオンライン取引が重要です。オンライン学習とミニバッチトレーニングの詳細については、第5.3節で説明します。

## 5.政策ネットワーク

ポリシー機能は？ 3つの異なる深いニューラルネットワークを用いて構築される。この論文のニューラルネットワークは、以前のバージョンとは異なる（Jiang and Liang、2017）
ポートフォリオ管理問題、ポートフォリオ・ベクタ・メモリ、および確率的なミニバッチのオンライン学習スキームを対象にして、ミニ・マシン・トポロジが発明されました。

### 5.1ネットワークトポロジ

ポリシー機能を構築するニューラルネットワークの3つの化身は、CNN、基本的なRNN、およびLSTMです。図2は、現在のポートフォリオ管理問題を解決するために設計されたCNNのトポロジを示し、図3は、同じ問題に対する基本的なRNNまたはLSTMネットワークの構造を示しています。すべての場合において、ネットワークへの入力は、（18）で定義された価格テンソルXtであり、出力はポートフォリオベクトルwtである。両方の図において、出力ポートフォリオベクトルの仮定的な例が用いられているが、価格テンソルの次元および資産の数は実験で展開された実際の値である。最後に隠された層は、すべての非現金資産の投票スコアです。これらのスコアのsoftmaxの結果と現金のバイアスは、実際に対応するポートフォリオの重みとなります。ニューラルネットワークがトランザクションコストを考慮するためには、最後の期間からのポートフォリオベクトルwt-1が、投票層の直前のネットワークに挿入される。ポートフォリオ・ベクトルをパラレルに格納および検索する実際のメカニズムは、セクション5.2に示されています。

3つのネットワークすべてにおいて重要な共通機能は、ネットワークがm資産に対して独立して流れ、ネットワークパラメータがこれらのストリーム間で共有されることです。これらのストリームは独立しているが同一の小規模なネットワークと同様であり、個々の非現金資産を個別に観察し評価する。それらはsoftmax関数で相互接続するだけで、出力ウェイトが非負であり、総和が1になるようにします。我々は、これらのミニマム・マシンまたはより正式に同一の独立評価者（IIE）と呼んでおり、このトポロジ・フィーチャはIIE（Ensemble of IIE）（EIIE）と呼ばれ、初期の試みで健全なアプローチと区別するためにミニ・マシン・アプローチと呼ばれています（Jiang and Liang、 。 EIIEは図2と3で異なって実現されています。図2のIIEは、高さ1のカーネルを持つコンボリューションのチェーンにすぎませんが、図3では、LSTMまたはBasic RNNのいずれかで、 。

EIIEは、ポートフォリオ管理のパフォーマンスを大幅に向上させます。以前のバージョンの統合ネットワークは、個々の資産の過去のパフォーマンスを覚えているため、資産が将来有望な将来を呈していても、歴史的に好ましくない資産に金銭を投資することは嫌です。一方、割り当てられた資産のアイデンティティーを明らかにするように設計されていない場合、IIEは単に最近の出来事に基づいて潜在的な上昇と下降を判断することができます。

実用的な観点からは、EIIEは統合ネットワークに比べて3つの重要な利点があります。 1つ目は、資産数のスケーラビリティです。ミニマシンを全て共有パラメータと同一にすることにより、アンサンブルの訓練時間はmとほぼ線形になる。第2の利点は、データ使用効率である。価格履歴の区間では、ミニ・マシンを異なる資産にm回訓練することができます。 IIEの資産評価エクスペリエンスは、時間と資産の両面で共有され蓄積されます。最終的な利点は、資産回収の柔軟性です。 IIEの資産評価能力は特定の資産に限定されることなく普遍的であるため、EIIEは、地上ゼロから再びネットワークを訓練することなく、資産の選択および/またはポートフォリオのサイズをリアルタイムで更新することができる。

### 5.2ポートフォリオベクトルメモリ

ポートフォリオ管理エージェントが連続するポートフォリオベクトル間の大きな変化から守り、取引コストを最小にするために、前の取引期間からのポートフォリオ加重の出力がネットワークに入力される。これを達成する1つの方法は、RNNの記憶力に頼ることであるが、このアプローチでは、（18）で提案された価格正規化スキームを放棄しなければならない。この正規化スキームは他のものよりも経験的に優れています。別の可能な解決策は、直接補強（Direct Reinforcement：RR）
Moody and Saffell（2001）によって紹介された。しかしながら、RRメモリとRNNメモリの両方は、勾配消失問題を抱えている。さらに重要なことに、RRとRNNはトレーニングプロセスのシリアライズを必要とし、ミニバッチ内での並列トレーニングを利用できません。

図2：EIIEのCNN実装：これは完全畳み込みネットワークである同一独立評価者のアンサンブル（EIIE）の実現です。全ての特徴マップにおける全ての局所受容野の第1の次元は1であり、全ての行がソフトマックス活性化まで互いに隔離されている。通常のCNN特性であるフィーチャマップの受信フィールド間でのウェイトシェアリングとは別に、パラメータもEIIE構成の行間で共有されます。ネットワーク全体の各行には特定の資産が割り当てられており、来るべき取引期間に資産の潜在的可能性について投票スコアをsoftmaxに提出する責任があります。ネットワークへの入力は、過去n回の非現金資産の最高、終値、最低価格を含む3×m×nの価格テンソルである。アウトプットは新しいポートフォリオのウェイトです。以前のポートフォリオ加重は、エージェントが取引コストを最小限に抑えるために、スコアリングレイヤの前に特別なフィーチャマップとして挿入されます。

この作品では、経験豊富な再生メモリ（Mnih et al。、2016）のアイデアに触発され、専用Portfolio-Vector Memory（PVM）が導入され、ネットワーク出力を格納します。図4に示すように、PVMは時系列のポートフォリオベクトルのスタックです。ネットワークトレーニングの前に、PVMは均一な重みで初期化されます。各トレーニングステップにおいて、ポリシーネットワークは、前の期間のポートフォリオベクトルをt-1のメモリロケーションからロードし、tのメモリをその出力で上書きする。ポリシーネットワークのパラメータが多くの訓練エポックによって収束するにつれて、メモリ内の値も収束する。

1つのメモリスタックを共有することで、ミニバッチ内のデータポイントに対して同時にネットワークを訓練することができ、訓練の効率が大幅に向上します。 RNNバージョンのネットワークでは、反復ブロックの後に最後の出力を挿入します（図3）
勾配を深いRNN構造に戻すことを回避し、勾配の消失問題を回避する。

図3：RNN（Basic RNNまたはLSTM）EIIEの実装：これは、同一独立評価者のアンサンブル（EIIE）を繰り返し実現したものです。このバージョンでは、個々の資産の価格入力は小さな反復サブネットによって取得されます。これらのサブネットは、同一のLSTMまたは基本RNNです。リカレントサブネット後のアンサンブルネットワークの構造は、図2のCNNの後半と同じです。

図4：ポートフォリオ・ベクトル・メモリの読み書きサイクル：両方のグラフで、時間軸上の小さな垂直ストリップは、期間の初めにポートフォリオ・ウェイトを含むメモリの一部を表します。赤色のメモリはポリシーネットワークに読み込まれ、青色のメモリはネットワークによって上書きされます。 4つのストリップからなる（a）の2つの色付き長方形は、2つの連続するミニバッチの例である。 （a）はミニバッチに対して完全な読み書き円を示しているが、（b）はネットワーク内の円を示している（ネットワークのCNNまたはRNN部分を省略している）。

### 5.3オンライン確率的バッチ学習

ネットワーク出力メモリの導入により、学習フレームワークは順次入力を必要とするが、ミニバッチ訓練が可能となる。しかし、教師付き学習とは異なり、データポイントが順序付けされておらず、ミニバッチがトレーニングサンプル空間のランダムに離れたサブセットである場合、このトレーニングスキームでは、バッチ内のデータポイントは時間順でなければならない。さらに、データセットは時系列であるため、異なる期間で開始するミニバッチは、それらがかなり重なり合う間隔を有していても、有効かつ独特であると考えられる。例えば、均一バッチサイズがnbの場合、[tb、tb + nb]をカバーするデータセットは、
と[tb + 1、tb + nb + 1）は2つの有効に異なるバッチです。

金融市場のこれまで通りの性質は、新しいデータがエージェントに流入し続けることを意味し、その結果、トレーニングサンプルのサイズが無期限に爆発する。幸いにも、2つの市場価格イベント間の相関関係は、それらの間の時間的距離に伴って指数関数的に数十年あると考えられている（Holt、2004; Charles et al。、2006）。この信念をもとに、オンライン確率的バッチ学習（OSBL）スキームが提案されています。

t期の終わりに、この期間の価格動きがトレーニングセットに追加されます。エージェントが期間t + 1の注文を完了した後、ポリシーネットワークは、このセットからNb個のランダムに選択されたミニバッチに対して訓練される。周期tb 6 t-nbで始まるバッチは幾何学的に分布した確率P（tb）で取り出され、

P（tb）=（1- - ）t-tb-nb、（26）


ここで、ε（0,1）は確率分布の形状を決定する確率減衰率であり、最近の市場事象の重要度はどれくらいであり、nbはミニバッチ内の期間数である。


## 6.実験

この時点までに開発されたツールは、暗号通貨交換Poloniex上の3つのポリシーネットワークのすべてで異なる時間枠の3回のバックテスト実験で検証されます。結果は、よく確立され、最近公表された多くのポートフォリオ選択戦略と比較されます。主に比較される財務指標は、ポートフォリオの価値、最大ドローダウン、シャープレシオです。

### 6.1テスト範囲

バックテスト実験の時間範囲およびその対応するトレーニングセットの詳細を表1に示す。クロスバリデーションセットを使用して、範囲もまた列挙するハイパーパラメータを決定する。テーブルのすべての時間は協定世界時（UTC）になっています。すべてのトレーニングセットは0時に開始します。たとえば、Back-Test 1のトレーニングセットは2014年11月1日00:00からです。すべての価格データは、Poloniexの公式Application Programming Interface（API）4を使用してアクセスします。

表1：ハイパーパラメータ選択（クロスバリデーション、CV）およびバックテスト実験の価格データ範囲。価格は30分でアクセスされます。クローズ価格はクロスバリデーションとバックテストに使用されますが、期間中の最高、最低、および終値はトレーニングに使用されます。訓練セットの出発点の時間は、それらが日の深夜に始まるので、与えられていない。すべての時刻はUTCです。

### 6.2性能測定

異なるメトリックは、特定のポートフォリオ選択戦略のパフォーマンスを測定するために使用されます。タイムスパンでのポートフォリオ管理の成功率の最も直接的な測定値は、累積ポートフォリオ価値（APV）、ptです。しかし、異なる初期値の2つの管理開始のPVを比較することは不公平です。したがって、ここでのAPVは、それらの初期値の単位、すなわちp0 = 1で測定され、したがって

pt = pt / p0である。 （27）


このユニットでは、APVは累積リターンに密接に関連しており、実際は後者とは1だけ異なっています。同じユニットでは、最終APV（fAPV）はバックテスト実験の最後のAPVであり、 pf = pf / p0 = ptf + 1 / p0となる。 APVの主な欠点は、これらのリターンの変動を考慮せずにすべての定期的なリターンを合計するだけであるため、リスク要因を測定しないことです。第2の指標であるシャープレシオ（Sharpe Ratio：SR）（Sharpe、1964,1994）を用いてリスクを考慮する。この比率はリスク調整平均リターンであり、リスクフリーリターンの偏差による平均として定義され、

S = Et [Δt-ΔF] qvart（Δt-ΔF）、（28）


ここで、Δtは（9）で定義された周期的リターンであり、ΔFはリスクフリー資産のリターン率である。これらの実験では、リスクフリーの資産はBitcoinです。引用された通貨もBitcoinであるため、リスクフリーのリターンはゼロです（ここでは？F = 0）。 SRはポートフォリオ価値のボラティリティを考慮するが、同様に上方および下方の動きを扱う。現実には、ボラティリティはプラスの利益に寄与するが、下方への損失は寄与する。下方偏差を強調するために、最大ドローダウン（MDD）（Magdon-Ismail and Atiya、2004）も考慮する。 MDDはピークからトラフまでの最大の損失であり、数学的には

D = max？> ttpt-p？ptである。 （29）


表2：3つのEIIE（同一の独立した評価者のアンサンブル）
Cryptocurrency Exchange Poloniexに関する3つの異なるバックテスト実験（UTC、表1に記載された詳細な時間範囲）におけるいくつかの伝統的なポートフォリオ選択戦略を使用している。パフォーマンスメトリクスは、最大ドローダウン（MDD）、初期ポートフォリオ額（pf / p0）単位の最終累積ポートフォリオ価値（fAPV）、およびシャープレシオ（SR）です。太字のアルゴリズムは、本書で紹介したEIIEネットワークであり、IIEの下線付き構造の名前を付けられています。たとえば、bRNNは、図3のEIIEであり、基本的なRNNエバリュエータを使用しています。著者（Jiang and Liang、2017）が提案した3つのベンチマーク（イタリック体）、統合CNN（iCNN）、最近レビューされた戦略（Li et al。、2015a、Li and Hoi、2014）表のアルゴリズムは、モデルフリーニューラルネットワーク、ベンチマーク、敗者追従戦略、勝者追従戦略、パターンマッチングまたはその他の5つのカテゴリに分類されます。各列の最高のパフォーマンスは太字で強調表示されています。 3つのEIIEはすべて、fAPVおよびSRカラムの他のすべてのアルゴリズムよりも大幅に優れており、ポートフォリオ管理の問題に対するEIIE機械学習ソリューションの収益性と信頼性を示しています。

### 6.3結果

現在の論文で提案されている3つのEIIEポリシーネットワークのパフォーマンスは、統合CNN（iCNN）（Jiang and Liang、2017）のものとよく比較されるか、または最近公開されたモデルベースの戦略と3つのベンチマークと比較されます。

3つのベンチマークは、ベスト・ストック、バックテスト期間中の最もfAPVの高い資産、UBAH（Uniform Buy and Hold）、ポートフォリオ管理のアプローチであり、単純に全ファンドを事前選択資産に広げ、 （Li and Hoi、2014）、統一定数均衡ポートフォリオ（UCRP）（Kelly、1956、Cover、1991）のように、

この研究で比較される戦略のほとんどは、Aniticor（Borodin et al。、2004）、Online Moving Average Reversion（OLMAR）などLi and Hoi（2014）によって調査された。
（Li et al。、2013）、オンラインニュートンステップ（ONS）（Agarwal et al。、2012）、PAMR（Li et al。、2012）、Confidence Weighted Mean Reversion（CWMR） （2006））、ユニバーサルポートフォリオ（UP）（Cover、1991）、指数勾配（EG）
（非特許文献2）、非線形最適化アルゴリズム（Helmboldら、1998）、ノンパラメトリックカーネルベースログ最適戦略（BK）（Gy¨orfiら、2006）、相関駆動ノンパラメトリック学習戦略（CORN）（Li et al。、2011） Borodin et al。、2000）、加重移動平均平均復帰（WMAMR）
（Gao and Zhang、2013）、ロバストメジアンリバージョン（RMR）（Huang et al。、2013）。

表2に、EIIEポリシーネットワークのパフォーマンススコアfAPV、SR、およびMDD、および表1にリストされた3つのバックテスト間隔の比較された戦略を示します。fAPVまたはSRの場合、テスト1と2はCNN EIIEであり、その最終的な富は最初の実験で次点の2倍以上です。すべてのバックテストでこの2つの尺度の上位3つの受賞者は、3つのEIIEネットワークによって占有されており、MDD測定のみが失われています。この結果は、現在のEIIE機械学習フレームワークの強力な収益性と一貫性を示しています。

fAPVのみを考慮すると、3つのEIIEすべてが3つのバックテストで最良のアセットよりも優れていますが、モデルベースの唯一のアルゴリズムはRMRです。バックテスト3の唯一の機会です。0.25％の高いコミッション率と比較的高い半分の取引頻度、多くの伝統的な戦略は悪いパフォーマンスを持っています。特に、バックテスト1では、すべてのモデルベースの戦略は、1未満のfAPVまたは同等に負のSRを有する負のリターンを有する。他方、EIIEは、異なる市場条件で20日間で少なくとも4倍の収益を達成することができます。

図5,6および7は、CNNおよびbRNN EIIEネットワーク、2つの選択されたベンチマーク、および2つのモデルベースの戦略について、それぞれ3つのバックテストにおけるAPVを時間に対してプロットしたものである。 ベンチマークベストストックとUCRPは、市場の2つの代表者です。 すべての3つの実験で、CNNとbRNN EIIEの両方がバックテスト全体を通じて市場を打ち負かしましたが、従来の戦略ではバックテスト3の後半とそれ以外の場所で簡単に実現できました。

## 7.結論

本稿では、一般的な財務ポートフォリオ管理の問題を解決するための拡張可能な強化学習枠組みを提案した。マルチチャネルの市場インプットに対応し、市場行動としてポートフォリオの重みを直接出力するために考案されたこのフレームワークは、異なるディープニューラルネットワークに適合することができ、ポートフォリオ規模で直線的に拡張可能です。このスケーラビリティと拡張性は、EIIEメタトポロジーの結果であり、低レベルのウェイト共有ニューラルネット構造の多くのタイプに対応できます。ポリシーネットワークを訓練する際に取引コストを考慮に入れるために、フレームワークはポートフォリオ管理エージェントが連続したアクション間の過大な調整から習得することを可能にしながら、多くの反復によって直面する勾配の消失問題を回避するPVMネットワーク。 PVMはまた、バッチ処理の中で並列訓練を可能にし、学習効率における反復的なアプローチを克服して、トランザクションコストの問題を解決する。さらに、OSBLスキームは、オンライン学習プロセスを管理するので、エージェントは取引中に絶えず入ってくる市場情報を絶えず消化することができます。最後に、エージェントは、補完報酬機能として蓄積された富を最大化することを目指して、完全に活用されている決定論的政策勾配法を使用して訓練された。


図5：バックテスト1：2016-09-07-4：00〜2016-10-28-8：00（UTC） CNNおよび基本RNN EIIE、ベストストック、UCRP、RMR、およびONSのバックテスト1の期間にわたる累積ポートフォリオ値（APV、pt / p0）がlog-10にプロットされています
ここでスケールする。 2つのEIIEは、全期間を通じてリードしており、引き続き少数のドローダウン事件でのみ成長しています。


この論文で示されているように、フレームワークの収益性は、調査された伝統的なポートフォリオ選択手法を上回ります。これは、暗号化市場での異なる期間にわたる3回のバックテスト実験の結果です。これらの実験では、CNN、基本RNN、LSTMという3つの異なる下線ネットワークを使用してフレームワークを実現しました。 3つのバージョンはすべて、最終的な累積ポートフォリオ価値が他の取引アルゴリズムよりも優れていました。 EIIEネットワークはまた、3つのテストすべてにおいてリスク調整スコアの上位3位を独占し、そのパフォーマンスにおけるフレームワークの一貫性を示しています。 EIIEのフレームワークがより原始的ないとこよりも大幅に改善されていることが証明された。

図6：バックテスト2：2016-12-08-4：00〜2017-01-28-8：00（UTC）、ログスケール累積weath。これは、EIIEの3回のバックテストで最悪の実験です。しかし、彼らは着実にテストの終わりまで登ることができます。

3つのEIIEネットワークの中で、LSTMはCNNと基本RNNよりもスコアがはるかに低かった。同じ枠組みの下での2つのRNN種間のパフォーマンスの大きな差は、金融市場におけるよく知られている秘密の指標となる可能性があり、その歴史は繰り返されます。バニラのRNNは、入力履歴を忘れることなく、より高い利回りのために価格運動の繰り返しパターンを利用するLSTMよりも能力があります。このギャップは、LSTMのハイパーパラメータの微調整の欠如によるものでもあります。実験では、基本的なRNNとLSTMの両方に同じ構造上のパラメータが使用されました。

バックテストでのEIIEフレームワークの成功にもかかわらず、将来の作業には改善の余地があります。現在の仕事の主な弱点は、ゼロ市場への影響とゼロスリップの前提です。市場への影響とスリップを考慮するために、実績のあるトレーディングの例がトレーニングデータとして大量に必要となります。貿易行動と市場反応を文書化するために、いくつかのプロトコルを発明する必要があります。これが達成されれば、現行バージョンの自動取引エージェントのライブ取引実験を記録することができます。将来のバージョンでは、この記録された履歴から市場への影響と滑りの原則を学ぶことができます。この作業のもう一つの欠点は、フレームワークが1つの市場でのみテストされていることです。その適応性をテストするためには、現在のバージョンとそれ以降のバージョンを、バックテストで調べて、より伝統的な金融市場で取引する必要があります。さらに、現在の賞の機能は、放棄されなければ、補強学習エージェントに長期的な市場反応の認識を含めるように修正されなければならない。これは、評論家ネットワークによって達成され得る。しかし、EIIEメタトポロジ、PVM、およびOSBLスキームを含む現在のフレームワークのバックボーンは、将来のバージョンで引き続き重要な役割を果たします。

図7：バックテスト3：2017-03-07-4：00〜2017-04-27-8：00（UTC）、ログスケール蓄積されたweath。すべてのアルゴリズムはこの実験の開始時に苦労して統合され、EIIEの両方がMの2つの大きなディップを経験する