## Abstract

金融ポートフォリオ管理は、ファンドをさまざまな金融商品に定期的に再分配するプロセスです。本稿では、ポートフォリオ管理の問題に対する深層機械学習のソリューションを提供する、金融モデルのない強化学習フレームワークを紹介します。このフレームワークは、EQE（Ensemble Independent Evaluators）トポロジ、PVM（Portfolio-Vector Memory）、OSBL（Online Stochastic Batch Learning）スキーム、完全に活用される明示的な報酬機能で構成されています。このフレームワークは、畳み込みニューラルネットワーク（CNN）、基本リカレントニューラルネットワーク（RNN）、およびLong Short-Term Memory(LSTM）の3点で実現されています。彼らは、最近レビューまたは公開されたいくつかのポートフォリオ選択戦略とともに、暗号通貨テスト市場での30分の取引期間での3つのバックテスト実験で検証されています。暗号通貨は政府発行の金銭の電子的および分散的な代替手段で、暗号通貨の最もよく知られている例としてBitcoinを使用しています。フレームワークの3つのインスタンスはすべて、すべての実験において上位3つのポジションを独占し、他の比較取引アルゴリズムを凌駕しました。バックテストで0.25％の高い手数料率で、フレームワークは50日間で少なくとも4倍の利益を達成することができます。

Keywords: Machine learning; Convolutional Neural Networks; Recurrent Neural Networks;
Long Short-Term Memory; Reinforcement learning; Deep Learning; Cryptocurrency;
Bitcoin; Algorithmic Trading; Portfolio Management; Quantitative Finance

## 1. Introduction

これまでの価格予測を行わずに、アルゴリズム取引問題に対するモデルフリーおよび完全機械学習スキームのこれまでの成功した試みは、この問題を強化学習（RL）問題として扱っています。これらは、Moody and Saffell（2001）、Dempster and Leemans（2006）、Cumming（2015）、およびDengらによる最近の深層RL利用を含む。 （2017）。これらのRLアルゴリズムは、資産上の離散取引信号を出力する。単一資産取引に限定されているため、トレーディング・エージェントが複数の資産を管理する一般的なポートフォリオ管理の問題には適用できません。

深層RLは最近、ビデオゲーム（Mnih et al.,2015）とボードゲーム（Silver et al.,2016）の卓越した業績により、注目を集めています。これは離散的なアクション空間を持つRLの問題であり、アクションが連続しているポートフォリオ選択の問題に直接適用することはできません。離散的な行動には未知のリスクが伴うため、市場行動は離散化することができますが、離散化は大きな欠点とみなされます。例えば、市場の残りの部分にリスクを広げることなく、すべての資本を1つの資産に投資するという極端な個別行動を定義することができます。さらに、離散化はスケールをしづらくしてしまいます。総資産の数などの市場要因は、市場によって異なります。異なる市場での機械学習の適応性を十分に活用するためには、取引アルゴリズムをスケーラブルにする必要があります。Actor-Criticの一種であるDeterministic Policy Gradient Algorithmsという汎用的な連続深層RLフレームワークが最近導入されました（Silver et al.,2014; Lillicrap et al., 2016）。これらのActor-Criticアルゴリズムにおける連続的な出力は、ニューラルネットワーク近似の行動政策関数によって達成され、第2のネットワークは、報酬関数推定器として訓練されます。しかしながら、2つのニューラルネットワークをトレーニングすることは困難であり、時には不安定であることも分かっています。

本稿では、ポートフォリオ管理のために特別に設計されたRLフレームワークを提案します。フレームワークの中核は、Ensemble of Identical Independent Evaluators（EIIE）トポロジです。 IIEは、資産の履歴を検査し、潜在的な将来の成長を評価することを役割とするニューラルネットワークです。各資産の評価得点は、ポートフォリオ内の資産の意図的な重み変化のサイズによって割り引かれ、softmax層に入力され、その結果が今後の取引期間の新しいポートフォリオの重みとなります。ポートフォリオの重みは、RLエージェントの市場行動を定義します。重みが増加した資産は追加購入され、減量された資産は売却されます。市場のヒストリーデータとは別に、前回の取引期間のポートフォリオの重みもEIIEに入力されます。これは、RLエージェントが取引費用の利益への影響を検討するためです。このために、各期間のポートフォリオの重みはポートフォリオベクトルメモリ（PVM）に記録されます。 EIIEはオンライン確率的バッチラーニングスキーム（OSBL）で訓練されています。これは、バックテストやオンライントレード中のプレトレードトレーニングとオンライン取引の両方と互換性があります。RLフレームワークの報酬関数は、周期的な対数リターンの明示的な平均です。明示的な報酬機能を有するEIIEは、訓練中に、機能の勾配上昇方向に沿って進化します。この研究では3種類のIIEを用いてテストを行っています。畳み込みニューラルネットワーク（CNN）（Fukushima、1980; Krizhevsky et al.,2012; Sermanet et al.,2012） ）、単純なリカレントニューラルネットワーク（RNN）、Long Short Term Memory（LSTM）（Hochreiter and Schmidhuber、1997）です。

完全な機械学習アプローチであるため、フレームワークは特定の市場に限定されるものではありません。その有効性と収益性を検証するために、フレームワークは暗号通貨（バーチャルマネー、最も有名な例としてBitcoin）の取引市場Polonix.comでテストされています。一組のコインは、実験の直前の時間間隔に亘って取引量でランク付けされることによって予め選択される。よく分離されたタイムパンの3回のバックテスト実験が30分の取引期間内に実行される。 3つのEIIEの業績は、最近公表されたポートフォリオ選択戦略（Li et al.,2015, Li and Hoi, 2014）と比較されている。 EIIEは、3つの実験すべてにおいて他のすべての戦略を大幅に上回った

暗号化された通貨、あるいは単に暗号通貨は、政府発行の金銭の電子的かつ分散的な代替品です（Nakamoto、2008; Grinberg、2012）。最もよく知られている暗号通貨の例はBitcoinですが、Bitcoin（Bonneau et al.,2015）と競合する100以上の他の取引可能な暗号通貨があります。この競争の背景には、Bitcoinにいくつかの設計上の欠陥があり、人々がBitcoinに代わるものであることを期待して、これらの欠陥を克服するために新しいコインを発明しようとしているという点が挙げられます（Bentov et al.,2014; Duffield and Hagan、2014） 。しかし、多くの暗号通貨通信がBitcoinを打ち負かすためではなく、分散アプリケーションを開発するためにブロックチェーンテクノロジを使用する目的で作成されました。(たとえば、Ethereumはスマートな契約を結ぶ分散型プラットフォームで、Siacoinは分散型クラウドSiaでストレージサービスを購入して販売するための通貨です。) 2017年6月までに、すべての暗号通貨通貨の総市場資本は102億ドルであり、そのうち41億ドルはBitcoinである([Crypto-currency market capitalizations](http://coinmarketcap.com/))。したがって、設計上の欠陥にかかわらず、Bitcoinは依然として市場における支配的な暗号通貨です。そのため、他の多くの通貨は通常の貨幣で買うことはできませんが、Bitcoinに対してのみ取引されます。

暗号通貨の2つの性質は、それらの市場をアルゴリズムポートフォリオ管理実験の最善のテスト場にして、従来の金融資産と区別します。これらの性質は集中排除と開放性であり、前者は後者を意味します。中央規制当事者がなければ、入場要件の低い暗号通貨取引に誰も参加できます。 1つの直接的な結果は、小額通貨の豊富さです。これらのペニー市場の価格に影響を及ぼすためには、伝統的な市場と比較して投資額が少なくて済むでしょう。これにより、最終的に取引機は自らの市場行動によって影響を知り、活用することができます。オープン性とは、市場がよりアクセスしやすいということです。ほとんどの暗号通貨交換には、マーケットデータを取得し取引アクションを実行するためのアプリケーションプログラミングインターフェイスがあります。ほとんどの取引所は、取引の頻度を制限することなく24時間365日開いています。これらのノンストップ市場は、機械が実世界で短期間で学ぶのに理想的です。論文は次のように編成されています。セクション2では、このプロジェクトが解決しようとしているポートフォリオ管理の問題を定義します。セクション3では、資産の事前選択とその裏づけ、入力価格のテンソル、市場のヒストリーデータに欠けているデータを処理する方法を紹介します。セクション4ではポートフォリオ管理問題を言語RLで再記述します。セクション5は、EIIEメタトポロジー、PVM、OSBLスキームを提示します。 3つの実験の結果はセクション6でステージングされます。

## 2.問題の定義

ポートフォリオ管理は、資本を多数の金融資産に継続的に再配分する行為です。自動取引ロボットの場合、これらの投資決定および行動は定期的に行われます。このセクションでは、ポートフォリオ管理の問題の数学的設定について説明します。

### 2.1取引期間

この作業では、取引アルゴリズムは時間駆動であり、時間は等しい長さの期間\\( T \\)に分割されます。各期間の始めに、取引エージェントは資産間で資金を再配分します。この論文のすべての実験で\\( T = 30 \\)分です。資産の価格は一定期間内に上下するが、始値、高値、安値、終値の4つの重要な価格ポイントは、期間の全体的な動きを特徴づけます。（Rogers and Satchell, 1991）。継続的な市場については、ある期間における金融商品の開始価格は、前期からの終値です。バックテストの実験では、各期間の初めに資産をその期間の開始価格で購入または売却することができると仮定されています。そのような仮定の正当性はセクション2.4で与えられている。

### 2.2数学的理論

ポートフォリオは\\( m \\)個の資産で構成されています。すべての資産の終値は、期間\\( t \\)の価格ベクトル \\( {\boldsymbol v_t} \\)を構成します。言い換えれば、\\( {\boldsymbol v_t} \\)の\\( i \\)番目の要素\\( v_{i,t} \\)は、 \\( t \\)番目の期間の\\( i \\)番目の資産を表します。同様に、\\({\boldsymbol v^{(hi)}_t} \\)と\\({\boldsymbol v^{(lo)}_t} \\)は期間の最高値と最低値を示す。ポートフォリオの最初の資産は特別なもので、以下本稿では現金を指すものとします。すべての資産の価格は現金で表示されるので、\\(v^{(lo)}_{0,t} \\),\\({\boldsymbol v^{(hi)}_t} \\)およ\\(  v^{(lo)}_{0,t} \\)は常に1で、すなわち\\(v^{(hi)}_{0,t} = v^{(lo)}_{0,t} = v_{0,t} = 1,\forall t \\)です。この論文の実験では、現金はBitcoinです。連続市場では、\\(v^{(lo)}_{0,t} \\)の要素は、期間\\(t + 1 \\)の開始価格,および期間\\( t \\)。 \\( t \\)番目の取引期間の価格相対ベクトルは、\\( {\boldsymbol v_t} \\)を\\( {\boldsymbol v_{t-1}} \\)で要素ごとに除算したものとなります:

$$ y_t := v_t \oslash v_{t-1} = \biggl(1,\frac{v_{1,t}}{v_{1,t-1}},\frac{v_{2,t}}{v_{2,t-1}},...,\frac{v_{m,t}}{v_{m,t-1}} \biggr)^T \tag{1}$$

\\( y_t \\)の要素は、期間中の個々の資産の終値を始値で割った商です。 価格相対ベクトルは、ある期間におけるポートフォリオ全体の価値の変化を計算するために使用できます。 \\( p_{t-1} \\)が期間\\( t \\)の初めのポートフォリオ価値であり、取引コストを無視すると、

$$ p_t = p_{t-1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{2}$$

ここで\\( {\boldsymbol w}_{t-1} \\)は期間\\( t \\)の始めのポートフォリオ・ウェイト・ベクトル（以降ポートフォリオ・ベクトルと呼ぶ）です。ポートフォリオ・ベクトルの\\( i \\)番目の要素\\( w_{t-1,i} \\)は、資本再配分後のポートフォリオにおける資産\\( i \\)の割合です。\\( {\boldsymbol w}_t \\)の要素の合計は定義上常に1となります。つまり、\\( \sum_i w_{t,i} = 1、\forall t \\)です。 期間\\( t \\)の **収益率** は、

$$ \rho_t := \frac{p_t}{p_{t-1}} -1 = {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{3}$$

対応する対数リターン率は、

$$ r_t := \ln \frac{p_t}{p_{t-1}} -1 = \ln {\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} -1 \tag{4}$$

典型的なポートフォリオ管理問題では、初期ポートフォリオ重みベクトル\\( {\boldsymbol w}_0 \\)は、ユークリッド空間における第1の基底ベクトルであるように選択され、

$$ {\boldsymbol w}_0 = (1,0,...,0)^T  \tag{5} $$

市場に入る前にすべての資本が取引通貨であることを示しています。 取引コストがない場合、最終的なポートフォリオ価値は

$$ p_f = p_0 \exp \biggl( \sum_{t=1}^{t_f+1}r_t \biggr) = p_0 \prod_{t=1}^{t_f + 1}{\boldsymbol y}_t \cdot {\boldsymbol w}_{t-1} \tag{6} $$

ここで、\\( p_0 \\)は初期投資額です。 ポートフォリオマネージャの仕事は、特定の時間枠で\\( p_f \\)を最大化することです。

### 2.3 Transaction Cost

現実のシナリオでは、市場で資産を売買することは無料ではありません。 通常、手数料は手数料となります。 一定の手数料率を仮定すると、このセクションでは、Ormos and Urb'an（2013）による作業を拡張する再帰式を使用して、式（6）の最終ポートフォリオ値を再計算します。

期間\\( t \\)の始めのポートフォリオベクトルは\\( w_{t-1} \\)です。 同じ期間の終わりに、市場における価格の動きのために、ウェイトは

$$ {\boldsymbol w}'_t = \frac{{\boldsymbol y}_t \odot {\boldsymbol w}_{t-1}}{{\boldsymbol y} \cdot {\boldsymbol w}_{t-t}} \tag{7}$$

ここで、\\( \odot \\)は要素ごとの乗算です。 現在、期間\\( t \\)の終了時におけるポートフォリオマネージャの使命は、関連する資産を売買することによって、ポートフォリオベクトルを\\( w'_t \\)から\\( w_t \\)に再配分することです。 手数料をすべて支払うと、この再配分行動はポートフォリオの価値を係数\\( \mu_t \\)だけ縮小します(\\( \mu_t \in (0,1] \\))。これからはトランザクションの残りの要素と呼ばれます。 \\( \mu_t \\)は以下のとおりとする。 期間\\( t \\)の初めに\\( p_{t-1} \\)をポートフォリオの値とし、最後に\\( p'_t \\)とすると、

$$ p_t = \mu_tp'_t \tag{8}$$

(図は省略)
図1：トランザクション残余係数μtの効果の図。 価格相対ベクトルytで表される期間t中の市場の動きは、ポートフォリオ価値とポートフォリオの重みをpt-1とwt-1からp'tとw'tに変換する。 時間tにおける資産の売買行動は、ファンドをウェイトに再分配する。 副作用として、これらの取引は、ポートフォリオをptまでμt倍に縮小します。 期間tの収益率は、式（9）の2つの連続する期間の開始時のポートフォリオ値を使用して計算されます。

収益率（3）と対数収益率（4）は現在

（9）
（10）

式（6）の最終ポートフォリオ値は

（11）

式（10）、（11）において、取引コストを考慮しない式（4）、（2）と異なり、p '
t 6 = ptであり、2つの値の差はトランザクションの残りの要素が作用するところです。 図1は、ポートフォリオベクトルと値の間の関係、および時間軸上のそれらの動的関係を示しています。

残りの問題は、このトランザクション残余係数μtを決定することである。 w 'からのポートフォリオ再配分中に、
資産の一部または全部を売却する必要がある場合は、i> ptwt、iまたはw't、i>μtwt、iとする。 すべての売却によって得られた現金の総額は

(12)

（v）+ = ReLu（v）は要素単位の整流線形関数、（x）+ = xならx> 0、そうでなければ（x）+ = 0である。 。 このお金と元の現金予備金は、0は新しい準備をμtp 'twtを取り去った、0は新しい資産を購入するために使用されます]

（13）

0 6 cp < 1は購買手数料率であり、p'tは両側で相殺されている。 （a - b）+ - （b - a）+ = a - bを使用し、w 't、0 + mP i = 1 w' t、i = 1 = wt、0 + mP i = 1wt 式（13）は、

（14）

線形整流器内部のμtの存在は、解析的に解くことはできないが、反復的にしか解けないことを意味する。

####定理1 *

（15）

この収束はOrmos and Urb'an（2013）には述べられていないが、その証拠は付録Aに記載されている。この定理は、トランザクション残余係数μtを任意の精度で近似する方法を提供する。収束の速度は初期ゲストの誤差に依存する。小さい|μt - μ⊙|が速いほど、Sequence（15）はμtに収束します。 cp = cs = cのとき、cmPi = 1 | w't、i-wt、i |でμtを近似する練習がある（Moody et al。、1998）。したがって、この作品では、μ⊙はこれをシーケンスの最初の値として使用します。

 （16）

ニューラルネットワークの訓練では、固定されたk in（15）を有する〜μ（k）tが使用される。バックテスト実験では、許容誤差？ ~μ（k）t - ~μ（k-1）t <τとなるように、最初のkであるkを動的に決定する。
tを近似する。一般に、μtとその近似は、2つの最近の期間のポートフォリオベクトルと価格相対ベクトルの関数であり、

μt=μt（wt-1、wt、yt）。 （17）

この作業を通じて、非現金資産の売却と購入の両方に対して1つの一定の手数料率が使用され、cs = cp = 0.25％、Poloniexの最大率が使用されます。アルゴリズムエージェントの目的は、トランザクションコストを考慮して、（11）の累積資本を最大化するためにポートフォリオベクトル{w1、w2、···、wt、···}の時系列を生成することである。 

### 2.4 2つの仮説
この作業では、バック・トゥ・テスト取引は、市場史上のある時点で、将来の市場情報を知らずに時間を振って振り回して、それ以降の紙取引を行うようなふうに考えられています。バックテスト実験の要件として、以下の2つの仮定が課される。


1.ゼロスリップ：すべての市場資産の流動性が高いため、各取引は注文が発動された直前の価格で直ちに実行できる。

2.ゼロ市場への影響：ソフトウェア取引エージェントによって投資された資本はそれほど重要ではないため、市場に影響を与えません。実際の取引環境では、市場における取引量が十分に高い場合、これらの2つの仮定は現実に近いものです。



## 3.データ処理
取引実験はPoloniexの交換所で行われ、Poloniexでは約80
約65の利用可能な暗号化通貨を有する取引可能な暗号化対3。しかし、以下の理由から、1つの期間内に取引ロボットによってコインのサブセットのみが考慮される。コイン選択スキームは別として、このセクションでは、ニューラルネットワークが入力として受け取るデータ構造、正規化前処理、欠落データに対処するスキームについても説明します。

### 3.1資産事前選択
この論文の実験では、ポートフォリオのために大部分を占める非現金資産11件が事前に選択されています。現金と一緒に、Bitcoin、ポートフォリオのサイズm + 1は12です。この数は経験によって選択され、将来の実験で調整することができます。外国為替市場のように大量の市場では、mは利用可能な資産の総数と同じくらい大きくなる可能性があります。

トップボリュームの暗号化通貨（以下単にコインと呼ぶ）を選択する理由の1つは、資産の市場流動性が高まることを意味します。これは市場状況が第2.4節で設定された仮説1に近いことを意味する。仮説2に近い環境を構築することで、投資が市場に及ぼす影響は小さいと考えられます。日々の取引アルゴリズムに比べて比較的高い取引頻度（30分）を考えると、流動性と市場規模は特に重要です現在の設定。さらに、暗号侵害の市場は安定していません。これまでにめったに取引されていなかったコインや短期間に取引量が急激に増減することもあります。したがって、資産の事前選択のための量は、取引期間に比べてより長い時間枠である。これらの実験では、30日間の量が使用される。しかし、バックテスト実験でコイン選択のために最上位のボリュームを使用すると、生存バイアスが発生する可能性があります。資産の取引量はその人気に相関しており、その人気は過去の業績によって支配されています。今後の数量ランキングをバックテストにすると、必然的かつ間接的に将来の価格情報が実験に反映され、信頼性のない肯定的な結果が生じます。この理由から、バックテストの開始直前のボリューム情報は、事前選択のために取られ、生存バイアスを回避します。

### 3.2価格テンソル
過去の価格データは、ニューラルネットワークに供給され、ポートフォリオベクトルの出力を生成する。このサブセクションでは、入力テンソルの構造、正規化スキーム、および欠落データの処理方法について説明します。

期間tの終わりのニューラルネットワークへの入力は、形状（f、n、m）を有するランク3のテンソルXtであり、mは予め選択された非現金資産の数であり、nは入力期間の数tの前に、f = 3が特徴番号である。歴史の中でさらに後退した価格は最近のものよりも現在の瞬間との相関がずっと低いので、n = 50
（1日1時間）実験を行った。資産の選択の基準は第3.1項で与えられている。期間tの資産iの特徴は、その期間内の終値、最高価格、最低価格です。セクション2.2の表記法を使用して、これらはvi、t、v（hi）
i、t、およびv（lo）i、t。しかし、これらの絶対価格値はネットワークに直接供給されません。価格の変化のみがポートフォリオ管理（式（10））のパフォーマンスを決定するため、入力テンソルのすべての価格は最新の終値で正規化されます。したがって、Xtは3つの正規化価格行列の積み重ねであり、