## Abstract

金融ポートフォリオ管理は、ファンドをさまざまな金融商品に定期的に再分配するプロセスです。本稿では、ポートフォリオ管理の問題に対する深層機械学習のソリューションを提供する、金融モデルのない強化学習フレームワークを紹介します。このフレームワークは、EQE（Ensemble Independent Evaluators）トポロジ、PVM（Portfolio-Vector Memory）、OSBL（Online Stochastic Batch Learning）スキーム、完全に活用される明示的な報酬機能で構成されています。このフレームワークは、畳み込みニューラルネットワーク（CNN）、基本リカレントニューラルネットワーク（RNN）、およびLong Short-Term Memory(LSTM）の3点で実現されています。彼らは、最近レビューまたは公開されたいくつかのポートフォリオ選択戦略とともに、暗号通貨テスト市場での30分の取引期間での3つのバックテスト実験で検証されています。暗号通貨は政府発行の金銭の電子的および分散的な代替手段で、暗号通貨の最もよく知られている例としてBitcoinを使用しています。フレームワークの3つのインスタンスはすべて、すべての実験において上位3つのポジションを独占し、他の比較取引アルゴリズムを凌駕しました。バックテストで0.25％の高い手数料率で、フレームワークは50日間で少なくとも4倍の利益を達成することができます。

Keywords: Machine learning; Convolutional Neural Networks; Recurrent Neural Networks;
Long Short-Term Memory; Reinforcement learning; Deep Learning; Cryptocurrency;
Bitcoin; Algorithmic Trading; Portfolio Management; Quantitative Finance

## 1. Introduction

これまでの価格予測を行わずに、アルゴリズム取引問題に対するモデルフリーおよび完全機械学習スキームのこれまでの成功した試みは、この問題を強化学習（RL）問題として扱っています。これらは、Moody and Saffell（2001）、Dempster and Leemans（2006）、Cumming（2015）、およびDengらによる最近の深層RL利用を含む。 （2017）。これらのRLアルゴリズムは、資産上の離散取引信号を出力する。単一資産取引に限定されているため、トレーディング・エージェントが複数の資産を管理する一般的なポートフォリオ管理の問題には適用できません。

深層RLは最近、ビデオゲーム（Mnih et al.,2015）とボードゲーム（Silver et al.,2016）の卓越した業績により、注目を集めています。これは離散的なアクション空間を持つRLの問題であり、アクションが連続しているポートフォリオ選択の問題に直接適用することはできません。離散的な行動には未知のリスクが伴うため、市場行動は離散化することができますが、離散化は大きな欠点とみなされます。例えば、市場の残りの部分にリスクを広げることなく、すべての資本を1つの資産に投資するという極端な個別行動を定義することができます。さらに、離散化はスケールをしづらくしてしまいます。総資産の数などの市場要因は、市場によって異なります。異なる市場での機械学習の適応性を十分に活用するためには、取引アルゴリズムをスケーラブルにする必要があります。Actor-Criticの一種であるDeterministic Policy Gradient Algorithmsという汎用的な連続深層RLフレームワークが最近導入されました（Silver et al.,2014; Lillicrap et al., 2016）。これらのActor-Criticアルゴリズムにおける連続的な出力は、ニューラルネットワーク近似の行動政策関数によって達成され、第2のネットワークは、報酬関数推定器として訓練されます。しかしながら、2つのニューラルネットワークをトレーニングすることは困難であり、時には不安定であることも分かっています。

本稿では、ポートフォリオ管理のために特別に設計されたRLフレームワークを提案します。フレームワークの中核は、Ensemble of Identical Independent Evaluators（EIIE）トポロジです。 IIEは、資産の履歴を検査し、潜在的な将来の成長を評価することを役割とするニューラルネットワークです。各資産の評価得点は、ポートフォリオ内の資産の意図的な重み変化のサイズによって割り引かれ、softmax層に入力され、その結果が今後の取引期間の新しいポートフォリオの重みとなります。ポートフォリオの重みは、RLエージェントの市場行動を定義します。重みが増加した資産は追加購入され、減量された資産は売却されます。市場のヒストリーデータとは別に、前回の取引期間のポートフォリオの重みもEIIEに入力されます。これは、RLエージェントが取引費用の利益への影響を検討するためです。このために、各期間のポートフォリオの重みはポートフォリオベクトルメモリ（PVM）に記録されます。 EIIEはオンライン確率的バッチラーニングスキーム（OSBL）で訓練されています。これは、バックテストやオンライントレード中のプレトレードトレーニングとオンライン取引の両方と互換性があります。RLフレームワークの報酬関数は、周期的な対数リターンの明示的な平均です。明示的な報酬機能を有するEIIEは、訓練中に、機能の勾配上昇方向に沿って進化します。この研究では3種類のIIEを用いてテストを行っています。畳み込みニューラルネットワーク（CNN）（Fukushima、1980; Krizhevsky et al.,2012; Sermanet et al.,2012） ）、単純なリカレントニューラルネットワーク（RNN）、Long Short Term Memory（LSTM）（Hochreiter and Schmidhuber、1997）です。

完全な機械学習アプローチであるため、フレームワークは特定の市場に限定されるものではありません。その有効性と収益性を検証するために、フレームワークは暗号通貨（バーチャルマネー、最も有名な例としてBitcoin）の取引市場Polonix.comでテストされています。一組のコインは、実験の直前の時間間隔に亘って取引量でランク付けされることによって予め選択される。よく分離されたタイムパンの3回のバックテスト実験が30分の取引期間内に実行される。 3つのEIIEの業績は、最近公表されたポートフォリオ選択戦略（Li et al.,2015, Li and Hoi, 2014）と比較されている。 EIIEは、3つの実験すべてにおいて他のすべての戦略を大幅に上回った

暗号化された通貨、あるいは単に暗号通貨は、政府発行の金銭の電子的かつ分散的な代替品です（Nakamoto、2008; Grinberg、2012）。最もよく知られている暗号通貨の例はBitcoinですが、Bitcoin（Bonneau et al.,2015）と競合する100以上の他の取引可能な暗号通貨があります。この競争の背景には、Bitcoinにいくつかの設計上の欠陥があり、人々がBitcoinに代わるものであることを期待して、これらの欠陥を克服するために新しいコインを発明しようとしているという点が挙げられます（Bentov et al.,2014; Duffield and Hagan、2014） 。しかし、多くの暗号通貨通信がBitcoinを打ち負かすためではなく、分散アプリケーションを開発するためにブロックチェーンテクノロジを使用する目的で作成されました。(たとえば、Ethereumはスマートな契約を結ぶ分散型プラットフォームで、Siacoinは分散型クラウドSiaでストレージサービスを購入して販売するための通貨です。) 2017年6月までに、すべての暗号通貨通貨の総市場資本は102億ドルであり、そのうち41億ドルはBitcoinである([Crypto-currency market capitalizations](http://coinmarketcap.com/))。したがって、設計上の欠陥にかかわらず、Bitcoinは依然として市場における支配的な暗号通貨です。そのため、他の多くの通貨は通常の貨幣で買うことはできませんが、Bitcoinに対してのみ取引されます。

暗号通貨の2つの性質は、それらの市場をアルゴリズムポートフォリオ管理実験の最善のテスト場にして、従来の金融資産と区別します。これらの性質は集中排除と開放性であり、前者は後者を意味します。中央規制当事者がなければ、入場要件の低い暗号通貨取引に誰も参加できます。 1つの直接的な結果は、小額通貨の豊富さです。これらのペニー市場の価格に影響を及ぼすためには、伝統的な市場と比較して投資額が少なくて済むでしょう。これにより、最終的に取引機は自らの市場行動によって影響を知り、活用することができます。オープン性とは、市場がよりアクセスしやすいということです。ほとんどの暗号通貨交換には、マーケットデータを取得し取引アクションを実行するためのアプリケーションプログラミングインターフェイスがあります。ほとんどの取引所は、取引の頻度を制限することなく24時間365日開いています。これらのノンストップ市場は、機械が実世界で短期間で学ぶのに理想的です。論文は次のように編成されています。セクション2では、このプロジェクトが解決しようとしているポートフォリオ管理の問題を定義します。セクション3では、資産の事前選択とその裏づけ、入力価格のテンソル、市場のヒストリーデータに欠けているデータを処理する方法を紹介します。セクション4ではポートフォリオ管理問題を言語RLで再記述します。セクション5は、EIIEメタトポロジー、PVM、OSBLスキームを提示します。 3つの実験の結果はセクション6でステージングされます。

## 2.問題の定義

ポートフォリオ管理は、資本を多数の金融資産に継続的に再配分する行為です。自動取引ロボットの場合、これらの投資決定および行動は定期的に行われます。このセクションでは、ポートフォリオ管理の問題の数学的設定について説明します。

### 2.1取引期間

この作業では、取引アルゴリズムは時間駆動であり、時間は等しい長さの期間\\( T \\)に分割されます。各期間の始めに、取引エージェントは資産間で資金を再配分します。この論文のすべての実験で\\( T = 30 \\)分です。資産の価格は一定期間内に上下するが、始値、高値、安値、終値の4つの重要な価格ポイントは、期間の全体的な動きを特徴づけます。（Rogers and Satchell1991）。継続的な市場については、ある期間における金融商品の開始価格は、前期からの終値です。バックテストの実験では、各期間の初めに資産をその期間の開始価格で購入または売却することができると仮定されています。そのような仮定の正当性はセクション2.4で与えられている。

### 2.2数学的理論

ポートフォリオは\\( m \\)個の資産で構成されています。すべての資産の終値は、期間\\( t \\)の価格ベクトル \\( {\boldsymbol v_t} \\)を構成します。言い換えれば、\\( {\boldsymbol v_t} \\)の\\( i \\)番目の要素\\( v_{i,t} \\)は、 \\( t \\)番目の期間の\\( i \\)番目の資産を表します。同様に、\\({\boldsymbol v^{(hi)}_t} \\)と\\({\boldsymbol v^{(lo)}_t} \\)は期間の最高値と最低値を示す。ポートフォリオの最初の資産は特別なもので、以下本稿では現金を指すものとします。すべての資産の価格は現金で表示されるので、\\(v^{(lo)}_{0,t} \\),\\({\boldsymbol v^{(hi)}_t} \\)およ\\(  v^{(lo)}_{0,t} \\)は常に1で、すなわち\\(v^{(hi)}_{0,t} = v^{(lo)}_{0,t} = v_{0,t} = 1,\forall t \\)です。この論文の実験では、現金はBitcoinです。連続市場では、\\(v^{(lo)}_{0,t} \\)の要素は、期間\\(t + 1 \\)の開始価格,および期間\\( t \\)。 \\( t \\)番目の取引期間の価格相対ベクトルは、\\( {\boldsymbol v_t} \\)を\\( {\boldsymbol v_{t-1}} \\)で要素ごとに除算したものとなります:

