# パイプライン
このNotebookは、[TUTORIAL2 Pipeline](https://www.quantopian.com/tutorials/pipeline) の、[Crateing a Pipelne](https://www.quantopian.com/tutorials/pipeline#lesson2) をベースに、今回の勉強会に沿った形で展開しています。

## はじめに
「基本的なアルゴリズムの枠組み」において、

* 「稼働したタイミングにおけるマーケットのデータを取得する」
* 「取得したデータを元にシグナルを計算」

というフローが出てきました。Quantopianにおいて、この２つの処理を担当するのが、「パイプライン」という機能です。
これまで過去数回、Quantopianハンズオンに参加された方にとってはすでにおなじみかもしれませんが、Quantopianに初めて挑戦される方もいらっしゃると思いますので、かんたんにおさらいします。


### パイプラインの実行に最低限必要なパッケージのインポート

パイプラインを作って、動かすのに最低限必要なパッケージをインポートします。
なお、run_pipelineは、notebook上でPipelineを動かす際に必要なもので、AlgorithmでPipelineを作成する際にはimportする必要はありません（Algorithm自体の機能として期間を指定して実行する機能が備わっているため）。


In [None]:
from quantopian.pipeline import Pipeline
from quantopian.research import run_pipeline # Algorithmを作成する際は不要。

### パイプラインのインスタンスを作成する関数の定義

「インスタンス」という言葉はプログラミング用語であり、金融用語ではありません。
Quantopianが用意したPipelineを、このNotebookで実際に使えるようにしたもの、と考えればよいと思います。

インスタンスを作成する関数"make_pipeline"を定義します。

In [None]:
# パイプラインのインスタンスを作成する関数を定義
def make_pipeline():
    return Pipeline()


In [None]:
# パイプラインのインスタンスを作成し、"my_pipe" という変数にセット
my_pipe = make_pipeline()

### パイプラインの実行

「Algorithm」画面の右側には、バックテスト期間を指定する入力エリアが存在し、またバックテストを実行するためのボタンが存在しますが、このNotebookには存在しません。
Notebook上で動作期間を指定して、パイプラインを実行するための機能が、run_pipeline()という関数です。

run_pipelineの引数（入力）として、「実行したいパイプライン」、「動作開始日」、「動作終了日」を指定して実行を行うと、pipelineの実行結果を出力します。


In [None]:
result = run_pipeline(my_pipe, '2018-11-01', '2018-11-01')
result

先程の例では、開始日と終了日が同一日でした。今度は、終了日を翌日にして結果を見てみましょう。

In [None]:
result = run_pipeline(my_pipe, '2018-11-01', '2018-11-02')
result

### 【まとめ】デフォルトのパイプラインを実行したときの出力結果
行数が二倍になり、日付が2015-11-01と、2018-11-02の２つになりました。
ここまでの結果から、デフォルトのパイプラインを実行したときに得られる結果として、以下のことが言えると思います。


* ユニバースとして何も指定しないと、8000種類近くの銘柄がユニバース（投資対象）として選択される
* 営業日を複数日指定すると、行要素が営業日分増加する
* デフォルト状態の返り値には、列データが存在しない（ 0 Columns）
* パイプラインの帰り値は、PandasのDataframeが出力される。

つまり、パイプラインを作成することとは、

* より現実的なユニバースを何らかの方法を使って選択する。
* 絞り込まれたユニバースに対し、データ取得を実行
* シグナルを計算し、返り値となるDataframeの列データとして格納する

という操作を実行することです。resultとして渡されたDataframeは、「営業日-銘柄」をインデックスとしてアクセス可能になります。

最後にちょっとしたハンズオンです。試してみてください。

In [None]:
# 開始日と終了日の間に休場日が含まれていた場合、Datasetはどのように返ってくるか？

result = run_pipeline(my_pipe, 'yyyy-mm-dd', 'yyy-mm-dd')
result