何をやるのか:  
URL: https://bokeh.pydata.org/en/latest/docs/user_guide/quickstart.html#userguide-quickstart  
これを出来るところまでやる

目的:
* Bokehを使った対話型作図が出来るようになる
* Bokehで何がどこまで出来るのか把握する

これが出来ると何が嬉しいか:
* お客さんに「こいつ出来る」って思わせられる
* パラメーター調整が面倒な作図の手間を削減出来る

Bokehは  
* Bokeh.models(低レベル、自由度高)
* Bokeh.plotting(高レベル、自由度低)  

のAPIがある。  
今回のチュートリアルは、Bokeh.plottingを用いる。

# bokehのインストール
```bash
pip install bokeh
```

In [7]:
# アクティベート
import bokeh.plotting as bp

bp.output_notebook()

# とりあえず描画

In [8]:
# 折れ線グラフを描画する
from bokeh.plotting import figure, output_file, show

# データの作成
x = [1, 2, 3, 4, 5]
y = [6, 7, 2, 4, 5]

# 出力HTMLファイルパスを指定
output_file("outputs/lines.html")

# タイトルと軸ラベルを指定したプロットを定義
p = figure(title = "simple line example", x_axis_label = "x", y_axis_label = "y")

# プロットに判例と線の暑さを指定した折れ線グラフを追加
p.line(x, y, legend = "Temp", line_width = 2)

# 結果を描画
show(p)

出力したhtmlファイルを開けばいつでもグラフを見れる

bokeh.plottingの基本的な流れは
1. データの準備(list, numpy.array, pandas.Series, etc)
2. 出力先の指定(output_file("filepath")でhtml出力 or output_notebook()でnotebook埋め込み出力)
3. figure()を宣言
4. renderer(形式的なデータを適切なルールに従って描画するためのシステム)を宣言
5. 結果をshow()かsave()する

となっている。  
output_notebook()を宣言するときは、ノートブックの冒頭で宣言する必要がある。  
複数の図を描画したりフォーマットを整えたいときは、例えば以下のように調整する。

In [3]:
from bokeh.plotting import figure, output_file, show

# データの準備
x = [0.1, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0]
y0 = [i**2 for i in x]
y1 = [10**i for i in x]
y2 = [10**(i**2) for i in x]

# 出力先の指定
output_file("log_lines.html")

# figure()を宣言
p = figure(
    tools = "pan, box_zoom, reset, save",
    y_axis_type = "log",
    y_range = [10**(-3), 10**11],
    title = "log axis sample",
    x_axis_label = "sections",
    y_axis_label = "particles")

# rendererを追加
p.line(x, x, legend = "y = x")
p.circle(x, x, legend = "y = x", fill_color = "white", size = 8)
p.line(x, y0, legend = "y = x^2", line_width = 3)
p.line(x, y1, legend = "y = 10^x", color ="red")
p.circle(x, y1, legend = "y = 10^x", fill_color = "red", line_color = "red", size = 6)
p.line(x, y2, legend = "y = 10^x^2", line_color = "orange", line_dash = "4 4")

# 結果をshow()
show(p)

# Jupyter notebookとの連携について

BokehはJupyter notebookと連携している。  
特に、Jupyterを用いたBokehの対話的な描画については、[ここ](https://github.com/bokeh/bokeh/tree/master/examples/howto/notebook_comms)にある  
"Jupyter Interactors.ipynb", "Numba Image Example.ipynb"  
を実行してみるとよい。  

上記ファイルをGitHub上で開き、画面右側にある「Raw」ボタンのURLをコピーし、ターミナルで```wget COPIED_URL```と実行すれば、ローカル環境にipynbファイルをダウンロード出来る。  
後は、jupyter notebookを起動し、落としたファイルがあるディレクトリに移動し、クリックすれば実行できる。  

とはいえ、せっかくなので上記2ファイルの内容もまとめていく。

## Jupyter Interactions.ipynb  

BokehとIpython interactorを用いて、ローカル環境で動く対話型の描画をする方法例

In [1]:
# ライブラリの読み込み
from ipywidgets import interact
import numpy as np

from bokeh.io import push_notebook, show, output_notebook
from bokeh.plotting import figure

output_notebook()

In [2]:
# データの定義
x = np.linspace(0, 2*np.pi, 2000)
y = np.sin(x)

In [3]:
# figure()を宣言
p = figure(title = "simple line example",
           plot_height = 300,
           plot_width = 600,
           y_range = (-5, 5))

# rendererを追加
# ただp.line()とするのではなく、変数rに格納する
r = p.line(x, y, line_width = 3)

In [4]:
# グリグリ動かすボタンを作るには、Interactorを定義する
# 今回は、f, w, A, phiという4変数を動かすことで"r"と名付けたrendererを操作する
def update(f, w=1, A=1, phi=0):
    if  f == "sin": func = np.sin
    elif f == "cos": func = np.cos
    elif f == "tan": func = np.tan
    r.data_source.data['y'] = A * func(x * w + phi)
    push_notebook()

In [5]:
# 描画
show(p, notebook_handle = True) # notebook_handle = Trueにすると、後から描画内容を操作出来る

In [6]:
# interactorの実行
# []はプルダウンリスト、()はスライダー
interact(update, f = ["sin", "cos", "tan"], w = (0, 100), A = (0, 5), phi = (0, 20, 0.1))

<function __main__.update>

## Numba Image Example.ipynb

要は、  
@jitと@njitをnumpyの計算の前に宣言すると計算が早くなるよね  
計算が早くなると画像のフィルタリングなどの計算が一瞬で終わるよね  
Bokehでグリグリ動かしながらフィルターの掛かり具合を調整・可視化出来てカッケー  
というお話

# ベータ分布の描画

本題の、グリグリ動かせるベータ分布の描画コードを作成する。

ベータ分布とは確率密度関数が  

$$
Beta(\mu | a, b) = C_B(a, b) \mu^{a-1} (1 - \mu)^{b-1}
$$

という式になり、正の実数a, bを定義したときμ ∈ (0, 1)となるμの取りうる確率を生成してくれる分布  
ベルヌーイ分布や二項分布の共役事前分布として使われることが多い

ここで、Cは正規化項

$$
C_B(a, b) = \frac{\Gamma(a + b)}{\Gamma(a) \Gamma(b)}
$$

Γはガンマ関数といい、

$$
\Gamma(x) = \int t^{x-1} e^{-t}dt
$$

で表される。  
これは階乗(n!)を一般化したもので、

$$
\begin{split}
 \Gamma(x+1) &= x \Gamma(x) \\
 \Gamma(1) &= 1
\end{split}
$$

という性質より、自然数nに対しては

$$
\Gamma(n+1) = n!
$$

が成り立つ。

In [1]:
import numpy as np
import pandas as pd
from sympy import *
from ipywidgets import interact
from bokeh.io import push_notebook, show, output_notebook
from bokeh.plotting import figure, output_file

output_notebook()
# sym.init_printing() これ実行すると描画システムに影響を与えるので実行しない

[sympy](http://docs.sympy.org/latest/index.html)を使う  
numpyは数値配列(離散的なデータ)を扱うのに対し、sympyは数式を数式のまま扱ってくれる  
例えば、numpyは無理数に対して近似的な計算を行ってしまうが、sympyは無理数を無理数のままで計算するので、理論上誤差が発生しない  
詳細は[ここ](http://docs.sympy.org/latest/tutorial/intro.html#what-is-symbolic-computation)を参照

In [2]:
## データの定義
data_x_array = np.arange(0, 1, 0.01)
data_mu_array = np.arange(0, 1, 0.01)

def my_beta(data_a, data_b, data_mu):
    '''
    ベータ分布の確率密度関数
    a, bを設定した上で任意のmuを入れると、muがその値である確率を返す
    data_a: a > 0
    data_b: b > 0
    data_mu: 0 <= mu <= 1
    '''
    # sympyでは、変数に使うアルファベットをあらかじめ定義する
    # ここで使用したアルファベットを他の変数として使ってはならない
    a, b, t, x, mu = symbols('a b t x mu')
    
    # 関数の定義
    Gamma = Integral(t**(x - 1) * exp(-t), (t, 0, oo)) # ガンマ関数、この段階では積分を定義するだけで計算は行わない
    C = Gamma.subs(x, a + b) / (Gamma.subs(x, a) * Gamma.subs(x, b)) # ベータ分布の正規化項
    Beta = C * mu**(a - 1) * (1 - mu)**(b - 1) # ベータ分布の確率密度関数
    
    # a, bが与えられたときのmuの確率を計算
    prob = Beta.subs([(a, data_a), (b, data_b), (mu, data_mu)]).doit() # doit()は積分を計算するコマンド
    return np.float(prob)

data_prob_array = np.array([my_beta(1, 1, data_mu) for data_mu in data_mu_array]) # デフォルトではa=1, b=1の分布を描画する
# beta(a, b, mu)はsympy.core.numbers.NUMBERを返すので、floatに変換する必要がある

In [97]:
# アウトプットファイル
output_file("beta.html")

In [4]:
## figure()を宣言
p = figure(title = "Beta distribution",
          plot_height = 300,
          plot_width = 600,
          y_range = (0, 8))

In [5]:
## rendererを追加
r = p.line(data_x_array, data_prob_array, line_width = 3)

In [6]:
## interactorを定義
def update(data_a=1, data_b=1):
    r.data_source.data['y'] = np.array([my_beta(data_a, data_b, data_mu) for data_mu in data_mu_array])
    push_notebook()

In [7]:
## 描画
show(p, notebook_handle=True)

In [8]:
## interactorの実行
interact(update, data_a = (0, 20, 0.5), data_b = (0, 20, 0.5))

<function __main__.update>

In [16]:
show(p, notebook_handle=True)
interact(update, data_a = (0, 20, 0.5), data_b = (0, 20, 0.5))

<function __main__.update>

めっちゃ遅いけど一応動く

高速化したい  
そもそもなぜ遅いか: update関数の中で、yの値を更新するのにとても時間がかかっている  

解決策は2つ  
* numpyとか既存のbeta分布関数を使う
* あらかじめ全てのYを計算させておく  

出来ればリアルタイムに計算させたい  
なので、numpy.random.betaを使ってみる  
→scipy.stats.betaに変更

In [12]:
from scipy.stats import beta

In [13]:
beta.ppf(0.5, 0, 0)

nan

確率を返してくれた、これで大丈夫

In [14]:
def update_scipy(data_a = 1, data_b = 1):
    r.data_source.data['y'] = np.array([beta.pdf(data_mu, data_a, data_b) for data_mu in data_mu_array])
    push_notebook()

In [17]:
show(p, notebook_handle=True)
interact(update_scipy, data_a = (0.01, 50, 0.01), data_b = (0.01, 50, 0.01))

<function __main__.update_scipy>

書けた!!!