## Joblib パッケージを用いた並列処理

### 複数プロセスの生成

- 複数のプロセスからなるプロセスプール（ワーカプロセス）を作成
- プロセスで関数を実行、結果を受け取る

In [None]:
from joblib import Parallel, delayed
from random import randint
import os

# 子プロセスに実行させる関数
# - print に flush=True を付けないと（すぐに）出力されない
def do_some_work(pid, n):
    print('pid({}) Process #{} work({})'.format(os.getpid(), pid, n), flush=True)
    return (pid, sum(range(1, n + 1)))

# 複数プロセスの生成
# - n_jobs: 生成するプロセス数
#   - 生成されたプロセスは再利用（セルを何度か実行しても、また別のセルでも、同じプロセスIDが表示される）
# - delayed: Parallelの引数を生成するジェネレータを作成する関数
#   - randint(100, 10000) を do_some_work() 内に置くと、全て同じ値になってしまう
Parallel(n_jobs=4)(delayed(do_some_work)(i, randint(100, 10000)) for i in range(10))

In [None]:
# 分解して以下のように記述も可能
# - multiprocessing での記述と類似

# プロセスプールの作成
p = Parallel(n_jobs=4)

# ジェネレータを作成する関数
f = delayed(do_some_work)

# ジェネレータを作成
args = (f(i, randint(100, 10000)) for i in range(10))

# args をプロセスに割り当て実行
p(args)

### デバッグ用出力

In [None]:
# Parallel の引数
# - verbose: 11 より大きくするとすべてのログを出力
Parallel(n_jobs=4, verbose=11)(delayed(do_some_work)(i, randint(100, 10000)) for i in range(10))