## Joblib パッケージを用いた並列処理の例

- Scikit-Learn は内部で並列処理
- 大量のファイル等を扱う前処理では並列処理が有効な場合がある（かもしれない）


### MNISTの数字画像を個別の画像ファイルに保存

In [None]:
from sklearn.datasets import fetch_openml
import os, shutil
import matplotlib.pyplot as plt

# 保存用フォルダの消去・作成
DIR = 'MNIST'
try:
    shutil.rmtree(DIR)
except:
    pass
os.makedirs(DIR, exist_ok=True)

# MNISTデータの読み込み
X, _ = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)

In [None]:
from PIL import Image

def save_img_file(n):
    print('Converting X[{}]'.format(n), flush=True)
    x = X[n].reshape(28, 28)
    pil_img = Image.fromarray(x)
    pil_img.convert('L').save(DIR + '/X_{}.png'.format(n))

In [None]:
from joblib import Parallel, delayed

# 処理するファイル数
N = 20

# 並列処理
_ = Parallel(n_jobs=4)(delayed(save_img_file)(i) for i in range(N))

In [None]:
from random import randint
# 確認
n = randint(0, N)

# 元データから表示
plt.gray()
plt.axis("off")
plt.imshow(X[n].reshape(28, 28))
plt.show()

# 作成したファイルを読み出し、表示
png_img = Image.open(DIR + '/X_{}.png'.format(n))
plt.axis("off")
plt.imshow(png_img)