## Joblib パッケージを用いた並列処理の例

- Scikit-Learn は内部で並列処理
- 大量のファイル等を扱う前処理では並列処理が有効な場合がある（かもしれない）


### MNISTの数字画像を個別の画像ファイルに保存（手順の確認）

- まずは処理手順の確認
- 並列処理化は次のノートブック

In [None]:
from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt

# MNISTデータの読み込み
X, _ = fetch_openml('mnist_784', version=1, return_X_y=True, as_frame=False)

# 確認
X_0 = X[0].reshape(28, 28)
plt.gray()
plt.axis("off")
plt.imshow(X_0)

In [None]:
from PIL import Image

# PILデータに変換
pil_img = Image.fromarray(X_0)

# 確認
plt.axis("off")
plt.imshow(pil_img)

In [None]:
import os, shutil

# 保存用フォルダの消去・作成
DIR = 'MNIST'
try:
    shutil.rmtree(DIR)
except:
    pass
os.makedirs(DIR, exist_ok=True)

In [None]:
# ファイルに書き込み
# - convert('L'): PNGが必要とする mode （データ表現）に変換
# - save(): suffix (png) からフォーマットを判定
X_0_pngfile = DIR + '/X_0.png'
pil_img.convert('L').save(X_0_pngfile)

# 作成したファイルを読み出し、表示
png_img = Image.open(X_0_pngfile)
plt.axis("off")
plt.imshow(png_img)