# 機械学習の自動化

このノートブックでは、MNISTの数字データセットを用いて、Auto MLを紹介します。今回は、Auto MLのパッケージとして、以下の2つを使います。

- TPOT
- Auto Keras

## TPOTを用いたAuto ML

TPOTは、遺伝的プログラミングを用いて機械学習パイプラインを最適化するためのツールです。以下の図の灰色で囲まれた部分のプロセスである特徴選択やモデル選択を自動化する機能を備えています。

![](https://github.com/EpistasisLab/tpot/raw/master/images/tpot-ml-pipeline.png)

### パッケージのインストール

In [1]:
!pip install -q scikit-learn==0.23.2 tpot==0.11.7

[K     |████████████████████████████████| 6.8 MB 5.4 MB/s 
[K     |████████████████████████████████| 87 kB 3.2 MB/s 
[K     |████████████████████████████████| 166.7 MB 10 kB/s 
[K     |████████████████████████████████| 160 kB 43.7 MB/s 
[?25h  Building wheel for stopit (setup.py) ... [?25l[?25hdone


### インポート

In [2]:
from tpot import TPOTClassifier
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split

### データセットの読み込み

今回は、データセットとして、手書き数字の画像データセットであるMNISTを利用します。したがって、画像の分類問題を解くことになります。

In [3]:
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(
    digits.data,
    digits.target,
    train_size=0.75,
    test_size=0.25
)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((1347, 64), (450, 64), (1347,), (450,))

### 学習

MNISTでは分類問題を扱うので、`TPOTClassifier`を用意します。回帰問題を扱う場合は、`TPOTRegressor`を使います。

`population_size`は、世代ごとに遺伝的プログラミング集団に保持する個体数を表しています。基本的に、大きいほうが性能は高くなります。また、`max_time_mins`で学習の最大時間を設定しています。これら以外の引数については、以下のドキュメントを御覧ください。

- [TPOT API](http://epistasislab.github.io/tpot/api/)

In [4]:
tpot = TPOTClassifier(
    verbosity=2,
    max_time_mins=10,
    population_size=40,
    random_state=2021
)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))

Optimization Progress:   0%|          | 0/40 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: 0.9829299187663499

10.65 minutes have elapsed. TPOT will close down.
TPOT closed during evaluation in one generation.


TPOT closed prematurely. Will use the current best pipeline.

Best pipeline: KNeighborsClassifier(input_matrix, n_neighbors=1, p=1, weights=distance)
0.9777777777777777


ベストなパイプラインと正解率が表示されています。

## Auto-Kerasを用いたAuto ML

### パッケージのインストール

In [5]:
!pip install autokeras==1.0.16 tensorflow==2.4.0

Collecting autokeras==1.0.16
  Downloading autokeras-1.0.16-py3-none-any.whl (166 kB)
[K     |████████████████████████████████| 166 kB 5.2 MB/s 
[?25hCollecting tensorflow==2.4.0
  Downloading tensorflow-2.4.0-cp37-cp37m-manylinux2010_x86_64.whl (394.7 MB)
[K     |████████████████████████████████| 394.7 MB 17 kB/s 
[?25hCollecting keras-tuner>=1.0.2
  Downloading keras_tuner-1.0.4-py3-none-any.whl (97 kB)
[K     |████████████████████████████████| 97 kB 7.2 MB/s 
Collecting tensorflow-estimator<2.5.0,>=2.4.0rc0
  Downloading tensorflow_estimator-2.4.0-py2.py3-none-any.whl (462 kB)
[K     |████████████████████████████████| 462 kB 48.1 MB/s 
Collecting grpcio~=1.32.0
  Downloading grpcio-1.32.0-cp37-cp37m-manylinux2014_x86_64.whl (3.8 MB)
[K     |████████████████████████████████| 3.8 MB 37.6 MB/s 
Collecting gast==0.3.3
  Downloading gast-0.3.3-py2.py3-none-any.whl (9.7 kB)
Collecting h5py~=2.10.0
  Downloading h5py-2.10.0-cp37-cp37m-manylinux1_x86_64.whl (2.9 MB)
[K     |████████

### インポート

In [6]:
import warnings

import autokeras as ak
from tensorflow.keras.datasets import mnist

warnings.filterwarnings("ignore")

### 学習データの読み込み

In [7]:
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(x_train.shape)
print(y_train.shape)
print(y_train[:3])

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz
(60000, 28, 28)
(60000,)
[5 0 4]


### モデルの学習

`ImageClassifier`で画像の分類器を初期化しています。また、`max_trials`で試すモデルの数を指定しています。時間がかかるので、今回は2にしています。

In [8]:
clf = ak.ImageClassifier(max_trials=2)
clf.fit(x_train, y_train, epochs=3)

Trial 2 Complete [00h 55m 14s]
val_loss: 0.36572402715682983

Best val_loss So Far: 0.045847151428461075
Total elapsed time: 00h 56m 35s
INFO:tensorflow:Oracle triggered exit
Epoch 1/3
Epoch 2/3
Epoch 3/3
INFO:tensorflow:Assets written to: ./image_classifier/best_model/assets


<tensorflow.python.keras.callbacks.History at 0x7f62f8e90c90>

In [9]:
# ラベルの予測
predicted_y = clf.predict(x_test)
print(predicted_y)

[['7']
 ['2']
 ['1']
 ...
 ['4']
 ['5']
 ['6']]


In [11]:
# 評価
_, acc = clf.evaluate(x_test, y_test)
acc



0.9847999811172485