CNNは畳み込み演算を含むため、計算量が多くなる傾向があります。Google Colaboratoryで実行する際には、GPUを利用するようにランタイムのタイプを変更しておきましょう。今回の例では、CPUだけでは1時間程かかりますが、GPUを使うことで8分程度で終わるようになります。

mnistのデータを読み込みます。

In [None]:
import tensorflow as tf
mnist = tf.keras.datasets.mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()

数値を [0, 1] に正規化します。

In [None]:
training_images  = training_images / 255.0
test_images = test_images / 255.0

CNNのモデルを作成します。

In [None]:
model = tf.keras.models.Sequential()
model.add(tf.keras.layers.Input(shape=(28, 28, 1)))
model.add(tf.keras.layers.Conv2D(64, kernel_size=(3, 3), activation='relu'))
model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2)))
model.add(tf.keras.layers.Conv2D(32, kernel_size=(3, 3), activation='relu'))
model.add(tf.keras.layers.MaxPooling2D(pool_size=(2, 2)))
model.add(tf.keras.layers.Flatten())
model.add(tf.keras.layers.Dense(units=10, activation='softmax'))

compile()によって訓練方法を設定します。

In [None]:
model.compile(optimizer = tf.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])

訓練します。CNNは畳み込み演算を含むため、計算量が多く、時間がかかります。verbose=1として途中経過を少し表示し、終了時刻を見積もれるようにしています。

In [None]:
train_hist=model.fit(training_images, training_labels, epochs=50, verbose=1,
                     validation_data=(test_images, test_labels), batch_size=128)

学習曲線をプロットします。

In [None]:
import matplotlib.pyplot as plt
import numpy as np
figs, axs=plt.subplots(1, 2, figsize=(12, 4))
axs[0].plot(train_hist.history['loss'], label='training')
axs[0].plot(train_hist.history['val_loss'], label='validation')
axs[0].legend()
axs[0].set_xlabel('Epoch')
axs[0].set_ylabel('Loss')
axs[1].plot(train_hist.history['accuracy'], label='training')
axs[1].plot(train_hist.history['val_accuracy'], label='validation')
axs[1].legend()
axs[1].set_xlabel('Epoch')
axs[1].set_ylabel('Accuracy')
plt.show()

最終的な検証用の損失と精度を数値で確認しておきます。

In [None]:
model.evaluate(test_images, test_labels)

モデルのパラメータ数などを確認します。

In [None]:
model.summary()