In [1]:
import tensorflow as tf

In [2]:
tf.__version__

'2.4.1'

MNISTデータセット（手書き文字）をロード。サンプルを整数から浮動小数点数に変換。

In [3]:
tf.keras.backend.set_floatx('float64')

In [4]:
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255.0, x_test / 255.0

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


層を積み重ねて`tf.keras.Sequential`モデルを構築。訓練のための**オプティマイザ**と**損失関数**を選択。

ReLU
$$
f(x) = \left\{
\begin{array}{ll}
0 & x \leq 0 \\
x & x > 0
\end{array}\right.
$$

$$
f'(x) = \left\{
\begin{array}{ll}
0 & x \leq 0 \\
1 & x > 0
\end{array}\right.
$$

- 平にする層（`Flatten()`）：入力値を1次元ベクトルにする。
- 普通の層（`Dense(units)`）：$\vec{x_{out}} = f(W \vec{x_{in}} + \vec{b})$を計算する。$f(\cdot)$は活性化関数、$W$は重み行列、$\vec{x_{in}}$は入力ベクトル、$\vec{b}$はバイアスベクトルを表す。`units`は出力ベクトルの値の数（ノード数）を表す。
- ドロップアウト層（`Dropout(rate)`）：出力を与えられた確率で0にする。一部のデータが欠損していても正しく認識ができるようになる。これにより、画像の一部の局所特徴が過剰に評価されてしまうのを防ぎ、モデルのロバストさを向上させることができます。

In [5]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Flatten(input_shape=(28, 28)),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10)
])

`model`はそれぞれの標本についてクラスごとに**ロジット**や**対数オッズ比**と呼ばれるスコアを算出する。

- オッズ：ある事象の起こる確率 $p$ と起こらない確率 $1 − p$ との比 $p / (1 − p)$ のこと。（成功回数）／（失敗回数）
- ロジット：オッズの対数値

In [6]:
predictions = model(x_train[:1]).numpy()
predictions

array([[ 0.09289226, -0.37868353, -0.65236805,  0.65894349, -0.09873008,
        -0.15449719,  0.13402049, -0.1240976 ,  1.38838583,  0.02897097]])

`tf.nn.softmax`関数はクラスごとにこれらのロジットを確率に変換する。

softmax function ($i = 1, 2, \ldots, n$)
$$
y_i = \frac{e^{x_i}}{\sum_{k=1}^{n} e^{x_k}}
$$

$$
\frac{\partial y_i}{\partial x_j} = \left\{
\begin{array}{ll}
y_i(1-y_j) & (i = j) \\
-y_j y_i & (i \neq j)
\end{array}
\right.
$$

In [7]:
tf.nn.softmax(predictions).numpy()

array([[0.08400408, 0.05242007, 0.03986924, 0.14795625, 0.06935533,
        0.06559346, 0.08753105, 0.06761809, 0.30684998, 0.07880245]])

損失関数（出力値と正解値との差（距離））`losses.SparseCategoricalCrossentropy`：

ラベルの種類が二つ以上ある場合に使う交差エントロピー関数（教師ラベルは整数値とする）。推定値は各ラベルに当てはまりうる確率を示したベクトル。
$$
H(p, q) = -\sum_{x} p(x) log(q(x))
$$
$p$は真の確率分布、$q$は推定した確率分布。`y_true`は標本数分のラベルのリスト、`y_pred`は(標本数)$\times$(ラベルの種類数)分の確率分布行列。それぞれの標本についてクラスごとに損失のスカラーを出力。

In [8]:
loss_fn = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)

この損失は、クラスが正しい確率の対数をとって符号を反転させたもの。この値はモデルがこのクラスが正しいと確信している場合 0 。

この訓練されていないモデルはランダムに近い確率 (それぞれのクラスについて 1/10) を出力、最初の損失は `-tf.log(1/10) ~= 2.3` に近い値になるはず。

In [9]:
loss_fn(y_train[:1], predictions).numpy()

2.7242794036865234

- `optimizer`：最適化手法（[tf.keras.optimizers](https://www.tensorflow.org/api_docs/python/tf/keras/optimizers)）
- `loss`：損失関数（[tf.keras.losses](https://www.tensorflow.org/api_docs/python/tf/keras/losses)）
- `metrics`：学習、テストの時に評価、出力される関数（[tf.keras.metrics](https://www.tensorflow.org/api_docs/python/tf/keras/metrics)）

In [10]:
model.compile(optimizer='adam',
              loss=loss_fn,
              metrics=['accuracy'])

`Model.fit` メソッドは損失を最小化するようにモデルのパラメータを調整する。

In [11]:
model.fit(x_train, y_train, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x15b872a30>

`Model.evaluate` メソッドはモデルの性能を検査する。

これには通常 "検証用データセット" または "テストデータセット" を用いる。

In [12]:
model.evaluate(x_test,  y_test, verbose=2)

313/313 - 0s - loss: 0.0775 - accuracy: 0.9761


[0.07748798452601768, 0.9761]

この画像識別機はこのデータセットに対して約98%の正解率まで学習できる。

モデルが確率を返すようにしたい場合、モデルをラップしてソフトマックス関数を適用

In [13]:
probability_model = tf.keras.Sequential([
    model,
    tf.keras.layers.Softmax()
])

In [14]:
probability_model(x_test[:5])

<tf.Tensor: shape=(5, 10), dtype=float64, numpy=
array([[7.45544713e-08, 3.86287482e-09, 1.00244100e-05, 9.73754622e-05,
        7.73021815e-12, 2.52878693e-08, 6.47750337e-13, 9.99889761e-01,
        3.67256859e-07, 2.36817769e-06],
       [4.14895878e-07, 5.32810039e-03, 9.94102378e-01, 5.65695862e-04,
        1.56106158e-15, 9.63478897e-07, 8.72950515e-07, 2.98004907e-13,
        1.57399113e-06, 9.31440841e-16],
       [1.12440131e-06, 9.98166822e-01, 4.39683345e-04, 8.43080414e-05,
        3.65103101e-05, 3.63846639e-06, 1.43752165e-05, 1.17299706e-03,
        8.01319927e-05, 4.09624783e-07],
       [9.99523579e-01, 2.55529852e-08, 1.61948760e-04, 3.58649148e-06,
        1.74530171e-07, 4.06585875e-05, 2.68559560e-04, 8.59589440e-07,
        7.18570461e-08, 5.35986188e-07],
       [2.86159605e-05, 7.47462424e-09, 8.99447755e-05, 1.94458120e-07,
        9.86593640e-01, 5.34623196e-05, 3.96779279e-05, 2.16359194e-04,
        6.68402505e-05, 1.29112581e-02]])>