# 落書き認識Webアプリを作ろう

- Author: Arata Furukawa ([github](https://github.com/ornew), [facebook](https://www.facebook.com/old.r.new))
- Contributor: Hideya Kawahara

このノートブックは、セミナーの資料として作成されています。ノートブックは、自由な編集、実行が可能です。Markdown形式でドキュメントも書き込めるため、必要に応じてメモを追記するなど、工夫してご利用ください。

参加者の皆様には後日データを配布いたしますが、編集も含めて持ち帰りたい場合は、画面上部のツールバーから、【File】タブを選び、【Download as】を選ぶことでローカルマシン上に保存することが可能です。

このノートブックはご自由にご利用頂けますが、インターネット上への無断での転載だけはご遠慮くださいますようお願いします。

## モデルの概要

今回、認識する落書きは、以下の10クラス(種類)です。

1. りんご(apple)
2. ベッド(bed)
3. 猫(cat)
4. 犬(dog)
5. 目(eye)
6. 魚(fish)
7. 草(grass)
8. 手(hand)
9. アイスクリーム(ice cream)
10. ジャケット(jacket)

28x28ピクセルのグレースケール画像から、上記のいずれの落書きであるかを**確率的に**予測します。

![](./img/1.png)

### ディープラーニング

モデルは(ディープ)ニューラルネットワークで実装します。

ニューラルネットワークとは、生物のニューロン(神経細胞)のネットワークを数理モデルで模倣することで、特定の課題解決能力を機械的に学習する、機械学習アルゴリズムの一種です。深い層で構成されるニューラルネットワークの学習を行うことをディープラーニングといいます。

ディープラーニングにおけるモデルの学習は、以下の流れで行います。

- ⓪ モデルのパラメータを初期化する
- ① 学習用データに対する予測を計算する
- ② 教師ラベルと予測結果の誤差を計算する
- ③ 誤差を最小化するようにモデルのパラメータを更新する
- ④ **誤差が十分に小さくなるまで**①-③を繰り返す

![](./img/2.png)

## 実装の流れ

このノートブックでは、以下の手順で、ディープラーニングを用いた落書き(Doodle)認識を行うWebアプリを作成します。

1. ["the Quick, Draw!"データセット](https://quickdraw.withgoogle.com/data)を学習用データとして準備する
2. [TensorFlow](https://www.tensorflow.org/)で落書きを認識するディープニューラルネットワークのモデルを実装する
3. [Amazon SageMaker](https://aws.amazon.com/jp/sagemaker/)でモデルを学習する
4. [TensorFlow.js](https://js.tensorflow.org/)を使ったWebアプリに学習済みモデルを組み込む
5. [Amazon S3](https://aws.amazon.com/jp/s3/)でWebアプリを公開する

![](./img/3.png)

## 実装する

まず、作業に必要なモジュールを読み込みます。

In [None]:
import six         # Python 2と3の互換性を保つためのライブラリです
import numpy as np # 行列などの科学数値計算をするためのライブラリです

import matplotlib.pyplot as plt # グラフを描画するライブラリです
%matplotlib inline

import tensorflow as tf

### ①学習用データを準備する

学習データは、Google社が[クリエイティブ・コモンズ ライセンス バージョン4.0](https://creativecommons.org/licenses/by/4.0/)で公開している["the Quick, Draw!"データセット](https://quickdraw.withgoogle.com/data)を利用します。

#### データをダウンロードする

データをダウンロードして、`./raw_data`ディレクトリに保存します。

ちなみに、Jupyterノートブックでは、「`!`」を先頭につけると、シェルコマンドを実行できます(Pythonの機能ではありません)。出力をPythonで使ったり、Pythonの変数を引数に使ったりも出来るので便利です。ここでは`wget`コマンドを使ってファイルをダウンロードします。

In [None]:
URL = 'https://storage.googleapis.com/quickdraw_dataset/full/numpy_bitmap'
LABELS = [
    'apple', 'bed', 'cat', 'dog', 'eye',
    'fish', 'grass', 'hand', 'ice cream', 'jacket',
]

In [None]:
!mkdir -p ./data ./raw_data
for l in LABELS:
    url = '{}/{}.npy'.format(URL, l)
    !wget -NP raw_data "$url"

各ラベルのデータファイルがダウンロードできていることを確認します。

In [None]:
!ls ./raw_data

ダウンロードしたデータを読み込みます。

In [None]:
raw_data = {label: np.load('raw_data/{}.npy'.format(label)) for label in LABELS}

各データの数を確認してみましょう。

In [None]:
for label, data in six.iteritems(raw_data):
    print('{:10}: {}'.format(label, len(data)))

ためしに「猫」の画像を表示してみます。

In [None]:
plt.imshow(np.reshape(raw_data['cat'][0], [28, 28]), cmap='gray_r')
plt.show()

#### 学習用と評価用のデータを準備する

次に、データを学習用と評価用に分けます。

学習に使ったデータは、モデルがすでに「知っている」データなので、そのモデルが本当に役に立つのかを評価するためには学習に使っていない「未知のデータ」に対する精度を確認する必要があります。ですので、ダウンロードしたデータから、学習用と評価用の2種類のデータを予め準備します。

1. ダウンロードしたデータセットのうち10万件を取り出す
    - クラスごとに数にばらつきがあると、学習で用いられる頻度がクラスごとに変わってしまうため、揃えます
2. それぞれ画像データと教師ラベルの組み合わせに変換する
    - 教師ラベルは、クラスの名前(例:apple)ではなく、それぞれクラスごとにユニークな数字を割り当てます(下で確認)
3. 学習用と評価用に7:3で分ける
    - 学習に使われていないデータで精度の評価を行いたいため、3割を評価用のデータとして使います
4. ランダムにシャッフル

クラスごとに割り当てる教師ラベルの番号を確認します。今回は最初のラベル配列のインデクスをそのまま使います。数字自体に意味はありません。

In [None]:
for i, label_name in enumerate(LABELS):
    print(u'番号: {}   ラベル名: {}'.format(i, label_name))

In [None]:
train_data = []
test_data = []
for label_name, value in six.iteritems(raw_data):
    label_index = LABELS.index(label_name)
    print('proccessing label class {}: "{}"'.format(label_index, label_name))
    # 各ピクセルの値を、0-255から0-1に修正します
    value = np.asarray(value) / 255.
    # 7万件を学習用のデータとして画像データと教師ラベルの組み合わせにしてリストに追加します
    train_data.extend(zip(value[:70000], np.full(70000, label_index)))
    # 3万件を評価用のデータとして画像データと教師ラベルの組み合わせにしてリストに追加します
    test_data.extend(zip(value[70000:100000], np.full(30000, label_index)))
np.random.shuffle(train_data)
np.random.shuffle(test_data)

学習用と評価用のデータを、TFRecord形式のファイルに出力します。TFRecordは[Protocol Buffers](https://developers.google.com/protocol-buffers/)というフォーマットを用いたデータファイルです。構造化されたデータであり、圧縮効率が高くと読み書きの速度が非常に速いデータ形式です、非同期のストリーミング読み込みが可能なため、機械学習で用いられる大規模データセットの保存に向いています。

In [None]:
train_filename = './data/train.tfr'
test_filename  = './data/test.tfr'

def get_example_proto(image, label):
    """
    画像とラベルをProtocol Buffers形式のtf.train.Exampleに変換します
    """
    return tf.train.Example(features=tf.train.Features(feature={
        'image' : tf.train.Feature(float_list=tf.train.FloatList(value=image)),
        'label' : tf.train.Feature(int64_list=tf.train.Int64List(value=label)),
    })).SerializeToString()

以下の変換処理は5分ほどかかります。少々お待ちください。

In [None]:
%%time
tfr_options = tf.python_io.TFRecordOptions(tf.python_io.TFRecordCompressionType.GZIP)
with tf.python_io.TFRecordWriter(train_filename, tfr_options) as train_tfr, \
     tf.python_io.TFRecordWriter(test_filename, tfr_options) as test_tfr:
    print('Converting train data...')
    for data, label in train_data:
        train_tfr.write(get_example_proto(data, [label]))
    print('Converting test data...')
    for data, label in test_data:
        test_tfr.write(get_example_proto(data, [label]))

`train.tfr`と`test.tfr`が生成されていれば成功です。

In [None]:
!ls data

データの準備が完了しました。生成したデータは後ほどS3にアップロードします。

### ②TensorFlowでモデルの定義プログラムを実装する

モデルの実装には、[TensorFlow](https://www.tensorflow.org/)を利用します。TensorFlowは、Google社を主体として開発されている、オープンソースの汎用的な分散数値演算ライブラリです。TensorFlowにはディープラーニング向けのライブラリが用意されており、GitHubのスターは10万近く、現在世界で最も人気のディープラーニングフレームワークとも言われています。

以下の4つの関数を定義したプログラムを用意すると、Amazon SageMakerを使ってモデルの学習を行うことができます。

```python
def train_input_fn(training_dir, hyperparameters):
    """
    学習用の入力データを読み込みます。
    
        training_dir: 学習の実行時に指定したS3のファイルがこの文字列のディレクトリにマウントされています。
        hyperparameters: 学習の実行時に指定したハイパーパラメータが渡されます。
        
    基本的には、以下のことを実装するだけです。
    ①hyperparametersで指定した挙動に従って、
    ②training_dirから学習データを読み込み、データを返す。
    """

def eval_input_fn(training_dir, hyperparameters):
    """
    評価用の入力データを読み込みます。
    やることはtrain_input_fnと同じですが、評価用のデータを読み込むことや、
    評価用に挙動を変える(例えば評価データはシャッフルしないなど)ことが可能です。
    """

def serving_input_fn(hyperparameters):
    """
    モデルの入力データの形式を定義します。
    サービングと付いている通り、SageMakerでAPIサーバにデプロイしたときの入力データ定義にもなります。
    """

def model_fn(features, labels, mode, hyperparameters):
    """
    モデルの定義をします
    
        features: モデルの入力と成る特徴データです *_input_fnで返した値がそのまま渡されます。
        labels: モデルの教師ラベルデータです。
        mode: モデルの実行モードです。実行モードには「学習」「評価」「推論」があり、挙動を切り替えることが可能です。
        hyperparameters: 実行時に指定したハイパーパラメータが渡されます。
    """
```

もう少し具体的には、`model_fn`の中で以下の3つを定義します。

1. **モデル**: ニューラルネットワーク
2. **誤差**: 教師データと予測結果がどの程度違ったのかを定式化する
3. **最適化アルゴリズム**: 誤差を最小化するようにモデルを最適化するアルゴリズム

つまり、データの入力方法と、上記3つのモデルの定義を行うだけで、機械学習を行うことができてしまいます。

今回、セミナー用のモデル定義は予め実装してあります(`src/doodle.py`ファイル)。

コメントなどを含めても150行程度しかありません。

#### `train_input_fn`、`eval_input_fn`の実装例

```python
def train_input_fn(training_dir, params):
    return _input_fn(training_dir, params, is_training=True)

def eval_input_fn(training_dir, params):
    return _input_fn(training_dir, params, is_training=False)

def _input_fn(data_dir, params, is_training):
    # ハイパーパラメータを取得します
    # シャッフルのバッファサイズなどをハイパーパラメータとして与えて
    # 切り替えられるようにしておくと、コードの修正なしに入力データを調整できます
    batch_size  = params.get('batch_size', 96)
    buffer_size = params.get('shuffle_buffer_size', 4096)
    cmp_type    = params.get('tfrecord_compression_type', 'GZIP')
    train_file  = params.get('train_tfrecord_file', 'train.tfr')
    test_file   = params.get('test_tfrecord_file', 'test.tfr')

    # 学習用データのパス
    tfrecord = os.path.join(data_dir, train_file if is_training else test_file)

    # TFrecordを読み込み、シャッフルやリピートなどを行います
    return (tf.data.TFRecordDataset(tfrecord, compression_type=cmp_type)
        .map(_parse_example)
        .shuffle(buffer_size)
        .batch(batch_size)
        .repeat(-1 if is_training else 1) # -1は無限リピートです
        .make_one_shot_iterator()
        .get_next())

# TFRecordをtf.train.Exampleに変換したのでパースする関数です
def _parse_example(example):
    features = tf.parse_single_example(example,  {
        'image': tf.FixedLenFeature([28, 28, 1], tf.float32),
        'label': tf.FixedLenFeature([]         , tf.int64),
    })
    label = features.pop('label')
    return features, label
```

#### `serving_input_fn`の実装例

推論用の入力データ形式の定義を行います。これはAPIサーバにデプロイしない場合も必要なので注意してください。

以下では、入力データは、キーを`image`とし、浮動小数型のテンソルであることを定義しています。`[None, 28, 28, 1]`は、データの形状を示しています。

TensorFlowで扱われるデータは全てTensor(テンソル)です。この場合、`image`テンソルはランク4のテンソルで、プログラム上では4次元配列で表現されます。各次元の長さは、None(可変長)、28、28、1です。

```python
def serving_input_fn(params):
    return tf.estimator.export.build_raw_serving_input_receiver_fn({
        'image': tf.placeholder(tf.float32, [None, 28, 28, 1], name='image')
    })()
```

#### `model_fn`の実装例

(一部省略しています)

```python

def model_fn(features, labels, mode, params):
    # ...

    # 第一引数のfeaturesが入力データです
    image = features['image']

    # ...

    #=========================================================
    # ニューラルネットワークを定義します
    #=========================================================
    with tf.variable_scope('model', initializer=initializer):
        x = image
        x = tf.layers.conv2d(x, 32, 5, padding='SAME', activation=tf.nn.relu)
        x = tf.layers.max_pooling2d(x, 2, 2, padding='SAME')
        x = tf.layers.conv2d(x, 64, 5, padding='SAME', activation=tf.nn.relu)
        x = tf.layers.max_pooling2d(x, 2, 2, padding='SAME')
        x = tf.reshape(x, [-1,7*7*64])
        x = tf.layers.dense(x, 1024, activation=tf.nn.relu)
        x = tf.layers.dropout(x, rate=dropout_rate, training=is_training)
        x = tf.layers.dense(x, 10)
        logits = x

    # 予測結果: クラスごとの離散確率分布、最も確率の高いクラスのインデクス
    predictions = {
        'probabilities': tf.nn.softmax(logits),
        'classes'      : tf.argmax(logits, axis=1),
    }
    
    # ...

    #=========================================================
    # モデルの誤差を定義します
    #=========================================================
    with tf.variable_scope('losses'):
        # クロスエントロピーを計算して誤差に追加します
        cross_entropy_loss = tf.losses.sparse_softmax_cross_entropy(
            labels=labels, logits=logits)
        
        # モデルで追加された全ての誤差の総和を取得します
        total_loss = tf.losses.get_total_loss()

    # ...

    #=========================================================
    # モデルを学習(=パラメータを最適化)します
    #=========================================================
    global_step = tf.train.get_or_create_global_step()
    update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
    
    with tf.variable_scope('optimizer'), tf.control_dependencies(update_ops):
        # total_loss(誤差の総和)が小さくなるようにパラメータを更新します
        optimizer = tf.train.AdamOptimizer(learning_rate)
        fit = optimizer.minimize(total_loss, global_step)

    # ...
```

ニューラルネットワークのモデルの定義や学習に関する詳細は、別途ノートブック`model.ipynb`で解説しています。ニューラルネットワークの実装に興味がある方はそちらをご参照ください。

### ③Amazon SageMakerでモデルを学習する

Amazon SageMaker SDKを使い、ここまでで準備したデータとプログラムを指定して学習を実行します。

![](img/4.png)

#### 皆さんの設定を保存する

まず、データの保存先などの文字列を変数で定義します。ハンズオンでは共用のストレージを利用するため、**各自で保存先など変えて頂くためです**。

```python
your_name = 'arata-furukawa' # 例
```

上記のように、`your_name`にご自身の名前やTwitterのIDなど**他の人と被らない文字列**を入れてから、セルを実行してください。(被ると後でエラーになってしまいます。)

In [None]:
your_name = '' # 半角英数字とハイフンのみ利用可能です

# 文字列チェック
import re; assert re.match(r'^[0-9a-z-]+$', your_name) is not None

import sagemaker

role    = sagemaker.get_execution_role()
session = sagemaker.Session()
bucket  = session.default_bucket()

def _s3(path):
    return 's3://{}/doodle/model/{}/{}'.format(bucket, your_name, path)
data_key_prefix = 'doodle/model/{}/data'.format(your_name)

config = dict(
    data_dir        = _s3('data'),
    output_path     = _s3('export'),
    checkpoint_path = _s3('ckpt'),
    code_location   = _s3('src'),
    public_dir      = _s3('public'),
    job_name        = 'doodle-training-job-{}'.format(your_name)
)

設定した変数を表示します。

In [None]:
for k, v in six.iteritems(config):
    print('key: {:20}, value: {:20}'.format(k, v))

上記で設定したユニークなS3パスに、①で作成したデータセットをアップロードします。

In [None]:
uploaded_data_dir = session.upload_data(
    'data',                     # ローカルディレクトリ
    bucket=bucket,              # アップロードするS3バケット名
    key_prefix=data_key_prefix) # アップロードするパスのプリフィクス

# 設定と同じ場所になったか確認します
assert uploaded_data_dir == config['data_dir']

モデルの学習では、「エスティメータ(Estimator)」を利用します。 エスティメータは、モデルの学習や評価、保存やデプロイなどを行う抽象化されたインターフェイスです。

用意したパスなどを設定として渡して、エスティメータを作成します。

In [None]:
from sagemaker.tensorflow import TensorFlow

estimator = TensorFlow(
    # ハイパーパラメータ
    # ②で定義したプログラムの各関数の引数に渡されます
    # プログラムの挙動を切り替えるのに利用できます
    hyperparameters={
        'save_summary_steps': 100,
        'throttle_secs': 120,
    },
    
    # 先程設定した、各データの保存先のパス
    output_path     = config['output_path'],
    checkpoint_path = config['checkpoint_path'],
    code_location   = config['code_location'],
    
    # 学習用プログラムに関する設定
    source_dir='./src',      # 学習用のプログラムが保存されたローカルディレクトリ
    entry_point='doodle.py', # ②で定義した学習用プログラムのファイル名
    framework_version='1.6', # 利用したいTensorFlowのバージョン
    
    # 学習と評価の回数
    training_steps=20000,
    evaluation_steps=2000,
    
    # AWSでの実行に関する設定(今回は共用なので変えないでください！)
    role=role,
    train_instance_count=1,
    train_instance_type='ml.p2.xlarge') # ml.p2.xlargeはGPUの搭載されたインスタンスです

エスティメータに対して、学習用データのパス名を指定して`fit`関数を呼び出すと、学習ジョブが作成され、クラウド上でモデルの学習が実行されます。

この学習には10〜15分かかります。実行完了までしばらくお待ち下さい。

In [None]:
%%time
estimator.fit(config['data_dir'], job_name=config['job_name'],
              wait=True, run_tensorboard_locally=True)

ちなみに、`run_tensorboard_locally`引数に`True`を渡すと、ノートブック上でTensorBoardが実行されます。TensorBoardに学習ログを表示するようにしてあるので、下記URLにアクセスして確認してみましょう。

`https://(ノートブックのURL)/`[proxy/6006/](/proxy/6006/)

### ④学習したモデルをダウンロードして、Webアプリに組み込む

学習したモデルは、エスティメータの`output_path`引数で指定した場所にGZIP圧縮されたTar書庫で保存されています。中身はTesnorFlow SavedModelと呼ばれるデータ形式です。

![](img/5.png)

このモデルデータを使えば、Pythonで実行したり、TensorFlow ServingでAPIサーバを構築したり、TensorFlow Liteを使ってAndroidやiOSで実行したりすることが可能です。

今回は、TensorFlow.jsを使って、Webブラウザ上でモデルの推論を実行してみましょう。

モデルをダウンロードして展開します。

In [None]:
model_url = '{}/{}/output/model.tar.gz'.format(config['output_path'], config['job_name'])

In [None]:
!rm -rf ./export ./model.tar.gz
!aws s3 cp "$model_url" ./model.tar.gz
!tar xvzf ./model.tar.gz

TensorFlow.jsでブラウザ上で実行するために、Web用のフォーマットに変換します。

In [None]:
# 変換用ツールをインストールします
!pip install tensorflowjs

# 変換したモデルの保存先ディレクトリを作成します
!mkdir -p ./webapp/model

In [None]:
!tensorflowjs_converter \
    --input_format=tf_saved_model \
    --output_node_names='probabilities,classes' \
    --saved_model_tags=serve \
    ./export/Servo/* \
    ./webapp/model

これで、`./webapp/model`ディレクトリにTensorFlow.jsで実行するためのモデルデータが生成されました！

In [None]:
!ls ./webapp/model

あとはTensorFlow.jsで実行するだけです。

TensorFlow.js(ES5)では、以下のように実行します。

```javascript
import {loadFrozenModel} from '@tensorflow/tfjs-converter'

// モデルを読み込みます
loadFrozenModel(/* tensorflowjs_model.pbのURL */, /* weights_manifest.jsonのURL */)
    .then(model => {
        // モデルでの推論を実行します
        const results = model.execute({
            'image_1': /* 画像データ */
        })
    })
```

非常に簡単です！ とはいえ実際にはアプリケーションの「ガワ」を作らねばなりません。その辺りは今回のセミナーの趣旨とは外れますので、今回はWebアプリケーションを事前にご用意いたしました。ダウンロードして展開し、そのアプリケーションで皆さんが作ったモデルデータを読み込んで実行して頂きます。

In [None]:
!mkdir -p ./webapp
!wget -O webapp.tar.gz https://github.com/maru-labo/doodle/releases/download/v1.0.0/example.tensorflowjs.tar.gz
!tar xvzf webapp.tar.gz -C webapp

これで、`webapp`ディレクトリ以下にWebアプリケーションに必要なものが揃いました！

なお、今回使うWebアプリケーションのソースコードは[maru-labo/doodle/examples/tensorflow_js](https://github.com/maru-labo/doodle/tree/master/examples/tensorflow_js)にて公開しています。

また、よりシンプルな、TensorFlow.jsを実行する最低限のプログラムサンプルも[maru-labo/doodle/examples/tensorflow_js_simple](https://github.com/maru-labo/doodle/tree/master/examples/tensorflow_js_simple)に公開しています。

実際に皆さんが作られたモデルを実行したい場合はぜひ参考にしてください。

### ⑤WebアプリをS3でホスティングして公開する

`webapp`ディレクトリに必要なものが揃ったので、Web上に公開してみましょう。S3の静的ホスティング機能を使うと簡単にWebアプリケーションを公開できます。`aws s3 sync`コマンドで`webapp`ディレクトリを`public_dir`変数に格納した皆さんのURLにアップロードします。(※`tensorflowjs_converter`のインストール時にカーネルが再起動されてしまい`config`変数がなくなってしまっていることがあります。その場合は「皆さんの設定を保存する」セルを実行し直してください。)

In [None]:
public_dir = config['public_dir']
!aws s3 sync ./webapp $public_dir

アップロードされたWebアプリケーションを確認してみましょう！ 下記セルを実行するとURLが表示されますので、別のタブで開いてみてください。

In [None]:
print('https://s3-{}.amazonaws.com/{}/index.html'.format(session.boto_region_name, public_dir[5:]))

## まとめ

- ✔簡単なデータセットを作りました
- ✔SageMakerでモデルを学習しました
- ✔SageMakerで学習したモデルをWebアプリケーションで実行しました

なお、落書き認識モデルについては、本日使用したサンプルを含めて全て[GitHub](https://github.com/maru-labo/doodle)上で公開していますので、より詳しい情報をご希望の方はぜひご参照ください。今後、LiteのサンプルやServingの使い方などもリポジトリに追加する予定です。MITライセンスですので、ご自由にご利用いただけます。お気軽にIssueやPull Requestをお寄せくださいませ。