# フィーチャーエンジニアリング

このノートブックでは、TensorFlow でフィーチャーエンジニアリングを行う方法を学習します。

## 目的
- TensorFlow でフィーチャーエンジニアリングを行う方法を学習する
- End to End のモデルの作成〜デプロイを学ぶ


## 環境の準備

In [None]:
import os, json, math, subprocess
import numpy as np
import shutil
import tensorflow as tf
print("TensorFlow version: ",tf.version.VERSION)

cmd = 'gcloud config list project --format "value(core.project)"'
PROJECT = subprocess.Popen(
      cmd, stdout=subprocess.PIPE,
      shell=True, universal_newlines=True).stdout.readlines()[0].rstrip('\n')
print("Your current GCP Project Name is: {}".format(PROJECT))
REGION = "us-central1" # REPLACE WITH YOUR BUCKET REGION e.g. us-central1
BUCKET = "{}-keras".format(PROJECT)

# Do not change these
os.environ["PROJECT"] = PROJECT
os.environ["REGION"] = REGION
os.environ["BUCKET"] = BUCKET # DEFAULT BUCKET WILL BE <PROJECT ID>-keras
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3' # SET TF ERROR LOG VERBOSITY

## Python の trainer パッケージを作成する

今回も、AI Platformのトレーニングに送信する `trainer` パッケージを作成します。

フィーチャーエンジニアリングに関する前回との差分に注目してください。

In [None]:
%%bash

# Remove files from previous notebook runs.
rm -rf taxifare_tf2

mkdir taxifare_tf2
touch taxifare_tf2/__init__.py

最初に、必要なパッケージのインストールを行いましょう。（前ラボと同内容）

In [None]:
%%writefile taxifare_tf2/model.py

import datetime
import logging
import os

import numpy as np
import tensorflow as tf
from tensorflow import feature_column as fc
from tensorflow.keras import layers
from tensorflow.keras import models

# set TF error log verbosity
logging.getLogger("tensorflow").setLevel(logging.INFO)

すべてのデータ列名、予測するデータ列（ラベル）名、そしてデフォルトの値を定義します。（前ラボと同内容）

In [None]:
%%writefile -a taxifare_tf2/model.py 

CSV_COLUMNS = [
    'fare_amount',
    'hourofday',
    'dayofweek',
    'pickup_longitude',
    'pickup_latitude',
    'dropoff_longitude',
    'dropoff_latitude'
]

LABEL_COLUMN = 'fare_amount'

CATEGORICAL_COLS = ['hourofday', 'dayofweek']
NUMERIC_COLS = ['pickup_longitude', 'pickup_latitude',
                'dropoff_longitude', 'dropoff_latitude']

# Needed to impute for missing values.

DEFAULTS = [[0.0], [0], [0], [0.0], [0.0], [0.0], [0.0]]

次に、使用する特徴量と予測するラベルを定義し、トレーニング用データセットを読み込みます。（前回と同内容）

In [None]:
%%writefile -a taxifare_tf2/model.py 

# Keras models expect a dictionary of features and a label as training inputs.
def features_and_labels(row_data):
    label = row_data.pop(LABEL_COLUMN)
    return row_data, label


def load_dataset(pattern, batch_size=1, mode=tf.estimator.ModeKeys.EVAL):
    dataset = tf.data.experimental.make_csv_dataset(pattern,
                                                    batch_size,
                                                    CSV_COLUMNS,
                                                    DEFAULTS)
    dataset = dataset.map(features_and_labels)
    
    if mode == tf.estimator.ModeKeys.TRAIN:
        dataset = dataset.shuffle(1000).repeat()
        # take advantage of multi-threading!! 1=AUTOTUNE
        dataset = dataset.prefetch(1)
    return dataset

## フィーチャーエンジニアリング
さて、ここからフィーチャーエンジニアリングに関する処理を追加していきます。

In [None]:
%%writefile -a taxifare_tf2/model.py 

def euclidean(params):
    lon1, lat1, lon2, lat2 = params
    londiff = lon2 - lon1
    latdiff = lat2 - lat1
    return tf.sqrt(londiff*londiff + latdiff*latdiff)

#Rescale latitude and longitude to be values in the interval [0,1]

def scale_longitude(lon_column):
    return (lon_column + 78)/8.0

def scale_latitude(lat_column):
    return (lat_column - 37)/8.0

では、 `transform` 関数を追加しましょう。この関数は二つの役割を持っています。<br>
まず、上のセルで定義した変換処理を、 `Lambda` レイヤーとして Keras に追加します。これにより、トレーニング時と推論時のデータ前処理の差分などを気にすること無く、モデルの内部に変換処理を実装することができます。<br>
そして、この関数を 後ほど作成する DNN への入力として利用する`feature_columns` の定義に使います。このセルには多くの内容が含まれていますので、気をつけて読み進めてください。


In [None]:
%%writefile -a taxifare_tf2/model.py 

def transform(inputs, numeric_cols, string_cols, nbuckets):
    print("Inputs before features transformation: {}".format(inputs.keys()))

    # Pass-through columns
    transformed = inputs.copy()

    feature_columns = {
        colname: tf.feature_column.numeric_column(colname)
        for colname in numeric_cols
    }

    # Scaling longitude from range [-70, -78] to [0, 1]
    for lon_col in ['pickup_longitude', 'dropoff_longitude']:
        transformed[lon_col] = layers.Lambda(
            scale_longitude,
            name="scale_{}".format(lon_col))(inputs[lon_col])

    # Scaling latitude from range [37, 45] to [0, 1]
    for lat_col in ['pickup_latitude', 'dropoff_latitude']:
        transformed[lat_col] = layers.Lambda(
            scale_latitude,
            name='scale_{}'.format(lat_col))(inputs[lat_col])

    # Add Euclidean distance
    transformed['euclidean'] = layers.Lambda(
        euclidean,
        name='euclidean')([inputs['pickup_longitude'],
                           inputs['pickup_latitude'],
                           inputs['dropoff_longitude'],
                           inputs['dropoff_latitude']])
    feature_columns['euclidean'] = fc.numeric_column('euclidean')
    
    day_fc = fc.categorical_column_with_identity('dayofweek', 7)
    hour_fc = fc.categorical_column_with_identity('hourofday', 24)

    # Create bucketized features
    latbuckets = np.linspace(0, 1, nbuckets).tolist()
    lonbuckets = np.linspace(0, 1, nbuckets).tolist()
    b_plat = fc.bucketized_column(
        feature_columns['pickup_latitude'], latbuckets)
    b_dlat = fc.bucketized_column(
        feature_columns['dropoff_latitude'], latbuckets)
    b_plon = fc.bucketized_column(
        feature_columns['pickup_longitude'], lonbuckets)
    b_dlon = fc.bucketized_column(
        feature_columns['dropoff_longitude'], lonbuckets)

    # Create crossed columns
    ploc = fc.crossed_column([b_plat, b_plon], nbuckets * nbuckets)
    dloc = fc.crossed_column([b_dlat, b_dlon], nbuckets * nbuckets)
    pd_pair = fc.crossed_column([ploc, dloc], nbuckets ** 4)
    
    day_hr_pair = fc.crossed_column([day_fc, hour_fc], 24*7)

    # Create embedding columns
    feature_columns['pickup_and_dropoff'] = fc.embedding_column(pd_pair, 100)
    feature_columns['day_hour'] = fc.embedding_column(day_hr_pair, 4)

    print("Transformed features: {}".format(transformed.keys()))
    print("Feature columns: {}".format(feature_columns.keys()))
    return transformed, feature_columns


最後に、DNNのアーキテクチャを実装します。<br>
前ラボのモデルと比較して、どのようにフィーチャーエンジニアリングが適用されているかを見比べてみましょう。

In [None]:
%%writefile -a taxifare_tf2/model.py 

# Create custom metric for training
def rmse(y_true, y_pred):
    return tf.sqrt(tf.reduce_mean(tf.square(y_pred - y_true)))

# Build DNN Model

def build_model():
    
    NBUCKETS = 10
    
    # Input layer is all floats except for hourofday and dayofweek which are integers.
    inputs = {
        colname: layers.Input(name=colname, shape=(), dtype='float32')
        for colname in NUMERIC_COLS
    }
    inputs.update({
        colname: tf.keras.layers.Input(name=colname, shape=(), dtype='int32')
        for colname in CATEGORICAL_COLS
    })

    # Transforms
    transformed, feature_columns = transform(inputs,
                                             numeric_cols=NUMERIC_COLS,
                                             string_cols=CATEGORICAL_COLS,
                                             nbuckets=NBUCKETS)
    dnn_inputs = layers.DenseFeatures(feature_columns.values())(transformed)

    # Two hidden layers of [32, 8] 
    h1 = layers.Dense(32, activation='relu', name='h1')(dnn_inputs)
    h2 = layers.Dense(8, activation='relu', name='h2')(h1)

    # final output is a linear activation because this is regression
    output = layers.Dense(1, activation='linear', name='fare')(h2)
    model = models.Model(inputs, output)

    # Compile model
    model.compile(optimizer='adam', loss='mse', metrics=[rmse])
    return model

最後に、トレーニングプロセスを管理する関数を作成します。<br>
`args` の辞書は、 トレーニングの際に`task.py` を通してコマンドラインから渡されます。

In [None]:
%%writefile -a taxifare_tf2/model.py 

def train_and_export_model(args):
    TRAIN_BATCH_SIZE = 128 
    NUM_TRAIN_EXAMPLES = 50000 * args['train_epochs']
    NUM_EVALS = args['train_epochs']
    NUM_EVAL_EXAMPLES = 15000

    strategy = tf.distribute.MirroredStrategy()

    with strategy.scope():
        model = build_model()

    trainds = load_dataset(args['train_data_path'],
                           TRAIN_BATCH_SIZE * 4,
                           tf.estimator.ModeKeys.TRAIN)
    evalds = load_dataset(args['eval_data_path'],
                          1000,
                          tf.estimator.ModeKeys.EVAL).take(NUM_EVAL_EXAMPLES//1000)

    steps_per_epoch = NUM_TRAIN_EXAMPLES // (TRAIN_BATCH_SIZE * NUM_EVALS)

    callbacks = [tf.keras.callbacks.ModelCheckpoint(filepath=args['output_dir']),
                tf.keras.callbacks.TensorBoard(args['output_dir'], histogram_freq=1, write_grads=True)]

    history = model.fit(trainds,
                        verbose=2,
                        validation_data=evalds,
                        epochs=NUM_EVALS,
                        steps_per_epoch=steps_per_epoch,
                        callbacks=callbacks)


#### `task.py` ファイルを作成する

これで `model.py` は完成です。<br>
前ラボと同様に、トレーニングジョブを管理する `task.py` を作成しましょう

In [None]:
%%writefile taxifare_tf2/task.py 

import argparse
import json
import os

from . import model


if __name__ == "__main__":
    
    parser = argparse.ArgumentParser()
    
    parser.add_argument(
        "--train_data_path",
        help = "GCS or local path to training data",
        required = True
    )
    parser.add_argument(
        "--train_epochs",
        help = "Steps to run the training job for (default: 5)",
        type = int,
        default = 5
    )
    parser.add_argument(
        "--eval_data_path",
        help = "GCS or local path to evaluation data",
        required = True
    )
    parser.add_argument(
        "--output_dir",
        help = "GCS location to write checkpoints and export models",
        required = True
    )
    parser.add_argument(
        "--job-dir",
        help = "This is not used by our model, but it is required by gcloud",
    )
    args = parser.parse_args().__dict__

    model.train_and_export_model(args)

## モデルをローカルでテストする

AI Platform でトレーニングを行う前に、パッケージが動作するかどうかをローカルで確認しましょう。<br>

In [None]:
!rm -rf ./taxi_model
!python3 -m taxifare_tf2.task \
    --train_data_path=../data/taxi-train.csv \
    --eval_data_path=../data/taxi-valid.csv \
    --train_epochs=3 \
    --output_dir=./local_taxi_model

## Cloud AI Platform でトレーニングを実行する

全てがローカルで動作することが確認できましたので、いよいよクラウドで実行しましょう。<br>

In [None]:
!gsutil -m cp -r ../data/ gs://{BUCKET}/taxifare_fe_example/

In [None]:
OUTDIR = "gs://{}/taxifare_fe_example/saved_model/".format(BUCKET)
TRAIN_DATA_PATH = "gs://{}/taxifare_fe_example/data/taxi-train.csv".format(BUCKET)
EVAL_DATA_PATH = "gs://{}/taxifare_fe_example/data/taxi-valid.csv".format(BUCKET)

!gsutil -m rm -rf {OUTDIR} # start fresh each time
!gcloud ai-platform jobs submit training taxifare_$(date -u +%y%m%d_%H%M%S) \
    --package-path=taxifare_tf2 \
    --module-name=taxifare_tf2.task \
    --job-dir=gs://{BUCKET}/taxifare_example \
    --python-version=3.7 \
    --runtime-version=2.1 \
    --region={REGION}\
    --scale-tier BASIC \
    -- \
    --train_data_path={TRAIN_DATA_PATH} \
    --eval_data_path={EVAL_DATA_PATH}  \
    --train_epochs=20 \
    --output_dir={OUTDIR}

## Tensorboard でトレーニングをモニタリングする

以下の手順でTensorboard を実行してください。
- 以下のセルを実行し、出力を Cloud Shell に貼り付けて実行
- Cloud Shell 右上の Web Preview -> Preview on Port 8080 をクリック
- Tensorboard を確認する（正しく表示されない場合は、しばらく待ち、ブラウザを更新してください

In [None]:
print('tensorboard --logdir {} --port 8080'.format(OUTDIR))

トレーニングは 5-7 分ほどで完了します。<br>
完了したら、以下のセルを実行し、 `SavedModel` が保存されていることを確認してください。

In [None]:
!gsutil ls -r {OUTDIR}*

## モデルをデプロイする

では、エクスポートされた `SavedModel` をデプロイして、`v2`のバージョン名をつけましょう。

In [None]:
VERSION='v2'

!gcloud ai-platform versions create {VERSION} --model taxifare \
    --origin {OUTDIR} \
    --python-version=3.7 \
    --runtime-version 2.1

デフォルトのバージョンを変更します

In [None]:
!gcloud ai-platform versions set-default v2 --model=taxifare

では、先ほどと同様に午後6時に[ウォールストリートからブライアント公園まで](https://www.google.com/maps/dir/%E3%82%A6%E3%82%A9%E3%83%BC%E3%83%AB%E8%A1%97,+%E3%82%A2%E3%83%A1%E3%83%AA%E3%82%AB%E5%90%88%E8%A1%86%E5%9B%BD+New+York/Bryant+Park,+%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A8%E3%83%BC%E3%82%AF+%E3%83%8B%E3%83%A5%E3%83%BC%E3%83%A8%E3%83%BC%E3%82%AF%E5%B7%9E+%E3%82%A2%E3%83%A1%E3%83%AA%E3%82%AB%E5%90%88%E8%A1%86%E5%9B%BD/@40.7302283,-74.0247121,13z/data=!3m1!4b1!4m13!4m12!1m5!1m1!1s0x89c25a165bedccab:0x2cb2ddf003b5ae01!2m2!1d-74.0088256!2d40.7060361!1m5!1m1!1s0x89c259aae7a0b1bd:0xb49cafb82537f1a7!2m2!1d-73.9832326!2d40.7535965)の4マイルの距離をタクシー移動する際の料金を予測してみましょう。<br>

In [None]:
from googleapiclient import discovery
from oauth2client.client import GoogleCredentials
import json

credentials = GoogleCredentials.get_application_default()
api = discovery.build("ml", "v1", credentials = credentials,
            discoveryServiceUrl = "https://storage.googleapis.com/cloud-ml/discovery/ml_v1_discovery.json")

request_data = {"instances":
  [
      {
        "dayofweek": 1,
        "hourofday": 18,
        "pickup_longitude": -73.0101638,
        "pickup_latitude": 40.7059409,
        "dropoff_longitude": -73.9834672,
        "dropoff_latitude": 40.7532916,
      }
  ]
}

parent = "projects/{}/models/taxifare".format(PROJECT) # use default version

response = api.projects().predict(body = request_data, name = parent).execute()
print("response = {0}".format(response))

Copyright 2020 Google Inc. Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at http://www.apache.org/licenses/LICENSE-2.0 Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License