In [None]:
'''やること
Amazon sagemakerで最近投入された「Random Cut Forest」をやってみよう(異常値検出に使います)
Amazonのハンズオンをそのままコピペっている。
https://aws.amazon.com/jp/blogs/news/use-the-built-in-amazon-sagemaker-random-cut-forest-algorithm-for-anomaly-detection/
'''


'''アルゴリズムの流れ（概要）
①データセットからサブセットを抽出する
（「Resevoir sampling」というアルゴリズムを使って抽出する）
②決定木を複数個生成する
③各データポイントの「深さ」の平均値を使って「異常度スコア」を計算する

上記の通り「isolation forest」と似ているが、「分岐させる際の特徴量」を選択する際に「各特徴量の分散に基づいて重みをつける」といった点がiForestと異なる。
（iForestは完全ランダム）
（各特徴量の閾値はランダムに選択するので、そこはiForestと同じ）

ちなみに、教師なし学習です。
'''


'''iForestよりも優位な点
①データサンプリングがより早い（「Resevoir sampling」というアルゴリズムを使っている）
②iForestでは、特徴量が少なくてその特徴量が異常を見分けるのに不要な際に不具合がある。（RRCFでは、特徴量選択に分散に基づく重み付けをしているのでクリア）
'''

'''参考文献
・元論文
https://d1.awsstatic.com/whitepapers/kinesis-anomaly-detection-on-streaming-data.pdf

・概要を理解するだけなら、AWSの解説もわかりやすいです
https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_how-it-works.html
'''


'''パラメータ
下記を参照。
https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_hyperparameters.html

num_samples_per_tree:各決定木に投入されるデータサイズ。多い方が計算結果が安定するものの、処理に時間がかかる。
　　　　　　　　　　　 　　　　　　　　　　　　　　　　　　　　　　　　　　　　（1/num_samples_per_tree）が「想定する異常データの割合」に近いことを想定している。
num_trees:決定木の数。多い方が計算結果が安定するものの、処理に時間がかかる。
 　　　　　　　　　　　　　　　　　　AWSはとりあえず初めは100個くらいで始めたらいいのでは、と言っている。（精度や複雑さを考慮すると、最初はとりあえずこのくらい、という意味）
　　　　　　 　　　　　　　　　　　　最終的には、このパラメータもアプリケーションによって最適値が異なるのでチューニングが必要。
feature_dim:利用する特徴量の割合？チュートリアルだと「feature_size」という名前だったが、これで実行すると「feature_dimが指定されていない 」とエラーが出たのでパラメータ名を変更した。
（shingle_size):シングリングのサイズ。これもいじる必要がある。任意？
'''


'''アルゴリズムの詳細
①AWSは「Random Cut Forest」と言っているが参照論文を見ると「Robust Random Cut Forest」アルゴリズムを利用しているようです。
②新しいデータポイントが投入された際は、再度初めから計算をやり直す、という形になる
③シングリング（shingling）という前処理テクニックを使うよ。
　 　ストリームデータを扱う際の手法。時系列データなら、連続する４つの1次元データをひとまとめにして４次元のデータとして扱う、といった手法。
   小さなノイズをフィルタリングする、データの周期性をよく捉えられるようにする、といった特徴がある。
④異常かどうかを判断する閾値は「F1値」を最適化するようにして生成する
(精度とリコールの調和平均)
⑤モデルから対象のデータを削除、追加するのも簡単にできるとのこと。
（あたかもそれらのデータが最初からなかったかのように、またはあったかのようにできる、ということ）
（なので、後から「このデータがサンプルに入っていたらどんな結果だったかな」というのも簡単に検証できる）
⑥決定木は２分岐、各ノードに１つずつデータが分類されるまで成長させる
⑦各データポイントの「異常度スコア」は、全決定木における深さの平均で取られる
⑧データが異常かどうかを判断する閾値については、利用ケースによって異なる。一般的には３標準偏差離れたら、でいいのではないでしょうか？
'''

In [None]:
'''1.Amazon S3 でデータを取得、検査、保存する
'''
%matplotlib inline

import pandas
import urllib.request

data_filename = 'nyc_taxi.csv'
data_source = 'https://raw.githubusercontent.com/numenta/NAB/master/data/realKnownCause/nyc_taxi.csv'

urllib.request.urlretrieve(data_source, data_filename)
taxi_data = pandas.read_csv(data_filename, delimiter=',')
taxi_data.plot(title='Taxi Ridership in NYC')

In [None]:
'''2.CSV 形式のデータを変換し、そのデータを Amazon S3 バケットへプッシュしています。
'''

def convert_and_upload_training_data(
    ndarray, bucket, prefix, filename='data.pbr'):
    import boto3
    import os
    from sagemaker.amazon.common import numpy_to_record_serializer

    # convert Numpy array to Protobuf RecordIO format
    serializer = numpy_to_record_serializer()
    buffer = serializer(ndarray)

    # upload to S3
    s3_object = os.path.join(prefix, 'train', filename)
    boto3.Session().resource('s3').Bucket(bucket).Object(s3_object).upload_fileobj(buffer)
    s3_path = 's3://{}/{}'.format(bucket, s3_object)
    return s3_path

bucket = 'cm-yoshim-sagemaker' # <-- use your own bucket, here
prefix = 'robust_randum_cut_forest'
s3_train_data = convert_and_upload_training_data(
    taxi_data.value.as_matrix().reshape(-1,1),
    bucket,
    prefix)

In [None]:
'''3.モデル生成！
'''

import boto3
import sagemaker

# コンテナの一覧
containers = {
    'us-west-2': '174872318107.dkr.ecr.us-west-2.amazonaws.com/randomcutforest:latest',
    'us-east-1': '382416733822.dkr.ecr.us-east-1.amazonaws.com/randomcutforest:latest',
    'us-east-2': '404615174143.dkr.ecr.us-east-2.amazonaws.com/randomcutforest:latest',
    'eu-west-1': '438346466558.dkr.ecr.eu-west-1.amazonaws.com/randomcutforest:latest'}
region_name = boto3.Session().region_name
container = containers[region_name]

session = sagemaker.Session()

# 予測に用いるインスタンスの設定
rcf = sagemaker.estimator.Estimator(
    container,
    sagemaker.get_execution_role(),
    output_path='s3://{}/{}/output'.format(bucket, prefix),
    train_instance_count=1,
    train_instance_type='ml.c5.xlarge',
    sagemaker_session=session)

# robust_random_cut_forestのハイパーパラメータを設定(チュートリアルとは「feature_dim」パラメータの名前が異なる。)
rcf.set_hyperparameters(
    num_samples_per_tree=200,
    num_trees=50,
    feature_dim=1)

# inputデータの指定
s3_train_input = sagemaker.session.s3_input(
    s3_train_data,
    distribution='ShardedByS3Key',
    content_type='application/x-recordio-protobuf')

# モデル生成
rcf.fit({'train': s3_train_input})

In [None]:
'''4.異常スコアを予測する
'''

from sagemaker.predictor import csv_serializer, json_deserializer

# 推論エンドポイントを作成
rcf_inference = rcf.deploy(
    initial_instance_count=1,
    instance_type='ml.c5.xlarge',
)

rcf_inference.content_type = 'text/csv'
rcf_inference.serializer = csv_serializer
rcf_inference.deserializer = json_deserializer

In [None]:
'''5.異常スコアを取得
トレーニングセット全体で推論を実行する。
'''

results = rcf_inference.predict(taxi_data.value.as_matrix().reshape(-1,1))
scores = [datum['score'] for datum in results['scores']]
taxi_data['score'] = pandas.Series(scores, index=taxi_data.index)

score_mean = taxi_data.score.mean()
score_std = taxi_data.score.std()

score_cutoff = score_mean + 3*score_std # 平均スコアよりも3標準偏差離れているポイントを異常値としてみなす
anomalies = taxi_data[taxi_data['score'] > score_cutoff]

In [None]:
'''6.予測結果の可視化
異常値のデータポイントをハイライトして可視化する
'''
%matplotlib inline

import matplotlib.pyplot as plt

fig, ax1 = plt.subplots()
ax2 = ax1.twinx()

ax1.plot(taxi_data['value'], alpha=0.8)
ax1.set_ylabel('Taxi Ridership', color='C0')
ax1.tick_params('y', colors='C0')

ax2.plot(taxi_data['score'], color='C1')
ax2.plot(anomalies.index, anomalies.score, 'ko')
ax2.set_ylabel('Anomaly Score', color='C1')
ax2.tick_params('y', colors='C1')

fig.suptitle('Taxi Ridership in NYC')
plt.show()

In [None]:
'''memo
①F値、リコール、精度等のいろいろな基準でモデルを評価できそうなので、色々いじって確かめてみよう。
②元論文を読んでみたところ、「時系列データで異常値を見る」という点では、「スタート」と「エンド」を抽出できている。
（途中の部分は異常値が大きくなる感じではない）
（iForestでは、「エンド」は抽出できているが「スタート」は抽出できていない）
③元論文では、iForestと精度を比較している。結果としてはRRCFの方が良い、というものでありこの時はRRCFでは決定木を200個、各決定木に渡すデータサイズを1000にしている
（データサイズを変えても比較結果に影響はない、と論文では言っている）
④iForestと比較すると「positive precision」がとても向上していた。
⑤処理時間もiForestよりも早いので、「異常発生時に早くアラームをあげる」ことも可能と言っている
（論文で利用しているタクシーデータで、RRCFでは７時間、iForestは11時間で処理が完了している）
（ただ、上記の時間は１からモデルを作成する場合、なので異常発生時にアラームを早くあげるという点については意味のない検証である）
⑥時系列データでは「何分ごとにデータを取得するか」が非常に大事。（今回のタクシーデータでは30分ごと）
これは業務知識が必要となる。
このレンジが小さすぎるとしょっちゅう異常と判断して誤ったアラートをあげてしまうし、大きすぎると異常を見逃してしまう。
一方、各決定木に渡すデータサイズを変更することは結果にそこまで影響しない。
⑦論文の最後は「RRCFではデータの変化点を見つけることもできそう」と言っている。
⑧データポイントの置換については、似たようなデータを置換すると計算コストが小さくなる、とのこと
（データポイントを削除した際のモデル再計算については、分散や元データから計算できるので改めて再計算する必要がない）
⑨論文では、iForestの悪い点についても述べている。
　　a.特徴量をランダムに選んでいるせいで、「モデル生成のたびに結果が大きく異なる」こととなる可能性がある
  （しかしながら、特徴量が多くなっても柔軟に対応できる点はメリットである、とも述べている）
'''