# IsolationForest の動作確認

scikit-learn の <b>IsolationForest</b> を使用し、動作確認を行いました。


## (0) IsolationForest について

こちらを参照しました。

http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

仕組みとしては、


- feature をランダムに選択し、その feature について最大〜最小の間の値をランダムに分割することで、サンプルを分割（Isolation）する


- ランダムに分割されたサブサンプルから、ランダムフォレスト（複数の決定木群）を構成する


- ランダムフォレストの木の深さを平均したものを、正常性の尺度とする


- ランダムフォレストのなかで、パスが異常に短い（＝中間ノードが極端に少ない）サンプルを、アノマリーと判定する


・・・といったことのようです。

## (1) テストデータ／環境準備

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

from prototype.modules import TestTool

In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
copied_csv_file_path = TestTool.copy_testdata_csv(learning_dir, csv_file_name)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) TF-IDFベクターの準備

Bot クラス内に組み込まれている __build_training_set_from_csv 関数をバラして実行しています。

In [3]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

bot_id = 7777
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

In [4]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

2017/03/17 PM 08:36:36 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/17 PM 08:36:36 TextArray#__init__ start
2017/03/17 PM 08:36:37 TextArray#to_vec start
2017/03/17 PM 08:36:37 TextArray#to_vec end


In [5]:
'''
    ラベルごとのサンプル数を調査します。
'''
X = build_training_set_from_csv.x
y = build_training_set_from_csv.y
count = TestTool.count_sample_by_label(y)
count

[[4677, 14],
 [4678, 2584],
 [4679, 14],
 [4680, 14],
 [4683, 14],
 [4686, 14],
 [4687, 8],
 [4690, 8],
 [4691, 14],
 [4692, 44],
 [4693, 30],
 [4700, 12],
 [4707, 18],
 [4708, 14],
 [4709, 14],
 [4710, 14],
 [4711, 14],
 [4712, 16],
 [4713, 14],
 [4718, 20],
 [4719, 8],
 [4720, 20],
 [4721, 8],
 [4724, 8],
 [4727, 14],
 [4728, 62],
 [4729, 26],
 [4730, 20],
 [4731, 14],
 [4732, 22],
 [4733, 14],
 [4734, 34],
 [4735, 12],
 [4738, 14],
 [4739, 14],
 [4740, 14],
 [4741, 8],
 [4742, 20],
 [4743, 14],
 [4744, 14],
 [4745, 20],
 [4750, 22],
 [4751, 20],
 [4752, 14],
 [4753, 8],
 [4754, 8],
 [4755, 14],
 [4756, 20],
 [4757, 8],
 [4758, 28],
 [4759, 14],
 [4760, 8],
 [4761, 20],
 [4762, 8],
 [4766, 14],
 [4767, 14],
 [4772, 60],
 [4776, 8],
 [4781, 14],
 [4782, 14],
 [4783, 20],
 [4786, 8],
 [4792, 20],
 [4793, 8],
 [4794, 8],
 [4795, 14],
 [4797, 42],
 [4798, 36],
 [4800, 14],
 [4802, 14],
 [4804, 14],
 [4807, 8],
 [4808, 106],
 [4817, 26],
 [4821, 24],
 [4824, 16],
 [4827, 8],
 [4830, 22],


## (3) IsolationForestで学習

In [6]:
'''
    IsolationForest with default
'''
from sklearn.ensemble import IsolationForest
clf = IsolationForest() # デフォルトでは、外れ判定される件数の見積もりを全体の1割と想定
clf.fit(X)

IsolationForest(bootstrap=False, contamination=0.1, max_features=1.0,
        max_samples='auto', n_estimators=100, n_jobs=1, random_state=None,
        verbose=0)

## (4) 外れデータを使って予測

<b><a href="01.ipynb">こちらで以前確認した</a></b>外れと思しきデータ＋α を使用して予測します。

In [7]:
'''
    マイオペのプロダクション・コードと同じように、
    訓練データ作成時と同じベクトライザーを使用します。
'''
from learning.core.training_set.text_array import TextArray

test_X = [
    '人生相談をしたいのですが？', # 以前全く違う回答を誘導させた質問文です
    '何か習い事をしたほうがいいですか？', # 複数のfeatureが得られるような質問文を追加
    '会社を辞めたいのですが誰に相談すればいいですか？',
    '有給休暇を取って世界旅行に行きたいと思っています。',
]
vectorizer = training_set.body_array.vectorizer
text_array = TextArray(test_X, vectorizer=vectorizer)

'''
    外れデータのTF-IDFベクターを取得
'''
X_error = text_array.to_vec()

2017/03/17 PM 08:36:38 TextArray#__init__ start
2017/03/17 PM 08:36:38 TextArray#to_vec start
2017/03/17 PM 08:36:38 TextArray#to_vec end


In [8]:
'''
    外れデータを使用して、外れ判定を実行してみます
'''
y_pred_error = clf.predict(X_error)

#### 残念ながら、外れとは判定されませんでした・・・

In [9]:
y_pred_error

array([1, 1, 1, 1])

#### ちなみに、このサンプルの feature は以下の通りでした。

（ボキャブラリーの中身は<b><a href="08.ipynb#ご参考：ボキャブラリーの中身">こちらをご参照</a></b>）

In [10]:
'''
    feature をダンプするためのツール
'''
def get_item_from_vocabulary(vocabulary, index):
    for k, v in vocabulary.items():
        if v == index:
            return k

    return None

def dump_features(arr, vocabulary):
    features_str = ''

    for i, v in enumerate(arr):
        if v == 0.0:
            continue

        if features_str != '':
            features_str += ' '
        
        item = get_item_from_vocabulary(vocabulary, i)
        features_str += '%s=%0.3f' % (item, v)

    return '[' + features_str + ']'

In [11]:
vocabulary = text_array._vectorizer.vocabulary_

for i, label in enumerate(X_error):
    arr = X_error[i].toarray()[0]
    dump_str = dump_features(arr, vocabulary)
    print('index=%d%s' % (i, dump_str))

index=0[する=1.000]
index=1[いい=0.577 する=0.577 何=0.577]
index=2[いい=0.500 する=0.500 会社=0.500 誰=0.500]
index=3[取る=0.577 思う=0.577 行く=0.577]


## (5) ご参考：訓練データを使って予測

訓練データを使って外れ判定をしても、1割ほどのデータが外れ判定されてしまいます。

（デフォルトにおける、contamination=0.1 の指定通りの結果）

In [12]:
'''
    訓練データを使用して、外れ判定を実行してみます
'''
y_pred_train = clf.predict(X)

#### 長いですが、ご参考のため、全量を表示します。

--->error detected と表示されているのが、外れ判定されたサンプルになります。

訓練データのインデックスと、あらかじめ与えられたラベル、featureの値を出力させています。

One-clsss SVM とは違い、傾向としては下記例のように、少々の乖離では外れと判定されにくくなっています。

~~~~
One-class SVM での例：（外れ判定１件あり）
index=3928, label=4678 [会社=0.577 概要=0.577 欲しい=0.577]
index=3929, label=4678 [会社=0.577 概要=0.577 無い=0.577]--->error detected
index=3930, label=4678 [会社=0.577 案内=0.577 欲しい=0.577]
index=3931, label=4678 [会社=0.577 案内=0.577 無い=0.577]

IsolationForest での例：（外れ判定なし）
index=3928, label=4678 [会社=0.577 概要=0.577 欲しい=0.577]
index=3929, label=4678 [会社=0.577 概要=0.577 無い=0.577]
index=3930, label=4678 [会社=0.577 案内=0.577 欲しい=0.577]
index=3931, label=4678 [会社=0.577 案内=0.577 無い=0.577]
~~~~

In [13]:
'''
    外れ判定のエラー率を計算します --->0.1と算出されました
'''
error_count = 0.0
for i, label in enumerate(y):
    arr = X[i].toarray()[0]
    dump_str = dump_features(arr, vocabulary)
    if y_pred_train[i] == -1: # 外れと判定された場合
        print('index=%d, label=%d %s--->error detected' % (i, label, dump_str))
        error_count += 1.0
    if y_pred_train[i] == 1: # 外れと判定されなかった場合
        print('index=%d, label=%d %s' % (i, label, dump_str))

print('')
print('error rate=%0.1f' % (error_count/len(y)))

index=0, label=4677 [捺印=0.500 方法=0.500 申請=0.500 知る=0.500]--->error detected
index=1, label=4679 [する=0.447 印鑑=0.447 捺印=0.447 知る=0.447 種類=0.447]
index=2, label=4680 [ほしい=0.500 印紙=0.500 収入=0.500 教える=0.500]
index=3, label=4683 [契約=0.577 書=0.577 見る=0.577]
index=4, label=4686 [出張=0.577 方法=0.577 申請=0.577]
index=5, label=4687 [bt=0.447 hi=0.447 per=0.447 できる=0.447 ログイン=0.447]
index=6, label=4690 [bt=0.447 hi=0.447 per=0.447 する=0.447 登録=0.447]
index=7, label=4691 [bt=0.378 hi=0.378 per=0.378 する=0.378 変更=0.378 承認=0.378 権限=0.378]
index=8, label=4692 [小口=0.577 方法=0.577 申請=0.577]
index=9, label=4692 [suica=0.577 する=0.577 登録=0.577]
index=10, label=4692 [する=0.577 パスモ=0.577 登録=0.577]
index=11, label=4692 [icoca=0.577 する=0.577 登録=0.577]
index=12, label=4693 [プリンター=0.707 動く=0.707]
index=13, label=4693 [する=0.577 プリンター=0.577 故障=0.577]
index=14, label=4700 [プリンター=0.707 欲しい=0.707]
index=15, label=4707 [プリンター=0.707 換える=0.707]
index=16, label=4708 [動く=0.577 機=0.577 複合=0.577]
index=17, label=4709 [する=0.500 故障=