# One-class SVM の詳細調査（２）

scikit-learn の <b>One-class SVM</b> について、カーネル・カスタマイズによる効果を確認します。

## (1) テストデータ／環境準備

マイオペで使用しているテストデータ（learning/tests/engine/fixtures/ 配下のCSVファイル）をベースに動作確認を行います。

動作確認にあたっては、MySQLdb に接続できないため、ローカル環境テスト用の Bot クラスを使用しています。

In [1]:
'''
    テスト環境を準備するためのモジュールを使用します。
'''
import sys
import os
learning_dir = os.path.abspath("../../") #<--- donusagi-bot/learning
os.chdir(learning_dir)

if learning_dir not in sys.path:
    sys.path.append(learning_dir)

from prototype.modules import TestTool

In [2]:
'''
    データファイルは、既存の訓練データを別場所にコピーしてから使用します
    テストデータは、csv_file_name で指定したものを使用します。
'''
csv_file_name = 'test_benefitone_conversation.csv'
copied_csv_file_path = TestTool.copy_testdata_csv(learning_dir, csv_file_name)

CSV file for test=[/Users/makmorit/GitHub/donusagi-bot/learning/prototype/resources/test_benefitone_conversation.csv]


## (2) TF-IDFベクターの準備

Bot クラス内に組み込まれている __build_training_set_from_csv 関数をバラして実行しています。

In [3]:
'''
    初期設定
    データファイル、エンコードを指定
    内容は、learn.py を参考にしました。    
'''
from learning.core.learn.learning_parameter import LearningParameter
attr = {
    'include_failed_data': False,
    'include_tag_vector': False,
    'classify_threshold': None,
    # 'algorithm': LearningParameter.ALGORITHM_NAIVE_BAYES
    'algorithm': LearningParameter.ALGORITHM_LOGISTIC_REGRESSION,
    # 'params_for_algorithm': { 'C': 200 }
    'params_for_algorithm': {}
}
learning_parameter = LearningParameter(attr)

bot_id = 7777
csv_file_path = copied_csv_file_path
csv_file_encoding = 'utf-8'

### (2-1) 訓練データのTF-IDFベクター

In [4]:
'''
    訓練データの生成（内部で TF-IDF 処理を実行）
'''
from learning.core.training_set.training_message_from_csv import TrainingMessageFromCsv
training_set = TrainingMessageFromCsv(bot_id, csv_file_path, learning_parameter, encoding=csv_file_encoding)
build_training_set_from_csv = training_set.build()

X = build_training_set_from_csv.x
y = build_training_set_from_csv.y

2017/03/20 PM 04:01:05 TrainingMessageFromCsv#__build_learning_training_messages count of learning data: 4114
2017/03/20 PM 04:01:05 TextArray#__init__ start
2017/03/20 PM 04:01:07 TextArray#to_vec start
2017/03/20 PM 04:01:07 TextArray#to_vec end


### (2-2) 外れデータのTF-IDFベクター

In [5]:
'''
    マイオペのプロダクション・コードと同じように、
    訓練データ作成時と同じベクトライザーを使用します。
'''
from learning.core.training_set.text_array import TextArray

test_X = [
    '人生相談をしたいのですが？', # featureが１件だけ得られるような質問文（ただしmajority）
    '何か習い事をしたほうがいいですか？', # featureが３件得られるような質問文
    '会社を辞めたいのですが誰に相談するのがいいですか？', # featureが４件得られるような質問文
    '有給休暇を取って世界旅行に行きたいと思っています。', # minority featureと判定されそうな質問文
    'これは自然言語の機械学習ですか？', # まったくfeatureが得られないような質問文
    '難解なプログラミング技術は必須？',
]
vectorizer = training_set.body_array.vectorizer
text_array = TextArray(test_X, vectorizer=vectorizer)

'''
    外れデータのTF-IDFベクターを取得
'''
X_error = text_array.to_vec()

2017/03/20 PM 04:01:07 TextArray#__init__ start
2017/03/20 PM 04:01:07 TextArray#to_vec start
2017/03/20 PM 04:01:07 TextArray#to_vec end


### (2-3) 外れデータのfeatureを確認

In [6]:
'''
    feature をダンプするためのツール
'''
def get_item_from_vocabulary(vocabulary, index):
    for k, v in vocabulary.items():
        if v == index:
            return k

    return None

def dump_features(arr, vocabulary):
    features_str = ''

    for i, v in enumerate(arr):
        if v == 0.0:
            continue

        if features_str != '':
            features_str += ' '
        
        item = get_item_from_vocabulary(vocabulary, i)
        features_str += '%s=%0.3f' % (item, v)

    return '[' + features_str + ']'

In [7]:
vocabulary = text_array._vectorizer.vocabulary_

for i, label in enumerate(X_error):
    arr = X_error[i].toarray()[0]
    dump_str = dump_features(arr, vocabulary)
    print('index=%d%s' % (i, dump_str))

index=0[する=1.000]
index=1[いい=0.577 する=0.577 何=0.577]
index=2[いい=0.500 する=0.500 会社=0.500 誰=0.500]
index=3[取る=0.577 思う=0.577 行く=0.577]
index=4[]
index=5[]


## (3) One-class SVMで学習

### (3-1) カスタムカーネルの定義

<b>線形カーネルをベースにカスタマイズ</b>したカーネルを使用して確認してみます。

こちらを参考にしました。

http://scikit-learn.org/stable/modules/svm.html#custom-kernels

ここでは、０件ないし１件しか feature が存在しないサンプルを、アノマリーとして検出させる事例を設定してみました。

In [8]:
'''
    カスタムカーネル
    引数：サンプル２件が引数となります
    戻り値：[feature数 * feature数] の行列
'''
from scipy.sparse import csr_matrix
import numpy as np

def clear_features(matrix):
    n_sample = matrix.shape[0]
    n_feature = matrix.shape[1]
    print("check_features: sample=%d, feature=%d" % (n_sample, n_feature))
    
    for i in range(0, n_sample):
        row = matrix.getrow(i)
        cnt_feature = row.getnnz()
        if cnt_feature > 1:
            continue # feature が２件以上あるサンプルはパス

        # feature が１件以下の場合は、全列をゼロクリア
        print("Detected as anomary: index=%d, feature count=%d" % (i, cnt_feature))
        matrix[i] = csr_matrix((1, n_feature))

def svm_custom_kernel(X, Y):
    # feature数が２件未満のサンプルは、feature が無いものと扱い、
    # 一律アノマリーと判定させます <---これはひとつの例です
    print(type(X))
    clear_features(X)
    
    # 線形カーネルと同様に演算します
    return np.dot(X, Y.T)

### (3-2) One-class SVMに、カスタムカーネルを使用するよう指定

訓練データの中にも、カスタムカーネルに引っかかってしまう（＝featureが１件しかない）サンプルがあるのが気になりますが・・・あくまでもカスタムカーネルの効果を確認するための例ですので、ここでは静観します。

In [9]:
'''
    One-class SVM with customized kernel, anomary is checked in kernel
'''
from sklearn import svm
clf_custom = svm.OneClassSVM(
    kernel=svm_custom_kernel # カスタムカーネルを使用
    ) 
clf_custom.fit(X)

<class 'scipy.sparse.csr.csr_matrix'>
check_features: sample=4114, feature=646
Detected as anomary: index=26, feature count=1
Detected as anomary: index=285, feature count=1
Detected as anomary: index=286, feature count=1
Detected as anomary: index=287, feature count=1
Detected as anomary: index=511, feature count=1
Detected as anomary: index=512, feature count=1
Detected as anomary: index=513, feature count=1
Detected as anomary: index=622, feature count=1
Detected as anomary: index=655, feature count=1
Detected as anomary: index=658, feature count=1
Detected as anomary: index=661, feature count=1
Detected as anomary: index=664, feature count=1
Detected as anomary: index=789, feature count=1
Detected as anomary: index=1013, feature count=1
Detected as anomary: index=1090, feature count=1
Detected as anomary: index=1093, feature count=1
Detected as anomary: index=1117, feature count=1
Detected as anomary: index=1119, feature count=1
Detected as anomary: index=1135, feature count=1
Dete

OneClassSVM(cache_size=200, coef0=0.0, degree=3, gamma='auto',
      kernel=<function svm_custom_kernel at 0x10a8b3ea0>, max_iter=-1,
      nu=0.5, random_state=None, shrinking=True, tol=0.001, verbose=False)

## (4) 外れデータを使って予測

In [10]:
'''
    外れデータを使用して、外れ判定を実行してみます
'''
y_pred_by_custom = clf_custom.predict(X_error)

<class 'scipy.sparse.csr.csr_matrix'>
check_features: sample=6, feature=646
Detected as anomary: index=0, feature count=1
Detected as anomary: index=4, feature count=0
Detected as anomary: index=5, feature count=0


明らかに異常とみられる質問文 (index=0, 4, 5) に対しては、アノマリーと判定されることが確認できます。

In [11]:
y_pred_by_custom

array([-1.,  1.,  1., -1., -1., -1.])

## (5) 結論

#### 線形カーネルをベースにカスタマイズしたカーネルを使用しても、アノマリー検出は可能なようです。

ただし、微妙な質問文に対して効果を得るには、所定の基準及び判定が必要となってしまいそうです。

(たとえば単体出現NGワードを設定しておいて、該当する場合にアノマリーと検出させるようなロジックにする、etc...)